共享的任务状态,
而非私有上下文。
小团队用 Agent,真正困难的不是让模型多做一步,而是让任务过程能被理解、共享、接力和收束。Agent 的运行状态应该是团队资产,而不是停在某个成员浏览器里的临时上下文。
Agent Harness · 产品定义 × 工程实践 · 巴黎
高鹏 / GAO PENG·GitHub @foreveryh·𝕏 熊布朗
做 Agent Harness 的产品定义,同时保留工程实践能力——自己验证想法、读代码、看日志,判断模型和工具的边界。
关注的核心,是模型在真实任务里的行为边界:什么时候是模型能力问题,什么时候是上下文组织、工具调用、权限、任务拆解或运行环境的问题。
01 — 关于
熊布朗,本名高鹏。Agent Harness 产品方向,现居巴黎。社交与开源账号都用这个名字。
过去两年高强度使用 Claude Code、Cursor、Codex、Hermes 等 Agent / AI Coding 工具,并把它们用在真实的产品设计、代码实现、调试、交付和自建 Harness 实验里。
交付节奏稳定:每个月至少做出一个可以交给用户的项目。在 AI 辅助下,我还没遇到过一个月内做不出来的 AI App 或 Agent。
主责是 Agent Harness 的产品定义,但保留足够强的工程实践能力——用来快速验证想法、理解模型和工具的边界、与工程和研究团队高质量协作。
比起泛 AI 产品,我更关注模型在真实任务里的行为边界:什么时候是模型能力问题,什么时候是上下文组织、工具调用、权限边界、任务拆解或运行环境的问题。工作方式,是从真实任务和失败场景出发,定义机制、指标和可迭代的 Agent 工作流。
工程对我不是目的——它只服务于一件事:给 LLM 在解决此刻任务时,恰如其分的上下文。
02 — 判断与方法
而是一套让模型稳定进入真实任务的外部系统。下面是我做 Agent 这些年收敛出的三条判断,以及衡量它们的方法。
小团队用 Agent,真正困难的不是让模型多做一步,而是让任务过程能被理解、共享、接力和收束。Agent 的运行状态应该是团队资产,而不是停在某个成员浏览器里的临时上下文。
工具、权限、沙箱、人在环确认、可中断机制,决定一个 Agent 能不能进入客户侧真实、需要负责的环境。把“给模型自由”和“让用户可控”放进同一套产品框架,是核心设计问题。
失败来自模型能力、上下文组织、工具定义、任务拆解、运行环境,还是交互设计?分得清,才进得了下一轮迭代。我的工作方式,就是从真实任务的失败场景倒推产品机制。
任务级日志
把用户意图、上下文来源、工具调用、模型输出、人工接管和失败恢复,组织成可复盘的记录。
指标设计
任务完成深度、工具调用成功率、上下文命中、人工接管率、中断恢复率、成本消耗、失败归因。
反馈闭环
把真实任务里的失败案例,转化为产品机制、评测数据、标注策略,以及模型 / 工具的改进线索。
03 — 代表项目
都是真实交付、在线运行、被人使用的项目;不是 demo。每一个,都是一次把恰当的上下文 + 受控的工具交给模型的练习。
VIDEOassets/work/kin.mp4 ·(封面 kin.png)· 架构图可选 kin/1.png…
客户侧部署的小团队 Agent Harness:共享会话、任务接力、会话续跑、权限模式、Preview 沙箱、多模型接入、自托管。基于 Claude Agent SDK,WebSocket + 每会话独立 worker 承接流式事件、工具调用与运行状态。
IMAGE · 脱敏assets/work/bank/1.png … 2.png
金融强约束下的业务 Agent。双路问答——文档路径(混合检索 → RRF 融合 → 重排 → 带引用)与 SQL 路径(NL2SQL → 模板 / 表白名单 → 参数化 → RLS);多租户、三级权限、全量审计,答案可溯源到表 / 字段或文档 / 页码。
VIDEO / IMAGEassets/work/jumpxai.mp4 ·(封面 jumpxai.png)· 架构图可选 jumpxai/1.png…
PPT 生成不是自由生成,而是结构化生成:jumpx-ppt-forge 是 Skill 引擎,把生成拆成可编辑的叙事配方层(Recipe)和锁定的机械契约层(Schema / 质量门禁 / 渲染规范),九步串行管线、每步都有产物和硬门禁;Studio 是驾驭 Forge 的轻量 Agent 外壳,负责人工介入、预览和导出,不重新实现生成逻辑。
IMAGEassets/work/mentis/1.png … 5.png
Multi-Agent / Subagent 编排框架 + Agent 代码执行沙箱。研究型实践,结论很克制:多智能体的难点不在角色数量,而在任务拆解、上下文隔离、结果回收和错误传播;任务线性、共享强、成本敏感时,单 Agent + 好工具 + 好上下文往往更稳。
VIDEO / IMAGEassets/work/deepresearch.mp4 ·(封面 .png)· 架构图可选 deepresearch/1.png…
面向企业级复杂调研场景的多阶段推理 Agent:自动拆解研究问题、并行检索与资料整合、溯源引用、生成结构化报告。重点在推理阶段可控、信息溯源、长上下文管理和人在环校验,让研究成果可验证而非不可信的黑盒。
VIDEO / IMAGEassets/work/xhs.mp4 ·(封面 xhs.png)· 架构图可选 xhs/1.png…
面向内容运营的浏览器自动化 Agent,用于低风险、可审计的重复任务,关键发布由人确认。重点在行为前置判断、风控状态机、健康 / 限流信号监控、异常降速 / 隔离 / 恢复、全程审计和人在环。
04 — 经历
独立推进 Agent Harness 产品、企业级 Agent 交付、公开项目和 AI 实战训练营。
负责 AI 产品方向规划、项目落地与团队建设,覆盖 ToB / ToC 双线。主导 RAG、Deep Research、Character AI、类 Manus 智能体、行业 Agents 等产品从需求调研、方案定义、研发协作到上线迭代。
负责 LINE(IM)及相关产品在中国市场的本地化、用户增长、商务合作和团队管理,参与 B612 等产品中国区落地,形成跨国协作、平台产品、本地化增长和团队管理经验。
2018 创办数据驱动型美肤选品平台(空瓶集),负责产品设计、运营规划、团队搭建和商业化闭环,运营至 2022;2011–2013 从事定制化旅行类创业项目(途客圈),为后续产品、工程和创业实践建立基础。
教育 首尔大学 Seoul National University · 计算机科学与技术 · 本科
语言 中文(母语)· English(working)· 한국어(working)
05 — Contact