Agent Harness · 产品定义 × 工程实践 · 巴黎

熊布朗

高鹏(熊布朗) 高鹏 / GAO PENG·GitHub @foreveryh·𝕏 熊布朗

做 Agent Harness 的产品定义,同时保留工程实践能力——自己验证想法、读代码、看日志,判断模型和工具的边界。

关注的核心,是模型在真实任务里的行为边界:什么时候是模型能力问题,什么时候是上下文组织、工具调用、权限、任务拆解或运行环境的问题。

近两年高强度一线使用 Agent 工具自建 Harness「Kin」在线运行开源项目 1,300+ ★ · 年贡献 1,290+银行 Agent 真实交付首尔大学 CS 本科
MODEL + HARNESS = AGENT TASK 一段要被托付的任务 HARNESS 把模型放进真实任务的外部系统 CONTEXT · 上下文 TOOLS · MCP · SKILLS PERMISSION · 权限 SANDBOX · 沙箱 MODEL 能力,但需要被组织 OBSERVE · RECOVER · 可观测 / 可恢复 SHARE · HAND-OFF · 共享 / 接力 FIG.01 — Model + Harness = Agent

01 — 关于

About

熊布朗,本名高鹏。Agent Harness 产品方向,现居巴黎。社交与开源账号都用这个名字。

过去两年高强度使用 Claude Code、Cursor、Codex、Hermes 等 Agent / AI Coding 工具,并把它们用在真实的产品设计、代码实现、调试、交付和自建 Harness 实验里。

交付节奏稳定:每个月至少做出一个可以交给用户的项目。在 AI 辅助下,我还没遇到过一个月内做不出来的 AI App 或 Agent。

主责是 Agent Harness 的产品定义,但保留足够强的工程实践能力——用来快速验证想法、理解模型和工具的边界、与工程和研究团队高质量协作。

比起泛 AI 产品,我更关注模型在真实任务里的行为边界:什么时候是模型能力问题,什么时候是上下文组织、工具调用、权限边界、任务拆解或运行环境的问题。工作方式,是从真实任务和失败场景出发,定义机制、指标和可迭代的 Agent 工作流。

工程对我不是目的——它只服务于一件事:给 LLM 在解决此刻任务时,恰如其分的上下文

SPEC.001 — 熊布朗 / 高鹏 REV 2026
ROLEAgent Harness 产品 / 工程
THESISModel + Harness = Agent
TOOLINGClaude Code · Cursor · Codex · Hermes
MECHANISMAgent Loop · Tool Use · MCP · Skills · KV Cache · RLS
BUILTKin · mentis · 银行 Agent
EVAL任务级日志 · 指标设计 · 失败归因
CADENCE每月 ≥ 1 个可交付项目
BASEParis · 首尔大学 CS 本科
IDGitHub @foreveryh · 𝕏 熊布朗

02 — 判断与方法

从对话到任务,
缺的不是更大的聊天框

而是一套让模型稳定进入真实任务的外部系统。下面是我做 Agent 这些年收敛出的三条判断,以及衡量它们的方法。

01

共享的任务状态,
而非私有上下文。

小团队用 Agent,真正困难的不是让模型多做一步,而是让任务过程能被理解、共享、接力和收束。Agent 的运行状态应该是团队资产,而不是停在某个成员浏览器里的临时上下文。

02

边界即产品,
而非自由度。

工具、权限、沙箱、人在环确认、可中断机制,决定一个 Agent 能不能进入客户侧真实、需要负责的环境。把“给模型自由”和“让用户可控”放进同一套产品框架,是核心设计问题。

03

失败要能归因,
反馈才能闭环。

失败来自模型能力、上下文组织、工具定义、任务拆解、运行环境,还是交互设计?分得清,才进得了下一轮迭代。我的工作方式,就是从真实任务的失败场景倒推产品机制。

评测与反馈 How I measure

任务级日志

把用户意图、上下文来源、工具调用、模型输出、人工接管和失败恢复,组织成可复盘的记录。

指标设计

任务完成深度、工具调用成功率、上下文命中、人工接管率、中断恢复率、成本消耗、失败归因。

反馈闭环

把真实任务里的失败案例,转化为产品机制、评测数据、标注策略,以及模型 / 工具的改进线索。

03 — 代表项目

Selected works

都是真实交付、在线运行、被人使用的项目;不是 demo。每一个,都是一次把恰当的上下文 + 受控的工具交给模型的练习。

Kin 工作台:共享会话与工具流 VIDEOassets/work/kin.mp4 ·(封面 kin.png)· 架构图可选 kin/1.png…
FIG.01 · Kin — 共享会话与工具流
01
CO-WORK AGENT个人项目2026在线运行

Kin

客户侧部署的小团队 Agent Harness:共享会话、任务接力、会话续跑、权限模式、Preview 沙箱、多模型接入、自托管。基于 Claude Agent SDK,WebSocket + 每会话独立 worker 承接流式事件、工具调用与运行状态。

Claude Agent SDK · MCP · Skills · WebSocket · Docker
客户 360 画像(脱敏) IMAGE · 脱敏assets/work/bank/1.png … 2.png
FIG.02 · 客户 360 画像与双路问答(脱敏)
02
FINANCE · 强约束独立交付2026

某城商行 · 客户 360 智能体

金融强约束下的业务 Agent。双路问答——文档路径(混合检索 → RRF 融合 → 重排 → 带引用)与 SQL 路径(NL2SQL → 模板 / 表白名单 → 参数化 → RLS);多租户、三级权限、全量审计,答案可溯源到表 / 字段或文档 / 页码。

NL2SQL · RAG · RLS · 审计 · 上下文隔离
AI PPT Studio 操作台 VIDEO / IMAGEassets/work/jumpxai.mp4 ·(封面 jumpxai.png)· 架构图可选 jumpxai/1.png…
FIG.03 · AI PPT Studio — Web 操作台
03
SKILL 引擎 · AGENT 外壳个人项目2026

Jumpx AI PPT Studio

PPT 生成不是自由生成,而是结构化生成:jumpx-ppt-forge 是 Skill 引擎,把生成拆成可编辑的叙事配方层(Recipe)和锁定的机械契约层(Schema / 质量门禁 / 渲染规范),九步串行管线、每步都有产物和硬门禁;Studio 是驾驭 Forge 的轻量 Agent 外壳,负责人工介入、预览和导出,不重新实现生成逻辑。

jumpx-ppt-forge Skill 引擎 · Recipe / Mechanics 分层 · 九步管线与硬门禁 · LangGraph Agent Runner
mentis 多智能体架构 IMAGEassets/work/mentis/1.png … 5.png
FIG.04 · mentis — 角色化多智能体架构
04
OPEN SOURCE · ★2952025

mentis + MentisSandbox

Multi-Agent / Subagent 编排框架 + Agent 代码执行沙箱。研究型实践,结论很克制:多智能体的难点不在角色数量,而在任务拆解、上下文隔离、结果回收和错误传播;任务线性、共享强、成本敏感时,单 Agent + 好工具 + 好上下文往往更稳。

Multi-Agent · Planner / Supervisor · Sandbox
企业 DeepResearch 智能体 VIDEO / IMAGEassets/work/deepresearch.mp4 ·(封面 .png)· 架构图可选 deepresearch/1.png…
FIG.05 · 企业 DeepResearch 智能体
05
DEEP RESEARCHNeuxnet.AI2024–2025

企业级 DeepResearch 智能体

面向企业级复杂调研场景的多阶段推理 Agent:自动拆解研究问题、并行检索与资料整合、溯源引用、生成结构化报告。重点在推理阶段可控、信息溯源、长上下文管理和人在环校验,让研究成果可验证而非不可信的黑盒。

多阶段推理 · 检索整合 · 溯源引用 · 报告生成
薯研社 运营面板 VIDEO / IMAGEassets/work/xhs.mp4 ·(封面 xhs.png)· 架构图可选 xhs/1.png…
FIG.06 · 薯研社 — 运营面板与风控状态
06
BROWSER AGENT个人独立产品2025

社媒自主运营 Agent

面向内容运营的浏览器自动化 Agent,用于低风险、可审计的重复任务,关键发布由人确认。重点在行为前置判断、风控状态机、健康 / 限流信号监控、异常降速 / 隔离 / 恢复、全程审计和人在环

浏览器自动化 · 风控状态机 · Human-in-loop

04 — 经历

Experience

2026.01 — 至今

独立 AI Agent 项目负责人 Jumpxai 创始人

独立推进 Agent Harness 产品、企业级 Agent 交付、公开项目和 AI 实战训练营。

2023.08 — 2026.01

Neuxnet.AI AI 产品线负责人

负责 AI 产品方向规划、项目落地与团队建设,覆盖 ToB / ToC 双线。主导 RAG、Deep Research、Character AI、类 Manus 智能体、行业 Agents 等产品从需求调研、方案定义、研发协作到上线迭代。

2013.04 — 2018.07

LINE Plus Corporation(韩国) 中国区 GM / 法人代表 / 运营负责人

负责 LINE(IM)及相关产品在中国市场的本地化、用户增长、商务合作和团队管理,参与 B612 等产品中国区落地,形成跨国协作、平台产品、本地化增长和团队管理经验。

2018 — 2022
2011 — 2013

[两次创业] 空瓶集(定制化护肤)/ 途客圈(定制化旅行)

2018 创办数据驱动型美肤选品平台(空瓶集),负责产品设计、运营规划、团队搭建和商业化闭环,运营至 2022;2011–2013 从事定制化旅行类创业项目(途客圈),为后续产品、工程和创业实践建立基础。

教育 首尔大学 Seoul National University · 计算机科学与技术 · 本科
语言 中文(母语)· English(working)· 한국어(working)

05 — Contact

联系

开放新机会 · Available