Skip to content

Production Agent Scenario

Agentic RL 中的隐含假设

几乎所有 Agentic RL 框架都建立在一个隐含假设上:

训练阶段 ≠ 部署阶段

标准流程:在离线/模拟数据上训练 → 部署固定模型 → 定期重训。

这在研究场景下可行,但在生产环境中遇到根本性障碍:

问题 表现
分布偏移 训练数据是合成的;真实用户请求分布不同 → 部署后能力退化
冷启动 新部署的模型对特定用户的习惯、工具、工作流一无所知 → 漫长的"预热"期
长尾任务 Benchmark 覆盖常见任务;用户的小众需求无法被离线训练覆盖
环境漂移 工具 API 更新、用户行为变化 → 静态模型无法自适应

Claw-R1 的核心场景:个人 Agent 自我进化

Claw-R1 的首个验证场景是 OpenClaw 个人助手

设置:
  用户在 Mac Mini 上部署 OpenClaw,连接 Slack / 微信 / 邮件。
  每天通过消息与 OpenClaw 交互:日程安排、信息检索、代码辅助等。

传统方案:
  OpenClaw 使用固定的 GPT-4o / Claude 3.5。
  能力不会随使用而增长。

Claw-R1 方案:
  1. 用户消息 → OpenClaw → Gateway(拦截 LLM 调用)
  2. Gateway 记录每次交互 → DataPool(本地)
  3. Reward Model 对每次交互评分
  4. 远程服务器上的训练引擎持续消费 DataPool,更新模型权重
  5. 更新的权重推送回 Gateway;下次调用使用改进后的模型

结果:
  用户 Mac Mini 上的 OpenClaw 会随时间推移越来越了解该用户。

传统 RL 框架无法满足的三个需求

① 服务连续性

模型权重更新不能中断 Gateway 的请求处理。在 Claw-R1 中:

  • Trainer 直接管理 Rollout Engine 和 Reward Model 的生命周期(wake_up / sleep / 权重同步)
  • Gateway 是纯 HTTP 代理 — 只转发请求和提交 step;不管理任何引擎生命周期
  • 这保证了即使在权重更新期间,请求转发和数据收集也能持续进行

② 无预设数据

传统框架需要预先收集的数据集。Claw-R1 的训练数据完全来自实时用户交互

  • 用户问了什么、Agent 如何回答、调用了哪些工具 — 这些自动成为训练数据
  • 零数据工程;数据随服务运行自然积累

③ 真实环境的 Reward 信号

传统 RLVR 的 reward 来自可验证的任务结果。生产环境的 reward 更加微妙:

  • 用户继续追问 → 隐式正信号
  • 用户纠正 Agent → 负反馈
  • 任务完成后无后续 → Reward Model 估计中间步骤质量

Claw-R1 使用 Reward Model 将这些软信号转换为可训练的 process reward。

三种运行模式

模式 Agent 类型 数据来源 说明
白盒离线 AgentFlow (Python) 合成数据集或预收集的 trajectory 已完整实现;推荐用于研究
黑盒离线 任何 HTTP Agent 预收集的数据集 已完整实现;通过 base_url 接入
黑盒在线 任何 HTTP Agent 实时用户交互 目标生产模式;Gateway 端点已实现

部署 = 训练

Claw-R1 引入了一种新范式:

┌─────────────────────────────────────────────────────┐
│         传统:训练 → 部署(固定)                      │
│                                                      │
│  [合成数据] → [训练] → [固定模型] → 用户               │
└─────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────┐
│         Claw-R1:部署 = 训练(持续)                   │
│                                                      │
│  用户 ──► Agent ──► [实时数据] ──► 训练 ──► Agent     │
│           ▲___________________________________|      │
└─────────────────────────────────────────────────────┘

在这种范式下:

  • 每次用户交互都是一个训练样本
  • 每次模型更新都改善 Agent 的真实世界表现
  • Agent 运行时间越长,对其特定用户和环境的表现越好