LLM Agent 的训练已经不再只是语言模型层面的 token 预测优化,而是逐步转向 带环境反馈的交互式决策学习。这类系统既要处理多轮上下文、工具调用、环境随机性, 也要面对部署后的真实用户请求分布、服务延迟、数据策划与策略回流等工程问题。
在这条路线上,Agent-R1 与 Claw-R1 对应两个连续阶段:前者建立多轮 Agent RL 的 理论抽象与训练机制,后者建立生产级 Agent 持续学习所需的 数据基础层与运行时桥梁。
第一代框架,核心问题是如何把标准强化学习训练框架扩展到多轮 Agent 场景。 它围绕 MDP 扩展、Action Mask、过程奖励和多算法训练机制,提供了一个 可复现实验、可精确信用分配、可支持工具调用的端到端 Agent RL 系统。
如果把 Agent 强化学习看成一条完整流水线,那么无论是 Agent-R1 还是 Claw-R1, 本质上都在回答同一条链路上的不同问题:环境如何定义、轨迹如何收集、奖励如何计算、策略如何回流。
把工具调用、多轮上下文与环境反馈纳入状态转移过程,定义 Agent 真正学习的决策空间。
采集完整 rollout 轨迹,并对步骤级交互、策略版本、质量信号进行结构化记录与策划。
结合结果奖励、过程奖励与软奖励模型,实现更稳定的信用分配和策略更新。
让真实用户交互成为训练数据来源,使训练系统从离线实验闭环走向在线运行闭环。
| 训练环节 | Agent-R1 重点解决 | Claw-R1 重点解决 |
|---|---|---|
| 环境定义 | 把工具调用和环境反馈纳入 MDP,解决多轮 Agent RL 的状态、动作与奖励定义 | 把真实 Agent Runtime 视为数据来源,建立服务侧与训练侧的统一协议 |
| 数据采集 | 围绕 benchmark 与离线 rollout 采集训练轨迹 | 围绕真实请求、黑盒代理与在线服务持续采集训练数据 |
| 奖励信号 | 结果奖励 + 过程奖励 + Action Mask 对齐的信用分配 | 规则奖励 + 判别式 RM + 生成式 RM + 人类反馈信号整合 |
| 系统目标 | 验证多轮 Agent RL 的可行性与训练收益 | 实现部署即训练、边服务边训练的 Production Runtime RL |
Agent-R1 的核心贡献,不是简单把 RL 应到 Agent 上,而是把 Agent 的多轮工具调用过程 变成一个可以被标准训练器消费、被奖励函数评估、被策略优化器稳定更新的完整 RL 问题。
把交互历史、工具触发、环境随机性和终止条件全部纳入状态转移,让 Agent RL 不再局限于单轮文本生成。
只在 Agent 真正生成的 token 上计算策略梯度,显式排除环境反馈和 prompt 片段,避免错误反向传播。
为有效工具调用、中间推理路径和任务推进步骤提供更密集的学习信号,缓解仅靠最终答案带来的奖励稀疏问题。
支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline、RLOO 等算法,便于系统比较不同优化策略在 Agent 任务上的表现。
通过 Tool、ToolEnv 和训练器,把 Agent 的 rollout、环境更新、奖励计算与梯度更新组织成一致工作流。
在多跳问答任务上验证多轮 RL 的真实收益,为后续 Runtime RL 提供可复用的训练机制和评估经验。
| 方法 | HotpotQA† | 2WikiMultihopQA† | Musique* | 平均 EM |
|---|---|---|---|---|
| Naive RAG | 0.1916 | 0.1792 | 0.0277 | 0.1328 |
| PPO | 0.4136 | 0.5468 | 0.1552 | 0.3719 |
| GRPO | 0.4405 | 0.5741 | 0.1485 | 0.3877 |
| REINFORCE++ | 0.3768 | 0.4796 | 0.1336 | 0.3300 |
† 域内;* 域外 · 模型:Qwen2.5-3B-Instruct
Claw-R1 进一步回答了一个更难的问题:当 Agent 已经部署为真实服务后, 如何不打断它的生产流程,同时把真实交互回流为可训练、可评估、可持续迭代的数据资产。
白盒 Agent 可直接提交步骤级数据;黑盒 Agent 只需修改 base_url 即可接入;在线服务可直接采集真实用户请求。
Gateway + DataPool 作为核心数据桥梁,负责采集、评估、版本追踪、分流和数据策划,是 Claw-R1 的真正差异化所在。
可插拔 TrainingBackend 把策划后的数据转换给具体训练引擎,实现训练系统与运行系统的解耦和异步协作。
训练样本不再完全来自预制 benchmark,而是来自真实用户请求、真实环境约束和真实失败模式,训练分布更接近部署分布。
Agent 一边服务、一边积累轨迹、一边进入训练回流,让模型迭代不再是与运行系统割裂的独立流程。
| 运行模式 | 接入方式 | 适用场景 |
|---|---|---|
| 白盒离线 | Agent 直接提交步骤数据 | 研究验证、算法调试、训练机制开发 |
| 黑盒离线 | 通过 Gateway 代理统一采集 | 外部 Agent 系统接入、低侵入数据回收 |
| 黑盒在线服务 | 替换 base_url,服务时实时采集 |
部署即训练、Production Runtime RL |
| 维度 | Agent-R1 | Claw-R1 |
|---|---|---|
| 目标问题 | 多轮 Agent 如何被端到端 RL 训练 | 真实 Agent 如何在运行时持续学习 |
| 系统边界 | 训练环境内部的 rollout 与优化闭环 | 服务系统、数据中间层与训练系统的跨边界闭环 |
| 数据来源 | 任务数据集与离线交互轨迹 | 真实请求、白盒/黑盒 Agent、在线服务轨迹 |
| 核心机制 | MDP 扩展、Action Mask、过程奖励、多算法训练 | Gateway、DataPool、Reward 评估、Data Curation、TrainingBackend |
| 典型价值 | 证明多轮 Agent RL 可行且有效 | 证明 Agent 训练可以真正走进生产运行时 |
从 Agent-R1 到 Claw-R1,不是两个孤立项目,而是一条持续推进的研究路线: 先把训练问题定义清楚,再把训练系统接入真实世界。
围绕多轮工具调用场景定义状态、动作、奖励与 rollout 机制,建立可稳定训练的 Agent RL 基础设施。
在可验证任务上比较 PPO、GRPO、REINFORCE++、RLOO 等算法,沉淀面向 Agent 的信用分配与实验范式。
引入 Data Foundation,把服务请求、策略版本、奖励评估和训练消费组织成统一数据管线,降低接入成本。
让真实部署的 Agent 在服务中不断积累高价值轨迹,形成长期在线学习闭环,推动 Agentic RL 从研究走向生产。