Agent Training Framework

Agent-R1Claw-R1 的强化学习训练框架

将多轮工具调用强化学习、可验证奖励训练和真实运行时数据闭环串成一条完整技术路线, 从研究型 Agent RL 走向 Production Runtime RL。

中国科学技术大学 · 认知智能全国重点实验室

一句话理解: Agent-R1 解决的是“Agent 如何被端到端地训练起来”,把强化学习从单轮文本生成扩展到多轮工具调用Claw-R1 解决的是“训练好的 Agent 如何进入真实系统并持续学习”,把 RL 从实验环境推进到真实运行时

方向概览

LLM Agent 的训练已经不再只是语言模型层面的 token 预测优化,而是逐步转向 带环境反馈的交互式决策学习。这类系统既要处理多轮上下文、工具调用、环境随机性, 也要面对部署后的真实用户请求分布、服务延迟、数据策划与策略回流等工程问题。

在这条路线上,Agent-R1 与 Claw-R1 对应两个连续阶段:前者建立多轮 Agent RL 的 理论抽象与训练机制,后者建立生产级 Agent 持续学习所需的 数据基础层与运行时桥梁

2
核心项目
覆盖研究与生产两阶段
5+
RL 算法支持
PPO / GRPO / RLOO 等
3
运行模式
白盒离线 / 黑盒离线 / 在线服务
~3×
Agent-R1 相比 RAG 基线
平均 EM 提升
Agent-R1 · Multi-turn RL

Agent-R1

第一代框架,核心问题是如何把标准强化学习训练框架扩展到多轮 Agent 场景。 它围绕 MDP 扩展、Action Mask、过程奖励和多算法训练机制,提供了一个 可复现实验、可精确信用分配、可支持工具调用的端到端 Agent RL 系统。

🎯 多轮工具调用 · 端到端 RL · Process Reward · Verifiable Training
🔧 Tool / ToolEnv / RayAgentTrainer · PPO / GRPO / REINFORCE++
Claw-R1 · Runtime RL

Claw-R1

第二代框架,核心问题是如何让真实部署的 Agent 在持续服务的同时继续训练。 它以 Middleware Layer 作为 Data Foundation,在 Agent Side 与 Training Side 之间 建立统一数据桥梁,让生产交互天然转化为训练数据。

Runtime RL · 边服务边训练 · 零侵入接入 · 真实分布数据
🔌 Gateway / DataPool / TrainingBackend · Online Data Curation

统一训练栈

如果把 Agent 强化学习看成一条完整流水线,那么无论是 Agent-R1 还是 Claw-R1, 本质上都在回答同一条链路上的不同问题:环境如何定义、轨迹如何收集、奖励如何计算、策略如何回流

Phase 01

交互环境建模

把工具调用、多轮上下文与环境反馈纳入状态转移过程,定义 Agent 真正学习的决策空间。

Phase 02

轨迹采集与筛选

采集完整 rollout 轨迹,并对步骤级交互、策略版本、质量信号进行结构化记录与策划。

Phase 03

奖励建模与优化

结合结果奖励、过程奖励与软奖励模型,实现更稳定的信用分配和策略更新。

Phase 04

运行时持续回流

让真实用户交互成为训练数据来源,使训练系统从离线实验闭环走向在线运行闭环。

训练环节 Agent-R1 重点解决 Claw-R1 重点解决
环境定义 把工具调用和环境反馈纳入 MDP,解决多轮 Agent RL 的状态、动作与奖励定义 把真实 Agent Runtime 视为数据来源,建立服务侧与训练侧的统一协议
数据采集 围绕 benchmark 与离线 rollout 采集训练轨迹 围绕真实请求、黑盒代理与在线服务持续采集训练数据
奖励信号 结果奖励 + 过程奖励 + Action Mask 对齐的信用分配 规则奖励 + 判别式 RM + 生成式 RM + 人类反馈信号整合
系统目标 验证多轮 Agent RL 的可行性与训练收益 实现部署即训练、边服务边训练的 Production Runtime RL

Agent-R1:端到端多轮交互 RL

Agent-R1 的核心贡献,不是简单把 RL 应到 Agent 上,而是把 Agent 的多轮工具调用过程 变成一个可以被标准训练器消费、被奖励函数评估、被策略优化器稳定更新的完整 RL 问题。

关键机制

🔄

MDP 框架扩展

把交互历史、工具触发、环境随机性和终止条件全部纳入状态转移,让 Agent RL 不再局限于单轮文本生成。

🎭

Action Mask

只在 Agent 真正生成的 token 上计算策略梯度,显式排除环境反馈和 prompt 片段,避免错误反向传播。

🏷️

过程奖励

为有效工具调用、中间推理路径和任务推进步骤提供更密集的学习信号,缓解仅靠最终答案带来的奖励稀疏问题。

🧰

多算法训练器

支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline、RLOO 等算法,便于系统比较不同优化策略在 Agent 任务上的表现。

在整体训练栈中的位置

🧱

训练抽象层

通过 ToolToolEnv 和训练器,把 Agent 的 rollout、环境更新、奖励计算与梯度更新组织成一致工作流。

📊

实验验证层

在多跳问答任务上验证多轮 RL 的真实收益,为后续 Runtime RL 提供可复用的训练机制和评估经验。

实验结果(多跳问答)

方法 HotpotQA† 2WikiMultihopQA† Musique* 平均 EM
Naive RAG0.19160.17920.02770.1328
PPO0.41360.54680.15520.3719
GRPO0.44050.57410.14850.3877
REINFORCE++0.37680.47960.13360.3300

† 域内;* 域外 · 模型:Qwen2.5-3B-Instruct

Claw-R1:Production Runtime RL

Claw-R1 进一步回答了一个更难的问题:当 Agent 已经部署为真实服务后, 如何不打断它的生产流程,同时把真实交互回流为可训练、可评估、可持续迭代的数据资产。

三层系统视角

🛰️

Agent Side

白盒 Agent 可直接提交步骤级数据;黑盒 Agent 只需修改 base_url 即可接入;在线服务可直接采集真实用户请求。

🌉

Middleware Layer

Gateway + DataPool 作为核心数据桥梁,负责采集、评估、版本追踪、分流和数据策划,是 Claw-R1 的真正差异化所在。

🏋️

Training Side

可插拔 TrainingBackend 把策划后的数据转换给具体训练引擎,实现训练系统与运行系统的解耦和异步协作。

为什么它比普通训练框架更进一步

从离线数据走向真实分布

训练样本不再完全来自预制 benchmark,而是来自真实用户请求、真实环境约束和真实失败模式,训练分布更接近部署分布。

🔄

从实验闭环走向服务闭环

Agent 一边服务、一边积累轨迹、一边进入训练回流,让模型迭代不再是与运行系统割裂的独立流程。

运行模式 接入方式 适用场景
白盒离线 Agent 直接提交步骤数据 研究验证、算法调试、训练机制开发
黑盒离线 通过 Gateway 代理统一采集 外部 Agent 系统接入、低侵入数据回收
黑盒在线服务 替换 base_url,服务时实时采集 部署即训练、Production Runtime RL

两代框架对比

维度 Agent-R1 Claw-R1
目标问题 多轮 Agent 如何被端到端 RL 训练 真实 Agent 如何在运行时持续学习
系统边界 训练环境内部的 rollout 与优化闭环 服务系统、数据中间层与训练系统的跨边界闭环
数据来源 任务数据集与离线交互轨迹 真实请求、白盒/黑盒 Agent、在线服务轨迹
核心机制 MDP 扩展、Action Mask、过程奖励、多算法训练 Gateway、DataPool、Reward 评估、Data Curation、TrainingBackend
典型价值 证明多轮 Agent RL 可行且有效 证明 Agent 训练可以真正走进生产运行时

演进路线

从 Agent-R1 到 Claw-R1,不是两个孤立项目,而是一条持续推进的研究路线: 先把训练问题定义清楚,再把训练系统接入真实世界。

阶段一:建立 Agent RL 的基本训练抽象

围绕多轮工具调用场景定义状态、动作、奖励与 rollout 机制,建立可稳定训练的 Agent RL 基础设施。

阶段二:验证训练收益与算法适配

在可验证任务上比较 PPO、GRPO、REINFORCE++、RLOO 等算法,沉淀面向 Agent 的信用分配与实验范式。

阶段三:打通运行时与训练系统

引入 Data Foundation,把服务请求、策略版本、奖励评估和训练消费组织成统一数据管线,降低接入成本。

阶段四:迈向持续在线优化

让真实部署的 Agent 在服务中不断积累高价值轨迹,形成长期在线学习闭环,推动 Agentic RL 从研究走向生产。