从端到端 RL 训练到 Production Runtime RL,
两代框架的系统性探索与突破。
中国科学技术大学 · 认知智能全国重点实验室
LLM Agent 的训练正经历一次重要范式演变:从早期依赖人类标注的 SFT,到基于可验证结果的 RLVR,再到以真实 Agent Runtime 为训练环境的 Runtime RL。 中国科大认知智能全国重点实验室的工作覆盖了这一演变的后两个阶段。
面向 LLM Agent 的端到端强化学习训练框架。将 MDP 框架系统性延伸至多轮工具调用场景,通过 Action Mask 与过程奖励实现精确信用分配。在多跳问答任务上,最优 RL 算法(GRPO)的平均 EM 达到 0.39,比 RAG 基线(0.13)高出约 3 倍。
Agent-R1 是本方向的第一代框架,从理论与实现两个维度系统性地回应了将 RL 应用于 LLM Agent 训练的核心挑战。
将标准 MDP 延伸至多轮工具调用:状态空间包含完整交互历史,动作空间覆盖 token 生成与工具调用触发,状态转移包含环境随机性。
精确区分 Agent 生成内容与环境反馈,确保策略梯度损失只计算在 Agent 实际决策的 token 上,避免向 prompt 或环境输出反向传播错误梯度。
除最终结果奖励外,为每次有效工具调用分配过程奖励,大幅缓解稀疏奖励问题,提供更密集的学习信号。
原生支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline、RLOO 五种 RL 算法,支持多模态 VLM 训练。
| 方法 | HotpotQA† | 2WikiMultihopQA† | Musique* | 平均 EM |
|---|---|---|---|---|
| Naive RAG | 0.1916 | 0.1792 | 0.0277 | 0.1328 |
| PPO | 0.4136 | 0.5468 | 0.1552 | 0.3719 |
| GRPO(最优) | 0.4405 | 0.5741 | 0.1485 | 0.3877 |
| REINFORCE++ | 0.3768 | 0.4796 | 0.1336 | 0.3300 |
† 域内;* 域外 · 模型:Qwen2.5-3B-Instruct
Claw-R1 在 Agent-R1 的基础上,进一步解决了将 RL 训练引入生产级 Agent 系统的核心问题——如何让真实部署的 Agent 在服务用户的同时持续学习。
仅需将 base_url 指向 Gateway,任意黑盒 Agent(包括 TypeScript 实现、容器化部署、自定义 HTTP 客户端)均可零改动接入训练框架。
Gateway + DataPool 是 Agent Side 与 Training Side 的唯一桥梁。Gateway 为 FastAPI 独立进程,DataPool 为 Ray Actor,实现完全异步、互不阻塞。
支持白盒离线、黑盒离线、黑盒在线服务三种模式。在线模式下,Agent 边为用户服务边训练,真实交互数据自动积累为训练语料,无需数据工程。
| 维度 | Agent-R1 | Claw-R1 |
|---|---|---|
| 定位 | 研究导向的端到端 RL 训练框架 | 生产导向的 Runtime RL 训练基础设施 |
| Agent 接入 | 白盒 AgentFlow,需继承框架接口 | 替换 base_url,任意黑盒 Agent 零改动接入 |
| 训练数据来源 | 预设任务数据集(离线 Rollout) | 真实用户请求(在线服务产生的轨迹) |
| 服务与训练 | 训练时 Agent 不对外服务 | 训练时 Agent 持续对外服务(边服务边训练) |
| 核心组件 | Tool + ToolEnv + RayAgentTrainer | Gateway + DataPool + RayAgentTrainer |
| 奖励信号 | Verifiable 任务结果奖励 + 过程奖励 | 真实环境反馈 + Reward Model(软奖励) |
本方向的两个项目共同构成一条从「研究场景 RL」到「生产场景 RL」的完整技术路线:
构建 MDP 扩展框架,验证多轮 RL 训练的可行性,提供 PPO/GRPO 等多算法支持,确立 Action Mask + 过程奖励的信用分配机制。
以 Agent-R1 为底层训练引擎,引入 Middleware Layer 解耦服务与训练,通过 base_url 接入真实 Agent,实现「以真实交互为训练数据」的闭环学习。