Agent Training Framework

Agent 强化学习训练框架

从端到端 RL 训练到 Production Runtime RL,
两代框架的系统性探索与突破。

中国科学技术大学 · 认知智能全国重点实验室

研究方向: 本方向聚焦 LLM Agent 的强化学习训练基础设施。 Agent-R1 构建了端到端的多轮工具调用 RL 训练框架; Claw-R1 进一步将真实 Agent Runtime(OpenClaw)与 RLVR 训练深度结合, 实现「边服务边训练」的 Production RL 新范式。

方向概览

LLM Agent 的训练正经历一次重要范式演变:从早期依赖人类标注的 SFT,到基于可验证结果的 RLVR,再到以真实 Agent Runtime 为训练环境的 Runtime RL。 中国科大认知智能全国重点实验室的工作覆盖了这一演变的后两个阶段。

~3×
Agent-R1 优于 RAG 基线
(平均 EM)
5+
支持 RL 算法
PPO / GRPO 等
3
运行模式
白盒/黑盒/在线服务
0
Claw-R1 代码侵入
仅需替换 base_url
Agent-R1 · arXiv 2511.14460

Agent-R1

面向 LLM Agent 的端到端强化学习训练框架。将 MDP 框架系统性延伸至多轮工具调用场景,通过 Action Mask 与过程奖励实现精确信用分配。在多跳问答任务上,最优 RL 算法(GRPO)的平均 EM 达到 0.39,比 RAG 基线(0.13)高出约 3 倍。

🎯 端到端 RL · 多轮工具调用 · Process Rewards · Action Mask
🔧 PPO · GRPO · REINFORCE++ · RLOO · 多模态支持
Claw-R1 · Runtime RL

Claw-R1

将真实 Agent Runtime(OpenClaw)与 RLVR 训练深度结合的新一代训练基础设施。通过 base_url 即接入的零侵入方式,让生产级 Agent 在持续提供服务的同时进行强化学习训练,以 Middleware Layer(Gateway + DataPool)为唯一桥梁,实现「部署即训练」。

Runtime RL · 边服务边训练 · 零代码侵入 · 黑盒接入
🔌 Middleware Layer · Gateway + DataPool · Ray Actor · 异步训练

Agent-R1:端到端 RL 训练框架

Agent-R1 是本方向的第一代框架,从理论与实现两个维度系统性地回应了将 RL 应用于 LLM Agent 训练的核心挑战。

核心设计

🔄

MDP 框架扩展

将标准 MDP 延伸至多轮工具调用:状态空间包含完整交互历史,动作空间覆盖 token 生成与工具调用触发,状态转移包含环境随机性。

🎭

Action Mask

精确区分 Agent 生成内容与环境反馈,确保策略梯度损失只计算在 Agent 实际决策的 token 上,避免向 prompt 或环境输出反向传播错误梯度。

🏷️

过程奖励

除最终结果奖励外,为每次有效工具调用分配过程奖励,大幅缓解稀疏奖励问题,提供更密集的学习信号。

🔧

多算法支持

原生支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline、RLOO 五种 RL 算法,支持多模态 VLM 训练。

实验结果(多跳问答)

方法 HotpotQA† 2WikiMultihopQA† Musique* 平均 EM
Naive RAG0.19160.17920.02770.1328
PPO0.41360.54680.15520.3719
GRPO(最优) 0.4405 0.5741 0.1485 0.3877
REINFORCE++0.37680.47960.13360.3300

† 域内;* 域外 · 模型:Qwen2.5-3B-Instruct

查看 Agent-R1 完整介绍 →

Claw-R1:Production Runtime RL

Claw-R1 在 Agent-R1 的基础上,进一步解决了将 RL 训练引入生产级 Agent 系统的核心问题——如何让真实部署的 Agent 在服务用户的同时持续学习。

三大核心设计

🌐

base_url 即接入

仅需将 base_url 指向 Gateway,任意黑盒 Agent(包括 TypeScript 实现、容器化部署、自定义 HTTP 客户端)均可零改动接入训练框架。

🔀

Middleware Layer

Gateway + DataPool 是 Agent Side 与 Training Side 的唯一桥梁。Gateway 为 FastAPI 独立进程,DataPool 为 Ray Actor,实现完全异步、互不阻塞。

🏭

Production 场景

支持白盒离线、黑盒离线、黑盒在线服务三种模式。在线模式下,Agent 边为用户服务边训练,真实交互数据自动积累为训练语料,无需数据工程。

查看 Claw-R1 完整介绍 →

两代框架对比

维度Agent-R1Claw-R1
定位 研究导向的端到端 RL 训练框架 生产导向的 Runtime RL 训练基础设施
Agent 接入 白盒 AgentFlow,需继承框架接口 替换 base_url,任意黑盒 Agent 零改动接入
训练数据来源 预设任务数据集(离线 Rollout) 真实用户请求(在线服务产生的轨迹)
服务与训练 训练时 Agent 不对外服务 训练时 Agent 持续对外服务(边服务边训练)
核心组件 Tool + ToolEnv + RayAgentTrainer Gateway + DataPool + RayAgentTrainer
奖励信号 Verifiable 任务结果奖励 + 过程奖励 真实环境反馈 + Reward Model(软奖励)

演进路线

本方向的两个项目共同构成一条从「研究场景 RL」到「生产场景 RL」的完整技术路线:

1️⃣

Agent-R1:奠定理论与工程基础

构建 MDP 扩展框架,验证多轮 RL 训练的可行性,提供 PPO/GRPO 等多算法支持,确立 Action Mask + 过程奖励的信用分配机制。

2️⃣

Claw-R1:迈向 Production Runtime RL

以 Agent-R1 为底层训练引擎,引入 Middleware Layer 解耦服务与训练,通过 base_url 接入真实 Agent,实现「以真实交互为训练数据」的闭环学习。