Agent 训练框架 — Agent-R1 & Claw-R1

一句话理解： Agent-R1 解决的是“Agent 如何被端到端地训练起来”，把强化学习从单轮文本生成扩展到多轮工具调用； Claw-R1 解决的是“训练好的 Agent 如何进入真实系统并持续学习”，把 RL 从实验环境推进到真实运行时。

方向概览

LLM Agent 的训练已经不再只是语言模型层面的 token 预测优化，而是逐步转向 带环境反馈的交互式决策学习。这类系统既要处理多轮上下文、工具调用、环境随机性，也要面对部署后的真实用户请求分布、服务延迟、数据策划与策略回流等工程问题。

在这条路线上，Agent-R1 与 Claw-R1 对应两个连续阶段：前者建立多轮 Agent RL 的 理论抽象与训练机制，后者建立生产级 Agent 持续学习所需的 数据基础层与运行时桥梁。

核心项目
覆盖研究与生产两阶段

RL 算法支持
PPO / GRPO / RLOO 等

运行模式
白盒离线 / 黑盒离线 / 在线服务

~3×

Agent-R1 相比 RAG 基线
平均 EM 提升

Agent-R1 · Multi-turn RL

Agent-R1

第一代框架，核心问题是如何把标准强化学习训练框架扩展到多轮 Agent 场景。它围绕 MDP 扩展、Action Mask、过程奖励和多算法训练机制，提供了一个可复现实验、可精确信用分配、可支持工具调用的端到端 Agent RL 系统。

🎯 多轮工具调用 · 端到端 RL · Process Reward · Verifiable Training

🔧 Tool / ToolEnv / RayAgentTrainer · PPO / GRPO / REINFORCE++

查看详情 → GitHub arXiv

Claw-R1 · Runtime RL

Claw-R1

第二代框架，核心问题是如何让真实部署的 Agent 在持续服务的同时继续训练。它以 Middleware Layer 作为 Data Foundation，在 Agent Side 与 Training Side 之间建立统一数据桥梁，让生产交互天然转化为训练数据。

⚡ Runtime RL · 边服务边训练 · 零侵入接入 · 真实分布数据

🔌 Gateway / DataPool / TrainingBackend · Online Data Curation

查看详情 → GitHub 使用文档

统一训练栈

如果把 Agent 强化学习看成一条完整流水线，那么无论是 Agent-R1 还是 Claw-R1，本质上都在回答同一条链路上的不同问题：环境如何定义、轨迹如何收集、奖励如何计算、策略如何回流。

Phase 01

交互环境建模

把工具调用、多轮上下文与环境反馈纳入状态转移过程，定义 Agent 真正学习的决策空间。

Phase 02

轨迹采集与筛选

采集完整 rollout 轨迹，并对步骤级交互、策略版本、质量信号进行结构化记录与策划。

Phase 03

奖励建模与优化

结合结果奖励、过程奖励与软奖励模型，实现更稳定的信用分配和策略更新。

Phase 04

运行时持续回流

让真实用户交互成为训练数据来源，使训练系统从离线实验闭环走向在线运行闭环。

训练环节	Agent-R1 重点解决	Claw-R1 重点解决
环境定义	把工具调用和环境反馈纳入 MDP，解决多轮 Agent RL 的状态、动作与奖励定义	把真实 Agent Runtime 视为数据来源，建立服务侧与训练侧的统一协议
数据采集	围绕 benchmark 与离线 rollout 采集训练轨迹	围绕真实请求、黑盒代理与在线服务持续采集训练数据
奖励信号	结果奖励 + 过程奖励 + Action Mask 对齐的信用分配	规则奖励 + 判别式 RM + 生成式 RM + 人类反馈信号整合
系统目标	验证多轮 Agent RL 的可行性与训练收益	实现部署即训练、边服务边训练的 Production Runtime RL

Agent-R1：端到端多轮交互 RL

Agent-R1 的核心贡献，不是简单把 RL 应到 Agent 上，而是把 Agent 的多轮工具调用过程变成一个可以被标准训练器消费、被奖励函数评估、被策略优化器稳定更新的完整 RL 问题。

关键机制

🔄

MDP 框架扩展

把交互历史、工具触发、环境随机性和终止条件全部纳入状态转移，让 Agent RL 不再局限于单轮文本生成。

🎭

Action Mask

只在 Agent 真正生成的 token 上计算策略梯度，显式排除环境反馈和 prompt 片段，避免错误反向传播。

🏷️

过程奖励

为有效工具调用、中间推理路径和任务推进步骤提供更密集的学习信号，缓解仅靠最终答案带来的奖励稀疏问题。

🧰

多算法训练器

支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline、RLOO 等算法，便于系统比较不同优化策略在 Agent 任务上的表现。

在整体训练栈中的位置

🧱

训练抽象层

通过 Tool、ToolEnv 和训练器，把 Agent 的 rollout、环境更新、奖励计算与梯度更新组织成一致工作流。

📊

实验验证层

在多跳问答任务上验证多轮 RL 的真实收益，为后续 Runtime RL 提供可复用的训练机制和评估经验。

实验结果（多跳问答）

方法	HotpotQA†	2WikiMultihopQA†	Musique*	平均 EM
Naive RAG	0.1916	0.1792	0.0277	0.1328
PPO	0.4136	0.5468	0.1552	0.3719
GRPO	0.4405	0.5741	0.1485	0.3877
REINFORCE++	0.3768	0.4796	0.1336	0.3300

† 域内；* 域外 · 模型：Qwen2.5-3B-Instruct

Claw-R1：Production Runtime RL

Claw-R1 进一步回答了一个更难的问题：当 Agent 已经部署为真实服务后，如何不打断它的生产流程，同时把真实交互回流为可训练、可评估、可持续迭代的数据资产。

三层系统视角

🛰️

Agent Side

白盒 Agent 可直接提交步骤级数据；黑盒 Agent 只需修改 base_url 即可接入；在线服务可直接采集真实用户请求。

🌉

Middleware Layer

Gateway + DataPool 作为核心数据桥梁，负责采集、评估、版本追踪、分流和数据策划，是 Claw-R1 的真正差异化所在。

🏋️

Training Side

可插拔 TrainingBackend 把策划后的数据转换给具体训练引擎，实现训练系统与运行系统的解耦和异步协作。

为什么它比普通训练框架更进一步

⚡

从离线数据走向真实分布

训练样本不再完全来自预制 benchmark，而是来自真实用户请求、真实环境约束和真实失败模式，训练分布更接近部署分布。

🔄

从实验闭环走向服务闭环

Agent 一边服务、一边积累轨迹、一边进入训练回流，让模型迭代不再是与运行系统割裂的独立流程。

运行模式	接入方式	适用场景
白盒离线	Agent 直接提交步骤数据	研究验证、算法调试、训练机制开发
黑盒离线	通过 Gateway 代理统一采集	外部 Agent 系统接入、低侵入数据回收
黑盒在线服务	替换 `base_url`，服务时实时采集	部署即训练、Production Runtime RL

两代框架对比

维度	Agent-R1	Claw-R1
目标问题	多轮 Agent 如何被端到端 RL 训练	真实 Agent 如何在运行时持续学习
系统边界	训练环境内部的 rollout 与优化闭环	服务系统、数据中间层与训练系统的跨边界闭环
数据来源	任务数据集与离线交互轨迹	真实请求、白盒/黑盒 Agent、在线服务轨迹
核心机制	MDP 扩展、Action Mask、过程奖励、多算法训练	Gateway、DataPool、Reward 评估、Data Curation、TrainingBackend
典型价值	证明多轮 Agent RL 可行且有效	证明 Agent 训练可以真正走进生产运行时

演进路线

从 Agent-R1 到 Claw-R1，不是两个孤立项目，而是一条持续推进的研究路线：先把训练问题定义清楚，再把训练系统接入真实世界。

阶段一：建立 Agent RL 的基本训练抽象

围绕多轮工具调用场景定义状态、动作、奖励与 rollout 机制，建立可稳定训练的 Agent RL 基础设施。

阶段二：验证训练收益与算法适配

在可验证任务上比较 PPO、GRPO、REINFORCE++、RLOO 等算法，沉淀面向 Agent 的信用分配与实验范式。

阶段三：打通运行时与训练系统

引入 Data Foundation，把服务请求、策略版本、奖励评估和训练消费组织成统一数据管线，降低接入成本。

阶段四：迈向持续在线优化

让真实部署的 Agent 在服务中不断积累高价值轨迹，形成长期在线学习闭环，推动 Agentic RL 从研究走向生产。