Agent-R1:端到端强化学习训练 LLM Agent

将 MDP 框架系统性延伸至多轮工具调用场景,
构建模块化、易扩展的 Agent 强化学习训练框架。

Mingyue Cheng · Jie Ouyang · Shuo Yu · Ruiran Yan · Yucong Luo · Zirui Liu · Daoyu Wang · Qi Liu · Enhong Chen

中国科学技术大学 · 认知智能全国重点实验室

TL;DR: Agent-R1 将 MDP 框架系统性延伸到 LLM Agent 的多轮工具调用场景, 构建了一套模块化、易扩展的端到端强化学习训练框架, 在多跳问答基准上,最优 RL 算法比 RAG 基线高出约 3 倍(EM 0.39 vs 0.13)。

项目简介

大语言模型(LLM)越来越多地被用于构建能与环境主动交互的 Agent——通过工具调用、多步推理解决复杂问题。 强化学习(RL)被认为是训练此类 Agent 的关键技术,但其有效应用仍处于早期阶段, 面临多轮交互不稳定、奖励信号设计复杂、泛化能力受限等独特挑战。

Agent-R1 从概念与实践两个维度系统性地回应了这些挑战: 一方面,对 RL 方法论在 LLM Agent 场景下的应用进行梳理与澄清; 另一方面,提供一个灵活、易用的端到端训练框架,开发者只需定义工具和奖励函数即可快速迁移到新场景。

Workflow vs Agentic Workflow vs Autonomous Agent
图 1:Workflow、Agentic Workflow 与自主 Agent 的对比。Agent-R1 训练完全自主、无预设工作流的 Agent,通过端到端行动—反馈循环与环境交互。
~3×
优于 RAG 基线
(平均 EM)
5
支持 RL 算法
PPO / GRPO / REINFORCE++ 等
3
评测基准
HotpotQA / 2Wiki / Musique
多模态支持
VLM + 多模态 RL

核心问题

将 RL 应用于 LLM Agent 训练时,Agent 场景的独特性带来了与静态任务截然不同的挑战:

🔄

多轮序列决策

Agent 需要在多轮交互中保持记忆、做出连贯决策,而非单次生成文本。

🎲

随机环境反馈

工具调用的返回结果具有不确定性,状态转移不再是确定性的,训练更难收敛。

🏷️

奖励信号稀疏

任务结果奖励只在最终步给出,难以为中间工具调用提供有效的学习信号。

🧩

框架缺口

现有 RLVR 框架多面向静态任务,缺乏对多轮工具交互、过程奖励的系统支持。

MDP 框架扩展

Agent-R1 将标准 MDP 框架系统性延伸到 LLM Agent 场景, 明确刻画了多轮交互、工具调用、过程奖励等核心差异:

MDP 组件 静态 LLM LLM Agent(Agent-R1)
状态空间 S 当前文本序列(prompt + 已生成 tokens) 完整多轮交互历史,包含每轮的 Agent 输出与环境反馈
动作空间 A 从词表中选择下一个 token token 生成,特定序列可触发外部工具调用
状态转移 P 确定性:拼接 token 即得下一状态 混合:文本生成确定,工具调用引入随机环境反馈
奖励函数 R 稀疏:仅在生成结束时给出结果奖励 密集:结果奖励 + 中间步骤过程奖励(工具调用有效性)

这一框架扩展是 Agent-R1 的理论基础——只有精确建模 Agent 与环境的交互机制, 才能设计出真正适配多轮工具调用场景的 RL 训练方法。

过程奖励(Process Rewards)

在 Agent 场景中,除任务最终结果奖励 r_f 外, Agent-R1 还为每次工具调用分配过程奖励 r_p, 对成功执行中间步骤给予即时正向反馈,大幅缓解奖励稀疏问题。

结果奖励 r_f

在终止状态给出,衡量最终任务完成质量,如答案的 Exact Match 得分。

过程奖励 r_p

在每次有效工具调用后给出,衡量中间步骤的执行效果,提供更密集的学习信号。

Agent-R1 训练框架

Agent-R1 将传统单轮 RL 训练框架扩展为支持多轮交互 Rollout 的完整系统, 核心由 ToolToolEnv 两个模块构成。

Agent-R1 Framework
图 2:Agent-R1 训练轨迹示意图。Agent 在 Rollout 阶段进行多轮推理与工具调用,接收环境反馈,最终用完整轨迹进行 RL 更新。

两大核心模块

关键训练机制

🎭

Action Mask

精确区分 Agent 生成内容与环境反馈,确保策略梯度损失只计算在 Agent 实际决策的 token 上,避免向 prompt 或环境输出反向传播错误梯度。

📐

Advantage Alignment

优势值计算同时融合过程奖励与结果奖励,并与 Action Mask 对齐,确保每一步的信用分配精确对应 Agent 的实际决策行为。

🔧

多算法支持

框架原生支持 PPO、GRPO、REINFORCE++、REINFORCE++Baseline 和 RLOO,可灵活切换评估不同 RL 算法在 Agent 场景下的表现。

🖼️

多模态支持

与视觉语言模型(VLM)无缝集成,支持同时处理文本与视觉输入的多模态 Agent 训练场景。

实验结果

在多跳问答(Multi-hop QA)任务上进行验证,Agent 使用 wikisearch 工具查询维基百科(~3600 万段落)来回答需要多步推理的问题。

实验设置

主要结果

方法 HotpotQA† 2WikiMultihopQA† Musique* 平均
Base Tool Call 0.1372 0.0891 0.0277 0.0847
Naive RAG 0.1916 0.1792 0.0277 0.1328
PPO 0.4136 0.5468 0.1552 0.3719
GRPO 最优 0.4405 0.5741 0.1485 0.3877
REINFORCE++ 0.3768 0.4796 0.1336 0.3300
REINFORCE++Baseline 0.3966 0.5406 0.1485 0.3619
RLOO 0.4089 0.5641 0.1419 0.3716

† 域内数据集;* 域外数据集

所有 RL 训练方法均大幅超越基线:最弱的 RL 算法(REINFORCE++,平均 EM 0.33) 仍比 Naive RAG(0.13)高出约 2.5 倍。GRPO 综合表现最优, PPO 在域外 Musique 数据集上表现突出,展现了良好的泛化能力。

消融实验:Action Mask 的重要性

消融实验证明 Action Mask(用于损失计算与优势对齐) 是 Agent-R1 框架中最关键的设计之一。 去掉 loss mask 或 advantage mask 均会导致性能显著下降, 说明精确的信用分配对多轮 Agent 训练至关重要。

引用

如果本项目对您的研究有所帮助,请考虑引用:

@misc{cheng2025agentr1trainingpowerfulllm, title={Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning}, author={Mingyue Cheng and Jie Ouyang and Shuo Yu and Ruiran Yan and Yucong Luo and Zirui Liu and Daoyu Wang and Qi Liu and Enhong Chen}, year={2025}, eprint={2511.14460}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.14460}, }

致谢

感谢 DeepSeek-R1 提供的模型与启发性思路;感谢 veRL 团队提供的强大训练基础设施;感谢 RAGEN 团队的开创性探索对本项目早期方向的深刻影响。