Agent-R1 — A Unified Framework for Agentic RL

TL;DR： Agent-R1 是面向 Agentic RL 的统一模块化训练框架。它把每一轮交互建模为 step-level RL transition，并把轨迹表示、上下文构造、环境接口和优化算法解耦，让 GRPO、PPO 等算法可以在同一多轮 Agent 训练底座上比较和扩展。

项目背景

现代 LLM 基础设施已经形成清晰分层：推理与服务侧由 vLLM、SGLang 等系统提供高吞吐生成、批量解码和结构化执行；训练侧由 DeepSpeed、FSDP、Megatron-LM 等框架支持分布式优化与大规模并行训练。这种模块化基础设施对常规 LLM 开发有效，但强化学习训练需要把推理侧 rollout 与 训练侧 optimization 重新接成一个闭环。

从监督学习到 RL 的变化不只是换一个 loss。监督训练的数据和标签通常预先准备好，而 LLM RL 需要模型先采样生成，再由奖励模型、可验证规则或环境反馈评估，最后把这些轨迹送回优化器。RLHF、RLVR、PPO、GRPO 等方法都依赖这一 rollout-reward-replay-update 循环。

Agentic RL 又进一步把单轮 prompt-response 扩展成多轮交互：模型需要观察上下文、调用工具、接收环境反馈，并在长期轨迹中持续调整后续动作。因此，框架必须同时处理工具执行、环境状态、轨迹构造、上下文管理和策略优化。这也是 Agent-R1 采用 step-level MDP 的直接动机。

Rollout in agentic RL — Agentic RL 的 rollout：Agent 持续观察上下文、生成动作，并从工具或环境接收反馈。

Optimization in agentic RL — Agentic RL 的 optimization：交互轨迹被训练循环 replay，并通过 RL objective 更新策略。

项目定位

Agent-R1 从论文中的核心观察出发：把整条轨迹看作一个不断增长的 token 序列，已经不足以描述真实的 Agentic RL。新版 Agent-R1 围绕 step-level 的轨迹表示 与 灵活的上下文管理 重新组织训练抽象。每个交互步骤都保留观察、LLM 动作、环境反馈、奖励和下一观察，使 rollout 与训练保持一致，同时允许环境按任务需要构造下一轮上下文，而不是被固定的 append-only 历史拼接策略束缚。

核心挑战

Agentic RL 的难点不只是把已有 RLVR 算法搬到 Agent 上。多轮工具交互会改变状态和信用分配的基本形态：

轨迹不再是单条文本

多轮 Agent 行为包含观察、动作、工具反馈和下一观察，简单拼接成一个 token 序列会隐藏交互边界。

Rollout 与训练易错位

message trace 重新转文本再 tokenize 会产生 retokenization drift，影响 log-prob、action mask 与动作边界。

上下文不是越长越好

工具输出可能冗长，历史可能无关；下一轮观察应由环境按任务构造，而不只是无界追加历史。

算法与系统耦合过重

优化目标、奖励、workflow、rollout、model serving 和训练后端常被反复重写，难以复用和公平比较。

Step-level MDP

Agent-R1 将每一轮交互视为原生 RL transition。环境接口可以写作 E(o_t, a_t) = (o_{t+1}, r_t, d_t, e_t)：当前观察 o_t 触发 Agent 动作 a_t，环境返回下一观察、奖励、终止标记和反馈。这个边界让 workflow、工具、环境和优化器都围绕同一个 step-native 抽象通信。

MDP 组件	Token-level / Message-level 管线	Agent-R1
交互单位	通常以 token 流或 chat messages 组织，step 边界隐式存在	每个 step 显式保存观察、动作、环境反馈、奖励和下一观察
轨迹重放	message trace 可能需要重新文本化和 tokenize，带来边界漂移	保留 rollout 时的结构与动作边界，使 replay 与训练保持一致
上下文构造	常见实现为 append-only 历史拼接	由环境定义 `C(z_0,...,z_t)`，可保留、摘要、裁剪或重排历史
信用分配	通常偏 token-level，过程奖励和 step 信号需要额外适配	同一 substrate 支持 token-level、step-level 或混合信用分配

在这个表示下，一条 rollout 被写作 τ = {z_t}，其中 z_t = (o_t, a_t, e_t, r_t, o_{t+1})。优化层仍然可以对动作内部 token 计算策略梯度，但奖励、mask 和 advantage 都能精确对齐到真实发生的 Agent 决策。

与现有框架的定位

论文中将 Agent-R1 放在开源 Agentic RL 框架谱系中比较：veRL 与 slime 更偏 token-level， Agent Lightning 已强调 step-level 交互，但上下文管理多为隐式；Agent-R1 同时显式化 step-level MDP abstraction 与 flexible context management。

Step-level trajectory

把交互步骤作为训练记录的基本单位，既保存精确 replay，又保留动作、反馈和奖励的语义边界。

Flexible context management

下一观察由环境根据结构化历史生成，使训练可以研究不同 memory/context 策略对学习质量的影响。

Agent-R1 框架设计

Agent-R1 的目标是在算法侧与系统侧之间建立统一接口：算法侧关注 reward、advantage、credit assignment 和 policy objective；系统侧关注 workflow 执行、rollout sampling、model serving 与大规模优化。新版框架用分层抽象把这些能力组织到同一训练基座中。

Agent-R1 framework — Agent-R1 框架概览：workflow、环境、轨迹表示与优化模块通过 step-native 交互边界连接。

核心抽象

1

Step-native Environment 环境以 (o_t, a_t) → (o_{t+1}, r_t, d_t, e_t) 的形式驱动多轮交互，统一工具执行、反馈返回、奖励计算和终止判定。
2

Structured Step Trace 每个 step 保留 observation、action、feedback、reward 与 next observation，避免 message 重建造成的 token/边界不一致。
3

Layered Interfaces workflow、environment、rollout、optimization 分层解耦，使不同任务和不同 RL 算法可以共用训练基础设施。
4

Flexible Optimization 框架不绑定单一算法，advantage estimation 与 policy objective 分离，当前支持 GRPO、PPO/GAE、RLOO、REINFORCE++、REINFORCE++ Baseline、GiGPO、StepPO 等训练配置。

当前支持的算法

Agent-R1 将 algorithm.adv_estimator 与 actor_rollout_ref.actor.policy_loss.loss_mode 分开配置：前者决定 advantage / return 的估计方式，后者决定策略损失形式。因此，框架可以在同一套环境、rollout 和 step trace 上组合不同的信用分配与优化目标，而不是把算法写死在任务流程里。

方法	信用分配粒度	是否需要 Critic
GRPO	Trajectory-level	否
PPO / GAE	Token-level	是
RLOO	Trajectory-level	否
REINFORCE++	Token-level	否
REINFORCE++ Baseline	Token-level	否
GiGPO	Trajectory-level	否
StepPO	Step-level	是

关键训练机制

Action Mask

只让 Agent 动作 token 进入 policy loss，避免 prompt、工具结果或环境反馈被错误优化。

Credit Alignment

优势信号可以按 token 或 step 展开，并与动作边界对齐，便于研究更细粒度的信用分配。

多算法支持

同一环境和 rollout 配置下比较 GRPO、PPO/GAE、RLOO、REINFORCE++、GiGPO、StepPO 等方法，让优化器差异更可观察。

上下文策略可插拔

环境可以选择 append-only、sliding-window、summary 等上下文构造规则，并在相同训练设置下评估效果。

轨迹表示与上下文管理

Step-level 的轨迹表示

在多轮 Agent 训练中，轨迹表示首先要服务于 replay 与 optimization。常见的 message trace 便于 workflow 构建和调试，但它并不保留 rollout 时模型实际生成的精确 token 序列；如果训练时再把 messages 拼回文本并重新 tokenize，就可能移动动作边界，改变 action mask，进而扭曲用于优化的 log-prob。另一类 flat token sequence 能避免重新 tokenize 的问题，但仍把交互当成一条 append-only 序列，step 边界是隐式的。

Agent-R1 因此采用结构化的 step trace 作为原生轨迹抽象。每条 rollout 被存成一组 step record，每个 record 显式保存 observation、action、environment feedback、reward 与 next observation。这样既能忠实 replay 原始交互，又能知道哪一段 token 属于一次完整的 Agent 动作、这次动作触发了什么反馈、以及反馈如何改变下一步观察。token-level objective 仍可作用在 step 内部的动作 token 上， step-level reward 或 process supervision 也可以直接对齐到对应 transition。

Trajectory representation — 轨迹表示从 message trace 演进到 token-consistent record，再到结构化 step-level trace。

灵活的上下文管理

灵活的上下文管理是 Agent-R1 的第二个关键设计点。多轮交互中，工具输出可能很长，中间推理可能对下一步决策并不重要，完整历史也可能超过有效上下文预算。如果框架把下一轮 observation 固定为简单的 append-only 拼接，那么 replay 记录和模型可见上下文会被强行绑定在一起。

Agent-R1 将下一步上下文交给环境通过规则 o_{t+1} = C(z_0,...,z_t) 构造。这意味着环境可以保留最新工具结果、摘要早期历史、过滤无关中间步骤，或按照任务需要重组可见上下文；同时，完整 step trace 仍保留在训练记录中，供优化和分析使用。因而，轨迹表示负责保存“真实发生了什么”，上下文管理负责决定“下一步模型应该看到什么”，两者通过同一套 step-level 设计连接。

Flexible context management case — 上下文管理示例：历史可以被保留、裁剪、摘要或重组，但完整 step trace 仍保留在训练记录中。

避免 retokenization drift

message trace 方便调试，但训练时重新拼文本再 tokenize 可能改变动作边界。Agent-R1 用 step trace 保留 rollout 结构。

显式研究 memory policy

上下文构造被暴露为环境规则后，可以比较 append-only、sliding-window 与 LLM summary 等策略对学习的影响。

实验结果

论文从两个角度评估 Agent-R1：一是框架能否迁移到不同 Agent 任务，二是在固定训练设置下，上下文管理策略是否会影响学习质量。实验使用 Qwen3-4B，覆盖算术推理、检索式多跳问答、具身交互场景和模拟在线购物。

实验设置

模型：Qwen3-4B
任务：GSM8K、HotpotQA、ALFWorld、WebShop
实验算法：GRPO、PPO、REINFORCE++、RLOO
指标：GSM8K/HotpotQA 使用 Accuracy，ALFWorld 使用 Seen/Unseen Success Rate，WebShop 使用 Score 与 Success Rate
控制实验：在 GSM8K 上固定环境、工具格式、rollout 配置与奖励定义，分别比较优化器和上下文策略

主要结果

方法	GSM8K Acc.	HotpotQA Acc.	ALFWorld SR Seen	ALFWorld SR Unseen	WebShop Score	WebShop SR
ReAct	53.1	25.8	7.14	2.98	51.58	23.8
GRPO 多数最优	83.3	59.4	81.29	74.58	65.83	44.2
PPO	78.1	56.7	76.42	72.38	70.18	46.0
Reinforce++	78.9	52.8	73.84	69.57	63.41	41.8
RLOO	81.6	55.2	79.08	73.46	68.02	45.1

表中四种代表性 RL 方法在不同任务上均显著优于 training-free ReAct baseline。 GRPO 在 GSM8K、HotpotQA 与 ALFWorld 上领先，PPO 在 WebShop 上最强，说明 Agent-R1 能在统一框架中保留不同优化器的任务差异，而不是把算法行为“抹平”。这张表是实验快照，并不代表框架只支持这些算法。

Agent-R1 dataset training curves — GRPO 在 GSM8K、HotpotQA、ALFWorld 上的代表性训练曲线。

GSM8K optimizer comparison — GSM8K 上不同 RL 优化器的 reward、accuracy 与 response length 对比。

上下文策略实验

在 GSM8K 的固定 GRPO 设置下，论文比较了 append-only、sliding-window 与 LLM-summarized context。 sliding-window 表现最好，append-only 较弱，summary-based context 在小模型设置下表现不佳。这支持了 Agent-R1 的设计主张：上下文管理不是展示细节，而是会直接影响训练质量的环境接口。

GSM8K context management comparison — 不同上下文管理策略对 GSM8K 训练的影响。

引用

如果本项目对您的研究有所帮助，请考虑引用：

@misc{cheng2026agentr1unifiedmodular, title={Agent-R1: A Unified and Modular Framework for Agentic Reinforcement Learning}, author={Mingyue Cheng and Shuo Yu and Daoyu Wang and Qingchuan Li and Jie Ouyang and Yucong Luo and Yitong Zhou and Qi Liu and Enhong Chen}, year={2026}, url={https://github.com/AgentR1/Agent-R1}, }

致谢

感谢 DeepSeek-R1 提供的模型与启发性思路；感谢 veRL 团队提供的强大训练基础设施；感谢 RAGEN 团队的开创性探索对本项目早期方向的深刻影响。