StepPO:让 Agentic RL 从 token 对齐走向 step 对齐

将 Agent 的强化学习单位从 token 提升到 interaction step, 用 step-level MDPstep-level credit assignmentstep-native systems 重新组织多轮交互优化。

中国科学技术大学 · 认知智能全国重点实验室 · arXiv 2604.18401

Daoyu Wang · Qingchuan Li · Mingyue Cheng · Jie Ouyang · Shuo Yu · Qi Liu · Enhong Chen

TL;DR: StepPO 的核心判断是: 对于多轮工具调用 Agent,真正有语义意义的动作单位不是 token,而是完整的 interaction step。 因此,Agentic RL 需要同时完成四个层面的迁移: 从 token-level MDP 到 step-level MDP从 text replay 到 step-native trajectory从 token / trajectory credit 到 step-level credit, 以及 从紧耦合同步训练到可扩展的异步系统

项目简介

StepPO(Step-Aligned Policy Optimization)是一篇面向 Agentic Reinforcement Learning 的方法立场论文, 它不是只在传统 PPO 上做局部技巧修补,而是从建模单位出发,重新定义多轮 Agent 应该如何被表示、回放与优化。 论文指出:当训练目标从单轮回答转向长程工具使用与环境交互时,token-centric 的 RL 抽象已经不再足够。

在这个视角下,StepPO 把一个 Agent 在某轮观察下作出的完整响应、工具调用与环境反馈, 统一视为一个 step。策略优化、优势传播、数据表示与训练系统都应围绕这个 step 单位保持一致, 这也是 “step-aligned” 的真正含义。

Step
将 interaction step
视为原子动作单位
4
建模、表示、优化、系统
四层同步迁移
HotpotQA
多步问答场景下
验证 StepPO 优势
2026
April 20, 2026
arXiv 首版发布

为什么需要 StepPO

论文首先指出,当前 Agentic RL 的一个核心问题是粒度错位: 许多方法仍然沿用 token-level MDP,但信用分配却已经开始向 trajectory-level 演进。 这会导致决策单位、奖励传播单位与真实 Agent 行为单位彼此不一致。

对多轮 Agent 来说,一个重要决定通常体现为一次完整的“观察 → 响应 / 工具调用 → 环境反馈”闭环。 如果仍然只把单个 token 视作动作,那么高级决策会被切碎,环境转移也会被埋在长文本序列中, 训练信号很难稳定地对齐到真正起作用的中间步骤。

粒度对齐对比

方法 MDP 建模粒度 信用分配粒度
PPO Token-level Token-level
Reinforce++ Token-level Token-level
GRPO Token-level Trajectory-level
RLOO Token-level Trajectory-level
LightningRL Step-level Trajectory-level
StepPO 对齐 Step-level Step-level

Step 对齐范式

StepPO 不是单点优化,而是一套从理论到工程的协同视角。论文把 Agentic RL 的迁移总结为四个相互配合的层面, 它们共同决定 step-level 优化能否真正落地。

1

MDP 重构

从 token-level MDP 转向 step-level MDP,把完整交互轮次作为状态转移与动作定义的基本单位。

2

轨迹表示重构

从 message / text replay 转向 step-native data,保留每一步的 prompt ids、response ids、reward 与 metadata。

3

信用分配重构

从 token-level 或 trajectory-level 的不匹配传播,转向直接绑定 interaction step 的 reward propagation。

4

训练系统重构

围绕 step-native replay、异步采样、共享前缀复用和网关化数据管理来搭建可扩展训练系统。

Token-level MDP 和 Step-level MDP 的对比示意图
从“单 token 追加”转向“完整 interaction step”后,Agent 的观察、行动与环境反馈链条会更清晰。

Step-level MDP 的核心直觉

为什么还要强调轨迹表示

StepPO 特别强调,理论上的 step-level MDP 只有在数据层也被如实记录时才成立。 如果 rollout 先被解码成文本,再重新 tokenize 回去做训练,就可能出现 Tok(Detok(z)) != z 的 retokenization drift。 这会破坏 rollout 与 replay 的一致性,进而削弱 step-aligned learning 的稳定性。

系统设计

论文认为,StepPO 真正成立不仅是算法问题,也是系统问题。 只要训练仍然围绕扁平文本、同步执行和单一内部 Agent 组织,就很难把 step-level 优化稳定地扩展到真实工作负载。

D

Step-Native Data

每个 step 保存 prompt ids、response ids、reward 和元信息,保持 token realization 与语义边界同时可用。

G

Gateway + DataPool

通过 gateway 吸收异构 Agent 轨迹,再由 datapool 管理奖励、报告、版本与筛选元数据。

P

Prefix Reuse

长轨迹中大量上下文前缀重复,step-native 存储允许系统做 shared-prefix reuse 与 prefix-tree merging。

A

Asynchronous Training

rollout engine、training engine、gateway 与 datapool 解耦运行,在保证新鲜度的同时提升吞吐。

与 Agent-R1 / Claw-R1 的关系

StepPO 也可以被看作一条研究路线的总结。 Agent-R1 更强调从训练视角解决 token-space consistency 与多轮 Agent MDP 抽象, Claw-R1 则进一步从数据管理与中间件视角,推动 gateway-centered ingestion、datapool 管理与 heterogeneous-agent support。 StepPO 把这两条线索合并成一个更清晰的 step-aligned 叙事。

实验结果

论文在 HotpotQA 的多步 Agentic RL 设置下,对 StepPO 与 token-level PPO 做了受控对比。 两者使用相同的 base model、数据、rollout pipeline 与大体训练配置,主要差异在于优化粒度。

StepPO 与 token-level PPO 在 HotpotQA 上的训练曲线对比
训练曲线显示 StepPO 在大部分训练阶段持续高于 token-level PPO,支持 step-level 优化更契合长程 Agent 行为。

实验设置

结果解读

结果趋势非常明确:StepPO 在训练的大多数阶段都稳定高于 token-level PPO, 并在中后期维持更好的平台表现。论文据此认为,当任务需要多步证据搜集、工具交互和中间决策时, 让 PPO 与 interaction step 对齐,会得到比 token-level credit propagation 更有效的学习信号。

引用

如果这个页面或论文观点对你的研究有帮助,可以引用:

@misc{wang2026steppo, title={StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning}, author={Daoyu Wang and Qingchuan Li and Mingyue Cheng and Jie Ouyang and Shuo Yu and Qi Liu and Enhong Chen}, year={2026}, eprint={2604.18401}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.18401} }

相关项目

StepPO 与 Agent-R1Claw-R1 共同构成了 USTC-AGI 在 Agentic RL 上从训练抽象到系统基础设施的连续研究脉络。