StepPO — Step-Aligned Policy Optimization for Agentic Reinforcement Learning

TL;DR： StepPO 的核心判断是：对于多轮工具调用 Agent，真正有语义意义的动作单位不是 token，而是完整的 interaction step。因此，Agentic RL 需要同时完成四个层面的迁移： 从 token-level MDP 到 step-level MDP， 从 text replay 到 step-native trajectory， 从 token / trajectory credit 到 step-level credit，以及 从紧耦合同步训练到可扩展的异步系统。

项目简介

StepPO（Step-Aligned Policy Optimization）是一篇面向 Agentic Reinforcement Learning 的方法立场论文，它不是只在传统 PPO 上做局部技巧修补，而是从建模单位出发，重新定义多轮 Agent 应该如何被表示、回放与优化。论文指出：当训练目标从单轮回答转向长程工具使用与环境交互时，token-centric 的 RL 抽象已经不再足够。

在这个视角下，StepPO 把一个 Agent 在某轮观察下作出的完整响应、工具调用与环境反馈，统一视为一个 step。策略优化、优势传播、数据表示与训练系统都应围绕这个 step 单位保持一致，这也是 “step-aligned” 的真正含义。

Step

将 interaction step
视为原子动作单位

建模、表示、优化、系统
四层同步迁移

HotpotQA

多步问答场景下
验证 StepPO 优势

2026

April 20, 2026
arXiv 首版发布

为什么需要 StepPO

论文首先指出，当前 Agentic RL 的一个核心问题是粒度错位：许多方法仍然沿用 token-level MDP，但信用分配却已经开始向 trajectory-level 演进。这会导致决策单位、奖励传播单位与真实 Agent 行为单位彼此不一致。

对多轮 Agent 来说，一个重要决定通常体现为一次完整的“观察 → 响应 / 工具调用 → 环境反馈”闭环。如果仍然只把单个 token 视作动作，那么高级决策会被切碎，环境转移也会被埋在长文本序列中，训练信号很难稳定地对齐到真正起作用的中间步骤。

粒度对齐对比

方法	MDP 建模粒度	信用分配粒度
PPO	Token-level	Token-level
Reinforce++	Token-level	Token-level
GRPO	Token-level	Trajectory-level
RLOO	Token-level	Trajectory-level
LightningRL	Step-level	Trajectory-level
StepPO 对齐	Step-level	Step-level

Token-level credit 太局部，常常只能看到局部词元而看不到完整动作。
Trajectory-level credit 又太粗，难以区分中间哪一步真正推动了成功。
Step-level credit 则与 Agent 的真实决策边界一致，更适合长程交互优化。

Step 对齐范式

StepPO 不是单点优化，而是一套从理论到工程的协同视角。论文把 Agentic RL 的迁移总结为四个相互配合的层面，它们共同决定 step-level 优化能否真正落地。

MDP 重构

从 token-level MDP 转向 step-level MDP，把完整交互轮次作为状态转移与动作定义的基本单位。

轨迹表示重构

从 message / text replay 转向 step-native data，保留每一步的 prompt ids、response ids、reward 与 metadata。

信用分配重构

从 token-level 或 trajectory-level 的不匹配传播，转向直接绑定 interaction step 的 reward propagation。

训练系统重构

围绕 step-native replay、异步采样、共享前缀复用和网关化数据管理来搭建可扩展训练系统。

Token-level MDP 和 Step-level MDP 的对比示意图 — 从“单 token 追加”转向“完整 interaction step”后，Agent 的观察、行动与环境反馈链条会更清晰。

Step-level MDP 的核心直觉

1

动作不再只是下一个 token 在 Agent setting 中，动作可以是一段响应、一次结构化工具调用，或两者的组合。
2

环境转移发生在 step 边界 只有完成一步交互并收到 observation / reward 之后，下一状态才真正确定。
3

优化必须与决策边界保持一致 如果策略和奖励传播都以 step 为单位，优势估计会更贴近 Agent 的因果决策过程。

为什么还要强调轨迹表示

StepPO 特别强调，理论上的 step-level MDP 只有在数据层也被如实记录时才成立。如果 rollout 先被解码成文本，再重新 tokenize 回去做训练，就可能出现 Tok(Detok(z)) != z 的 retokenization drift。这会破坏 rollout 与 replay 的一致性，进而削弱 step-aligned learning 的稳定性。

系统设计

论文认为，StepPO 真正成立不仅是算法问题，也是系统问题。只要训练仍然围绕扁平文本、同步执行和单一内部 Agent 组织，就很难把 step-level 优化稳定地扩展到真实工作负载。

Step-Native Data

每个 step 保存 prompt ids、response ids、reward 和元信息，保持 token realization 与语义边界同时可用。

Gateway + DataPool

通过 gateway 吸收异构 Agent 轨迹，再由 datapool 管理奖励、报告、版本与筛选元数据。

Prefix Reuse

长轨迹中大量上下文前缀重复，step-native 存储允许系统做 shared-prefix reuse 与 prefix-tree merging。

Asynchronous Training

rollout engine、training engine、gateway 与 datapool 解耦运行，在保证新鲜度的同时提升吞吐。

与 Agent-R1 / Claw-R1 的关系

StepPO 也可以被看作一条研究路线的总结。 Agent-R1 更强调从训练视角解决 token-space consistency 与多轮 Agent MDP 抽象， Claw-R1 则进一步从数据管理与中间件视角，推动 gateway-centered ingestion、datapool 管理与 heterogeneous-agent support。 StepPO 把这两条线索合并成一个更清晰的 step-aligned 叙事。

实验结果

论文在 HotpotQA 的多步 Agentic RL 设置下，对 StepPO 与 token-level PPO 做了受控对比。两者使用相同的 base model、数据、rollout pipeline 与大体训练配置，主要差异在于优化粒度。

StepPO 与 token-level PPO 在 HotpotQA 上的训练曲线对比 — 训练曲线显示 StepPO 在大部分训练阶段持续高于 token-level PPO，支持 step-level 优化更契合长程 Agent 行为。

实验设置

任务基准为 HotpotQA 的 multi-step agent setting。
Base model 使用 Qwen2.5-3B-Instruct。
采用 per-step generation，而不是把整条多轮轨迹简单压扁成单序列。
评估中使用 shared-step view，对齐两种方法的 interaction steps。

结果解读

结果趋势非常明确：StepPO 在训练的大多数阶段都稳定高于 token-level PPO，并在中后期维持更好的平台表现。论文据此认为，当任务需要多步证据搜集、工具交互和中间决策时，让 PPO 与 interaction step 对齐，会得到比 token-level credit propagation 更有效的学习信号。

引用

如果这个页面或论文观点对你的研究有帮助，可以引用：

@misc{wang2026steppo, title={StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning}, author={Daoyu Wang and Qingchuan Li and Mingyue Cheng and Jie Ouyang and Shuo Yu and Qi Liu and Enhong Chen}, year={2026}, eprint={2604.18401}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.18401} }

StepPO：让 Agentic RL 从 token 对齐走向 step 对齐