Agent-R1 使用文档导航页
这页不是完整文档的替代品,而是挂在项目主页下的一份站内子页面。它的作用是把 Agent-R1 的阅读路径、核心概念、主工作流和常用入口先组织清楚,方便用户从项目介绍页继续深入到正式文档。
快速阅读路径
如果你的目标是尽快从仓库克隆走到一次真实可运行的 Agent-R1 训练,推荐按下面顺序阅读。
Troubleshooting,而不是直接猜源码问题。
文档结构
完整文档目前主要分为 Getting Started、Core Concepts 和 Tutorials 三层。
Core Concepts
解释 Agent-R1 为什么要采用 Step-level MDP,以及各层抽象是如何把数据、环境、工具和 rollout 串起来的。
核心概念
如果你不是只想“跑起来”,而是想理解 Agent-R1 的设计边界,这两页最关键。
Step-level MDP
把多轮 Agent 交互看成真正的 RL transition,而不是一串单纯不断追加的 token。 这样环境可以控制下一步 observation,支持截断、总结、重写和工具反馈。
Layered Abstractions
从 AgentFlowBase、AgentEnvLoop 到 ToolEnv 和
BaseTool,把 rollout、环境和工具执行逻辑拆成可复用的层。
主工作流
Agent-R1 的主路径不是单轮生成,而是一个由数据、环境和工具共同驱动的多步循环。
数据预处理
数据行除了 prompt 之外,还可以包含 agent_name 和 env_kwargs,让任务从一开始就是可交互的。
环境创建
AgentEnvLoop 读取样本中的 env_kwargs,实例化对应的 AgentEnv,例如工具环境 ToolEnv。
多步交互
模型生成响应,环境解析工具调用、执行工具、再把反馈作为新的 observation 注入下一步 prompt,直到 done 或达到 max_steps。
任务迁移
自定义任务通常只要改三层:数据预处理、环境/工具实现、训练脚本参数。文档现在已经把这条迁移路径明确写出来了。
外部资源
常用入口放在一起,便于从这个站内子页面继续跳转到正式材料。