USTC-AGI Agentic AI / Agent-R1 使用文档导航页
Agent-R1 Documentation

Agent-R1 使用文档导航页

这页不是完整文档的替代品,而是挂在项目主页下的一份站内子页面。它的作用是把 Agent-R1 的阅读路径、核心概念、主工作流和常用入口先组织清楚,方便用户从项目介绍页继续深入到正式文档。

快速阅读路径

如果你的目标是尽快从仓库克隆走到一次真实可运行的 Agent-R1 训练,推荐按下面顺序阅读。

1

Installation Guide

先沿用 verl==0.7.0 的环境,把 Python、GPU、模型路径和运行目录对齐。

2

Quick Start

用 GSM8K 的单步脚本做 smoke test,确认数据路径、模型路径和训练栈都已经接通。

3

Agent Task Tutorial

进入 Agent-R1 的设计中心:多步 rollout、环境反馈、工具调用,以及 AgentEnvLoop + ToolEnv

当前正式文档已经补充了首次运行说明、关键脚本参数和排错页;如果用户第一次跑不通,优先回到 Troubleshooting,而不是直接猜源码问题。

文档结构

完整文档目前主要分为 Getting Started、Core Concepts 和 Tutorials 三层。

Getting Started

解决第一次运行最核心的问题:环境复用、脚本入口、参数要改哪里、什么算成功、常见报错怎么定位。

Core Concepts

解释 Agent-R1 为什么要采用 Step-level MDP,以及各层抽象是如何把数据、环境、工具和 rollout 串起来的。

Tutorials

从真实示例出发,看一个数据样本如何携带 env_kwargs,再进入多轮环境交互与工具执行循环。

站内与站外关系

本页负责导航、聚合和挂接到项目主页;独立的 MkDocs 站点负责系统性的章节内容和后续增量扩展。

核心概念

如果你不是只想“跑起来”,而是想理解 Agent-R1 的设计边界,这两页最关键。

Step-level MDP

把多轮 Agent 交互看成真正的 RL transition,而不是一串单纯不断追加的 token。 这样环境可以控制下一步 observation,支持截断、总结、重写和工具反馈。

Layered Abstractions

AgentFlowBaseAgentEnvLoopToolEnvBaseTool,把 rollout、环境和工具执行逻辑拆成可复用的层。

主工作流

Agent-R1 的主路径不是单轮生成,而是一个由数据、环境和工具共同驱动的多步循环。

1

数据预处理

数据行除了 prompt 之外,还可以包含 agent_nameenv_kwargs,让任务从一开始就是可交互的。

2

环境创建

AgentEnvLoop 读取样本中的 env_kwargs,实例化对应的 AgentEnv,例如工具环境 ToolEnv

3

多步交互

模型生成响应,环境解析工具调用、执行工具、再把反馈作为新的 observation 注入下一步 prompt,直到 done 或达到 max_steps

4

任务迁移

自定义任务通常只要改三层:数据预处理、环境/工具实现、训练脚本参数。文档现在已经把这条迁移路径明确写出来了。

外部资源

常用入口放在一起,便于从这个站内子页面继续跳转到正式材料。

完整文档

查看最新 MkDocs 版本的 Agent-R1 文档主页与各章节内容。

GitHub 仓库

查看源码、examples、文档源码,以及后续更新记录。

Technical Report

查看 Agent-R1 的技术报告与方法背景。

返回项目页

如果你是从团队主页点进来的,可以回到 Agent-R1 项目介绍页继续浏览研究动机、框架和实验结果。