Agent-R1¶
使用端到端强化学习训练强大的 LLM 智能体¶
Agent-R1 是一个面向智能体强化学习的开源框架。它支持构建自定义智能体流程、定义交互式环境与工具,并在统一的 RL 管线中训练多步智能体。
不同于把交互过程视为不断增长的单轮 prompt-response 序列,Agent-R1 将每一轮交互建模为 step-level MDP transition。模型观察环境、生成动作、接收工具或环境反馈,并持续交互直到任务完成或终止。
阅读路径¶
- 如果你想快速跑通环境,先阅读
快速开始:复用verl环境,从 ModelScope 下载处理好的数据集,并运行一个 GSM8K sanity check。 - 如果你想理解框架设计,阅读
Step-level MDP和分层抽象。 - 如果你想看最小工具调用示例,阅读
智能体任务教程:基于ToolEnv + BaseTool的 GSM8K + Tool。 - 如果你想了解当前 recipe 与算法脚本,阅读
Recipes 与算法。
文档范围¶
当前文档保持轻量,重点覆盖 Agent-R1 目前最核心的部分:智能体抽象、可运行示例、recipe 结构与算法启动脚本。
Supported by the State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China (USTC).