Skip to content

Agent-R1

使用端到端强化学习训练强大的 LLM 智能体

Agent-R1 是一个面向智能体强化学习的开源框架。它支持构建自定义智能体流程、定义交互式环境与工具,并在统一的 RL 管线中训练多步智能体。

不同于把交互过程视为不断增长的单轮 prompt-response 序列,Agent-R1 将每一轮交互建模为 step-level MDP transition。模型观察环境、生成动作、接收工具或环境反馈,并持续交互直到任务完成或终止。

  • Step-level MDP


    用明确的 MDP 形式支持灵活上下文管理与逐步奖励信号。

    了解更多

  • 分层抽象


    从完全自定义到开箱即用,根据任务复杂度选择合适的开发层次。

    了解更多


阅读路径

  • 如果你想快速跑通环境,先阅读 快速开始:复用 verl 环境,从 ModelScope 下载处理好的数据集,并运行一个 GSM8K sanity check。
  • 如果你想理解框架设计,阅读 Step-level MDP分层抽象
  • 如果你想看最小工具调用示例,阅读 智能体任务教程:基于 ToolEnv + BaseTool 的 GSM8K + Tool。
  • 如果你想了解当前 recipe 与算法脚本,阅读 Recipes 与算法

文档范围

当前文档保持轻量,重点覆盖 Agent-R1 目前最核心的部分:智能体抽象、可运行示例、recipe 结构与算法启动脚本。


Supported by the State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China (USTC).