核心概念¶
这一部分介绍 Agent-R1 作为智能体任务训练框架时最重要的设计思想。
本节内容¶
Step-level MDP:为什么 Agent-R1 把智能体训练建模为多步交互,而不是单个不断增长的 token 序列。分层抽象:AgentFlowBase、AgentEnvLoop、AgentEnv、ToolEnv和BaseTool如何协同工作。
为什么这些概念重要¶
Agent-R1 面向的是智能体任务:LLM 与环境交互、接收新观察,并通过轨迹级强化学习改进策略。这两页解释支撑这一工作流的核心建模方式与编程模型。