大模型自主交互学习

围绕 Training-based 自主交互驱动的模型能力增强与 Training-free 自主交互驱动的大模型智能体，构建持续学习与动态适应机制。

中国科学技术大学 · 认知智能全国重点实验室

TL;DR： 大模型自主交互学习旨在研究大模型如何通过与环境、工具、同行模型和人类专家的多源交互，提升任务求解、知识获取和持续进化能力。该方向重点关注 Training-based 交互学习与 Training-free 交互增强两类路径，分别从模型能力优化和运行时能力增强两个层面，推动大模型从静态生成走向自主探索、协同学习和动态适应。

研究目标

本项目面向下一代大模型智能体系统，系统研究大模型自主交互学习的理论、方法与平台技术。随着 Agentic AI 从通用问答走向专业领域问题求解，模型能力与智能体运行能力的提升不再仅依赖大规模静态语料的一次性训练，而需要在与外部世界、模型群体、人类专家和科学知识体系的持续交互中获取反馈、沉淀经验并动态适应。

Training-based 路径聚焦自主交互驱动的模型能力增强：通过环境交互、同行模型交互和人类专家交互，将反馈信号、推理轨迹、偏好比较与专家知识转化为可训练数据和能力优化信号。 Training-free 路径聚焦自主交互驱动的大模型智能体：通过历史经验复用与迁移、人机交互协同和科学知识交互，在不更新参数的情况下提升长期任务处理、复杂任务求解和科学知识应用能力。

大模型自主交互学习的核心转变： 从依赖静态数据的一次性生成范式，走向通过自主探索、协同学习、经验迁移和动态适应持续增强的交互型智能。

Training-based

模型能力增强
环境 · 模型 · 专家

Training-free

大模型智能体
经验 · 人机 · 科学知识

Platform

统一闭环
轨迹 · 训练 · 评测

人类学习启发的大模型自主学习

Training-based 路径面向模型参数与能力的持续优化，强调把交互过程中产生的反馈信号、推理轨迹、偏好比较和专家知识转化为可训练数据与能力优化信号。该路径下包含三类并列机制：环境探索学习、同行模型互学、专家反馈学习。

🧭

环境探索学习

在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈，形成可学习轨迹、策略经验和奖励信号。

🔁

同行模型互学

通过模型间讨论、批判、修正、蒸馏和偏好比较，获取多样化推理轨迹、解题策略和协作学习信号。

💬

专家反馈学习

主动识别知识缺口并向专家提问，将专家反馈转化为领域知识、偏好信号和高质量训练数据。

环境探索学习的反馈来自任务环境，强调可验证、可试错和行动优化；同行模型互学的反馈来自其他模型，强调多样化推理、自动化批判和能力迁移；专家反馈学习的反馈来自人类专家，强调隐性知识、价值判断和领域对齐。

核心机制

环境探索学习提供可学习轨迹、过程奖励和步骤级信用分配信号。
同行模型互学提供多样推理路径、蒸馏样本和偏好比较信号。
专家反馈学习提供领域知识、纠错反馈和高质量训练数据。

人类反馈与环境交互驱动的大模型持续进化

Training-free 路径面向不更新模型参数时的大模型智能体能力增强，强调通过运行时交互机制提升任务处理、长期协作和科学知识应用能力。该路径下包含三类并列机制：经验记忆交互、人机交互协同、科学知识交互。

🧠

经验记忆交互

通过历史经验沉淀、记忆检索与交互式更新，支持经验复用、跨任务迁移和持续迭代，在不更新参数的情况下提升长期任务处理能力。

🤝

人机交互协同

通过多轮澄清、需求确认、苏格拉底式提问和反馈修正，动态补充任务情境，提升复杂任务求解质量。

🔎

科学知识交互

通过科学文献检索、知识库查询、证据追踪和结果验证等交互机制，增强模型的科学知识获取、理解、组织与应用能力。

科学知识交互提供外部可信知识，回答“世界和科学共同体已经知道什么”；经验记忆交互提供模型自身历史经验，回答“过去任务中已经学到了什么”；人机交互协同提供人类专家判断和任务共识，回答“当前任务真正需要什么、什么结果才有价值”。三者共同构成大模型自主交互学习的知识来源、反馈来源和能力进化来源。

核心机制

经验记忆交互突出历史经验的复用、跨任务迁移和长期任务持续迭代。
人机交互协同通过澄清、确认、提问和反馈修正补足动态任务上下文。
科学知识交互通过文献检索、知识库查询、证据追踪和结果验证支撑知识应用。

大模型能力增强开发平台

面向自主交互学习的工程落地，研发大模型能力增强开发平台，支撑 Training-based 与 Training-free 两类路径的统一研发、实验与评估。平台整合交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断，支持多任务、多模型、多工具和多环境的闭环优化。

交互环境构建

支持多类型交互环境的快速搭建，包括工具调用环境、代码执行沙箱、多模型对话环境和人机交互界面。

轨迹采集与记忆管理

标准化采集交互轨迹、工具调用记录、奖励信号和专家反馈，通过记忆管理机制将历史经验沉淀为可复用、可迁移的经验资产。

奖励建模与模型训练

支持过程奖励模型训练、偏好学习、蒸馏训练、Agentic RL 策略优化与 Training-free 智能体能力增强的统一流程。

评测诊断与持续优化

覆盖任务完成率、过程行为质量、能力迁移效果和人机协同效率的多维评估与可视化诊断。

平台化建设的价值： 通过统一平台降低大模型自主交互学习的研发门槛，提升方法复现、系统集成和应用验证能力，支撑从交互数据采集、模型训练到运行时智能体增强的统一闭环。

两类路径技术体系

大模型自主交互学习可以概括为 Training-based 模型能力增强、Training-free 大模型智能体和平台闭环三类支撑层，形成从数据、训练到运行时协作的完整技术体系。

Layer 4

能力增强开发平台 交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断，支撑两类路径的统一闭环。

Layer 3

人类反馈与环境交互驱动的大模型持续进化 通过经验记忆交互、人机交互协同和科学知识交互，在运行时提升长期任务处理与知识应用能力。

Layer 2

人类学习启发的大模型自主学习 通过环境探索学习、同行模型互学和专家反馈学习，将反馈、轨迹、偏好与专家知识转化为能力优化信号。

Layer 1

多源交互基础 开放任务环境、工具环境、沙盒环境、同行模型、人类专家和科学知识接口共同构成交互信号来源。

从静态生成走向自主探索、协同学习和动态适应——两类路径 × 一套平台闭环。

Before

静态监督学习范式

依赖静态语料或人工标注数据，一次性训练后部署使用，难以在动态任务、复杂环境和长期协作中持续适应。

Now

自主交互学习范式

在与环境、工具、同行模型、人类专家和科学知识体系的持续交互中主动学习，实现从"静态回答"到"自主探索、经验迁移和协同进化"的转变。