静态监督学习范式
依赖静态语料或人工标注数据,一次性训练后部署使用,难以在动态任务、复杂环境和长期协作中持续适应。
围绕 Training-based 自主交互驱动的模型能力增强与 Training-free 自主交互驱动的大模型智能体,构建持续学习与动态适应机制。
中国科学技术大学 · 认知智能全国重点实验室
本项目面向下一代大模型智能体系统,系统研究大模型自主交互学习的理论、方法与平台技术。 随着 Agentic AI 从通用问答走向专业领域问题求解,模型能力与智能体运行能力的提升不再仅依赖大规模静态语料的一次性训练, 而需要在与外部世界、模型群体、人类专家和科学知识体系的持续交互中获取反馈、沉淀经验并动态适应。
Training-based 路径聚焦自主交互驱动的模型能力增强:通过环境交互、同行模型交互和人类专家交互, 将反馈信号、推理轨迹、偏好比较与专家知识转化为可训练数据和能力优化信号。 Training-free 路径聚焦自主交互驱动的大模型智能体:通过历史经验复用与迁移、人机交互协同和科学知识交互, 在不更新参数的情况下提升长期任务处理、复杂任务求解和科学知识应用能力。
Training-based 路径面向模型参数与能力的持续优化,强调把交互过程中产生的反馈信号、推理轨迹、 偏好比较和专家知识转化为可训练数据与能力优化信号。该路径下包含三类并列机制: 环境探索学习、同行模型互学、专家反馈学习。
在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈,形成可学习轨迹、策略经验和奖励信号。
通过模型间讨论、批判、修正、蒸馏和偏好比较,获取多样化推理轨迹、解题策略和协作学习信号。
主动识别知识缺口并向专家提问,将专家反馈转化为领域知识、偏好信号和高质量训练数据。
环境探索学习的反馈来自任务环境,强调可验证、可试错和行动优化;同行模型互学的反馈来自其他模型,强调多样化推理、自动化批判和能力迁移;专家反馈学习的反馈来自人类专家,强调隐性知识、价值判断和领域对齐。
Training-free 路径面向不更新模型参数时的大模型智能体能力增强,强调通过运行时交互机制提升任务处理、 长期协作和科学知识应用能力。该路径下包含三类并列机制:经验记忆交互、人机交互协同、科学知识交互。
通过历史经验沉淀、记忆检索与交互式更新,支持经验复用、跨任务迁移和持续迭代,在不更新参数的情况下提升长期任务处理能力。
通过多轮澄清、需求确认、苏格拉底式提问和反馈修正,动态补充任务情境,提升复杂任务求解质量。
通过科学文献检索、知识库查询、证据追踪和结果验证等交互机制,增强模型的科学知识获取、理解、组织与应用能力。
科学知识交互提供外部可信知识,回答“世界和科学共同体已经知道什么”;经验记忆交互提供模型自身历史经验,回答“过去任务中已经学到了什么”;人机交互协同提供人类专家判断和任务共识,回答“当前任务真正需要什么、什么结果才有价值”。三者共同构成大模型自主交互学习的知识来源、反馈来源和能力进化来源。
面向自主交互学习的工程落地,研发大模型能力增强开发平台,支撑 Training-based 与 Training-free 两类路径的统一研发、实验与评估。 平台整合交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断, 支持多任务、多模型、多工具和多环境的闭环优化。
支持多类型交互环境的快速搭建,包括工具调用环境、代码执行沙箱、多模型对话环境和人机交互界面。
标准化采集交互轨迹、工具调用记录、奖励信号和专家反馈,通过记忆管理机制将历史经验沉淀为可复用、可迁移的经验资产。
支持过程奖励模型训练、偏好学习、蒸馏训练、Agentic RL 策略优化与 Training-free 智能体能力增强的统一流程。
覆盖任务完成率、过程行为质量、能力迁移效果和人机协同效率的多维评估与可视化诊断。
大模型自主交互学习可以概括为 Training-based 模型能力增强、Training-free 大模型智能体和平台闭环三类支撑层, 形成从数据、训练到运行时协作的完整技术体系。
依赖静态语料或人工标注数据,一次性训练后部署使用,难以在动态任务、复杂环境和长期协作中持续适应。
在与环境、工具、同行模型、人类专家和科学知识体系的持续交互中主动学习, 实现从"静态回答"到"自主探索、经验迁移和协同进化"的转变。