研究方向
围绕大模型自主交互学习、训练框架、强化学习、知识增强、运行时系统与应用落地,构建面向科研与产业场景的 Agentic AI 技术体系。
大模型自主交互学习机制及方法
大模型自主交互学习旨在研究大模型如何通过与环境、工具、同行模型和人类专家的多源交互,提升任务求解、知识获取和持续进化能力。该方向重点关注 Training-based 交互学习与 Training-free 交互增强两类路径,分别从模型能力优化和运行时能力增强两个层面,推动大模型从静态生成走向自主探索、协同学习和动态适应。
以反馈为信号,在策略空间中完成交互经验学习与能力内化。
在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈,形成可学习轨迹、策略经验和奖励信号。
通过模型间讨论、批判、修正、蒸馏和偏好比较,获取多样化推理轨迹、解题策略和协作学习信号。
主动识别知识缺口并向专家提问,将专家反馈转化为领域知识、偏好信号和高质量训练数据。
以语言为接口,在情境空间中完成运行时认知与能力调控。
通过历史经验沉淀、记忆检索与交互式更新,支持经验复用、跨任务迁移和持续迭代,在不更新参数的情况下提升长期任务处理能力。
通过多轮澄清、需求确认、大模型启发式主动提问和反馈修正,动态补充任务情境,提升复杂任务求解质量。
通过科学文献检索、知识库查询、证据追踪和结果验证等交互机制,增强模型的科学知识获取、理解、组织与应用能力。
构建交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断的一体化平台,支撑两类路径的统一闭环。
Retrieval-based Agentic AI
KDD Cup、Paper Search 与 DeepResearch 的系列RAG工作介绍。
Coding-based Agentic AI
代码生成、沙箱执行与结构化表格数据推理的系列Coding Agent工作介绍。