Agentic AI 研究方向

围绕大模型自主交互学习、训练框架、强化学习、知识增强与运行时系统,构建面向科研与产业场景的 Agentic AI 技术体系。

研究方向

围绕大模型自主交互学习、训练框架、强化学习、知识增强、运行时系统与应用落地,构建面向科研与产业场景的 Agentic AI 技术体系。

大模型自主交互学习机制及方法

大模型自主交互学习旨在研究大模型如何通过与环境、工具、同行模型和人类专家的多源交互,提升任务求解、知识获取和持续进化能力。该方向重点关注 Training-based 交互学习与 Training-free 交互增强两类路径,分别从模型能力优化和运行时能力增强两个层面,推动大模型从静态生成走向自主探索、协同学习和动态适应。

Training-based:自主交互驱动的模型能力增强

以反馈为信号,在策略空间中完成交互经验学习与能力内化。

🧭
环境探索学习

在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈,形成可学习轨迹、策略经验和奖励信号。

🔁
同行模型学习

通过模型间讨论、批判、修正、蒸馏和偏好比较,获取多样化推理轨迹、解题策略和协作学习信号。

💬
人类反馈学习

主动识别知识缺口并向专家提问,将专家反馈转化为领域知识、偏好信号和高质量训练数据。

Training-free:自主交互驱动的大模型智能体

以语言为接口,在情境空间中完成运行时认知与能力调控。

🧠
经验记忆交互

通过历史经验沉淀、记忆检索与交互式更新,支持经验复用、跨任务迁移和持续迭代,在不更新参数的情况下提升长期任务处理能力。

🤝
人类专家交互

通过多轮澄清、需求确认、大模型启发式主动提问和反馈修正,动态补充任务情境,提升复杂任务求解质量。

🔎
科学知识交互

通过科学文献检索、知识库查询、证据追踪和结果验证等交互机制,增强模型的科学知识获取、理解、组织与应用能力。

🛠️
大模型能力增强平台研发

构建交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断的一体化平台,支撑两类路径的统一闭环。

AgenticRL训练框架

面向大模型智能体训练的数据自动化收集、自主管理与通用训练优化框架。

🎯 Agent-R1 · Claw-R1 · 端到端 RL · Process Rewards
🔧 PPO / GRPO / REINFORCE++ · Runtime RL · 零代码侵入
📄 Agent-R1 项目 · Claw-R1 项目

AgenticRL基础算法

重点关注交互轨迹表示、优势计算与信用分配、奖励机制设计,以及长程规划与交互执行中的优化难题。

🧮 StepPO · PSPO · Step-level / Sequence-level 交互轨迹表示
🔁 Step-level credit assignment · 长轨迹优化 · 时序决策建模
🚀 奖励机制设计 · 过程奖励塑形 · Agentic RL 方法脉络

Retrieval-based Agentic AI

KDD Cup、Paper Search 与 DeepResearch 的系列RAG工作介绍。

🥈 KDD Cup 2024 CRAG 银牌 · Task 2&3 第二名
📚 Paper Search · 科技文献检索 · 结构化证据获取
🗞️ DeepResearch · 多步检索 · 报告生成

Coding-based Agentic AI

代码生成、沙箱执行与结构化表格数据推理的系列Coding Agent工作介绍。

🎯 Coding Generation · Data Agent · TableMind
🔧 Coding Sandbox · Tool Use · Execution Feedback
📄 TableMind · 表格理解 · 数据分析代码生成

大模型推理与智能体机理分析

围绕大模型思维链推理机理与大模型智能体机理展开研究,关注推理链路、任务分解、工具调用、记忆与反思之间的协同关系。

🧠 思维链推理机理 · 多步推理路径 · 决策过程解析
🔬 智能体机理 · 任务分解 · 工具调用
📐 记忆与反思 · 过程诊断 · 能力边界研究