研究方向

围绕大模型自主交互学习、训练框架、强化学习、知识增强、运行时系统与应用落地，构建面向科研与产业场景的 Agentic AI 技术体系。

人类学习启发的大模型自主学习

探究大模型从模型及人类反馈中进行自主交互学习的机制及方法，以实现能力持续提升。

🧭

环境探索学习

在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈，形成可学习轨迹、策略经验和奖励信号。

🔁

同行模型学习

通过模型间讨论、批判、修正、蒸馏和偏好比较，获取多样化推理轨迹、解题策略和协作学习信号。

💬

人类反馈学习

主动识别知识缺口并向专家提问，将专家反馈转化为领域知识、偏好信号和高质量训练数据。

查看主页 →

AgenticRL训练系统

研究面向多轮工具交互的统一训练系统，打通环境执行、轨迹采样、奖励反馈与策略更新。

🎯 工作流 · 环境 · 轨迹 · 优化模块解耦

🔧 步级交互建模 · 灵活上下文管理 · 多算法支持

📄 代表项目：Agent-R1

查看主页 → Agent-R1

AgenticRL优化算法

研究多轮交互中的优势估计、信用分配与奖励机制，提升长程任务的策略优化效率与稳定性。

🧮 步级 / 序列级轨迹建模

🔁 优势估计 · 信用分配 · 过程奖励

🚀 代表方法：StepPO · PSPO

查看主页 → StepPO

AgenticRL数据工程

研究面向智能体能力提升的数据基础设施，打通多源轨迹采集、质量评估、数据策划与训练供给。

📈 多源交互轨迹采集与统一表示

🧩 质量评估 · 能力增益建模 · 数据选择与调度

🗂️ 代表项目：Claw-R1

查看主页 → Claw-R1

人类反馈与环境交互驱动的大模型持续进化

面向开放复杂任务，探索人类反馈、大模型推理与环境交互协同驱动的持续学习机制，实现智能体系统能力动态演化。

🤝

人类反馈建模与主动对齐学习

如何从少量反馈中高效学习？真实科研或教育场景中，专家反馈成本很高，不可能大量标注。如何让模型主动向人提问？不是被动等人纠错，而是在不确定、冲突、缺信息时主动寻求反馈。

🧠

经验记忆交互

通过历史经验沉淀、记忆检索与交互式更新，支持经验复用、跨任务迁移和持续迭代，在不更新参数的情况下提升长期任务处理能力。

查看主页 → 科学知识交互

Retrieval-based Agentic AI

KDD Cup、Paper Search 与 DeepResearch 的系列RAG工作介绍。

🥈 KDD Cup 2024 CRAG 银牌 · Task 2&3 第二名

📚 Paper Search · 科技文献检索 · 结构化证据获取

🗞️ DeepResearch · 多步检索 · 报告生成

查看主页 → KDD Cup亚军 Paper Search DeepResearch

Coding-based Agentic AI

代码生成、沙箱执行与结构化表格数据推理的系列Coding Agent工作介绍。

🎯 Coding Generation · Data Agent · TableMind

🔧 Coding Sandbox · Tool Use · Execution Feedback

📄 TableMind · 表格理解 · 数据分析代码生成

查看主页 → TableMind TableMind++ TabClaw

大模型推理与智能体机理分析

围绕大模型思维链推理机理与大模型智能体机理展开研究，关注推理链路、任务分解、工具调用、记忆与反思之间的协同关系。

🧠 思维链推理机理 · 多步推理路径 · 决策过程解析

🔬 智能体机理 · 任务分解 · 工具调用

📐 记忆与反思 · 过程诊断 · 能力边界研究

查看主页 →

Agentic评测

面向复杂任务场景构建 Agent 评测体系，关注真实环境中的任务完成质量、可靠性、覆盖度与过程诊断，支撑训练、推理与应用研究的统一分析。

📏 任务质量 · 可靠性 · 覆盖度 · 过程一致性

🧪 开放环境评测 · 长程任务诊断 · 多维基准设计

📊 QRC-Eval · HLE / GAIA · 可解释性分析与误差归因

内容建设中