LLMs and Agentic AI 研究方向工作介绍

致力于突破自主智能边界,引领人机协同未来。

研究方向

围绕大模型自主交互学习、训练框架、强化学习、知识增强、运行时系统与应用落地,构建面向科研与产业场景的 Agentic AI 技术体系。

大模型自主交互学习机制及方法

大模型自主交互学习旨在研究大模型如何通过与环境、工具、同行模型和人类专家的多源交互,提升任务求解、知识获取和持续进化能力。该方向重点关注 Training-based 交互学习与 Training-free 交互增强两类路径,分别从模型能力优化和运行时能力增强两个层面,推动大模型从静态生成走向自主探索、协同学习和动态适应。

Training-based:自主交互驱动的模型能力增强

以反馈为信号,在策略空间中完成交互经验学习与能力内化。

🧭
环境探索学习

在开放任务环境、工具环境和沙盒环境中自主探索、执行行动并接收反馈,形成可学习轨迹、策略经验和奖励信号。

🔁
同行模型学习

通过模型间讨论、批判、修正、蒸馏和偏好比较,获取多样化推理轨迹、解题策略和协作学习信号。

💬
人类反馈学习

主动识别知识缺口并向专家提问,将专家反馈转化为领域知识、偏好信号和高质量训练数据。

Training-free:自主交互驱动的大模型智能体

以语言为接口,在情境空间中完成运行时认知与能力调控。

🧠
经验记忆交互

通过历史经验沉淀、记忆检索与交互式更新,支持经验复用、跨任务迁移和持续迭代,在不更新参数的情况下提升长期任务处理能力。

🤝
人类专家交互

通过多轮澄清、需求确认、大模型启发式主动提问和反馈修正,动态补充任务情境,提升复杂任务求解质量。

🔎
科学知识交互

通过科学文献检索、知识库查询、证据追踪和结果验证等交互机制,增强模型的科学知识获取、理解、组织与应用能力。

🛠️
大模型能力增强平台研发

构建交互环境、轨迹采集、奖励建模、工具调用、模型训练、记忆管理与评测诊断的一体化平台,支撑两类路径的统一闭环。

AgenticRL训练框架

面向大模型智能体训练的数据自动化收集、自主管理与通用训练优化框架。

🎯 Agent-R1 · Claw-R1 · 端到端 RL · Process Rewards
🔧 PPO / GRPO / REINFORCE++ · Runtime RL · 零代码侵入
📄 Agent-R1 项目 · Claw-R1 项目

AgenticRL基础算法

重点关注交互轨迹表示、优势计算与信用分配、奖励机制设计,以及长程规划与交互执行中的优化难题。

🧮 StepPO · PSPO · Step-level / Sequence-level 交互轨迹表示
🔁 Step-level credit assignment · 长轨迹优化 · 时序决策建模
🚀 奖励机制设计 · 过程奖励塑形 · Agentic RL 方法脉络

Retrieval-based Agentic AI

KDD Cup、Paper Search 与 DeepResearch 的系列RAG工作介绍。

🥈 KDD Cup 2024 CRAG 银牌 · Task 2&3 第二名
📚 Paper Search · 科技文献检索 · 结构化证据获取
🗞️ DeepResearch · 多步检索 · 报告生成

Coding-based Agentic AI

代码生成、沙箱执行与结构化表格数据推理的系列Coding Agent工作介绍。

🎯 Coding Generation · Data Agent · TableMind
🔧 Coding Sandbox · Tool Use · Execution Feedback
📄 TableMind · 表格理解 · 数据分析代码生成

大模型推理与智能体机理分析

围绕大模型思维链推理机理与大模型智能体机理展开研究,关注推理链路、任务分解、工具调用、记忆与反思之间的协同关系。

🧠 思维链推理机理 · 多步推理路径 · 决策过程解析
🔬 智能体机理 · 任务分解 · 工具调用
📐 记忆与反思 · 过程诊断 · 能力边界研究

Agentic AI应用研究

聚焦科学智能、电力能源与推荐系统等垂直领域,探索 AI Agent 在真实场景中的知识获取、决策优化与交互式应用能力。

领域应用研究

科学智能
🔬

科学知识获取与发现

面向科学文献、实验数据和领域知识库,重点研究科研问题发现、证据追踪、知识推理与自动化研究辅助。

电力能源

电力能源调度与决策

面向电力负荷、新能源出力、设备状态和调度运行场景,重点研究预测建模、异常识别、风险评估与决策辅助。

推荐系统
🎯

个性化推荐与搜索

面向内容、电商、科研资源和个性化服务场景,重点研究偏好建模、多轮交互、排序决策与推荐结果解释。

时间序列认知

星思启时序认知之智,铸星坊铸预测之器,智多星谋自主之研,观星阁观未来之势,天星台立评测之尺。

CastMind 星思:多模态推理驱动的时间序列基础模型
NeoResearch 智多星:面向时间序列预测的自主科研智能体
CastClaw 观星阁:基于自主交互的时间序列预测智能体
FutureCast 天星台:情境感知的时间序列预测评估基准
CastFactory 炼星坊:时间序列预测模型训练框架

科技文献智能搜索

面向科研智能体构建从数据底座、检索技能、自主文献检索智能体到过程评测和真实用户服务的完整知识获取栈。

📚 Lewen API 数据底座 · Academic Search 检索 Skill · PaperScout 自主检索 Agent
🔎 自然语言学术问答 · 深度检索 · 文献调研 · 证据追踪与知识综合
🧩 PaperArena 过程评测 · 多步推理 · 跨论文整合 · 数据库交互能力诊断

数据科学自主研究智能体NeoResearch

Data Science Agent 通过自主环境交互,串联文献调研、数据分析、假设生成、小模型设计、认知推理与评估修正,构建端到端自主 data mining 闭环。以 Time Series Forecasting 为典型验证场景,探索 Agent 驱动的数据科学发现范式。

1 文献调研 自主检索相关工作,提炼研究空白与先验知识
2 数据分析 探索性数据分析,识别分布规律、模式与关键特征
3 假设生成 结合文献与数据洞察,生成可验证的研究假设
4 小模型设计 针对假设自主设计轻量模型结构与实验方案
5 认知推理 多步推理解读实验结果,判断假设有效性
6 评估 · 确认 · 修正 量化评估结果,确认或修正假设,驱动下一轮迭代
↻   自主迭代闭环 · 典型验证场景:Time Series Forecasting

时间序列预测智能体CastClaw

面向时间序列预测研究的人机协同智能体框架。CastClaw 通过 Planner、Forecaster、Critic 三个专属智能体编排完整预测流程,并在关键节点引入人类确认,将数据分析、特征工程与经典时序模型能力封装为可扩展的运行时工具箱。

📈 多智能体协同 · 人机高效协作 · Agentic Workflow
🧰 运行时工具箱:实验执行沙盒 · 数据分析工具 · 特征分析 · 经典时序模型
🗂️ Skill 持续沉淀 · 面向真实预测工作流的研究工作台

表格数据分析智能体TabClaw

面向表格数据的本地对话式 AI Agent。上传 CSV / Excel 后用自然语言描述需求,TabClaw 先展示执行计划、多表并行派遣专属 Agent、跨会话持久记忆偏好,并将每次交互蒸馏为可复用技能——无需 SQL,无需编程,对话即可完成复杂表格分析。

📋 Plan Mode · Multi-Agent 并行分析 · 技能自动蒸馏 · 持久记忆
支持任意 OpenAI 兼容端点:OpenAI · DeepSeek · SiliconFlow · Ollama(本地)
👥 Shuo Yu  ·  Daoyu Wang  ·  Qingchuan Li  ·  Xiaoyu Tao  ·  Qingyang Mao  ·  Yitong Zhou