Agent 推理框架

研究方向： 本方向聚焦 LLM Agent 的推理与运行基础设施。 Science-Star 提供面向科学研究的 ReAct 平台与 HLE、GAIA 等权威基准； Mind2Report 以无训练 Agent 工作流完成认知式深度调研与专家级商业报告合成，配套 QRC-Eval 评测。

方向概览

推理型 Agent 既需要可复现的评测环境与工具链（科学场景），也需要面向开放网络的长程认知与报告能力（商业决策场景）。中国科大认知智能全国重点实验室的工作覆盖这两条互补路线：前者以 Science-Star 支撑研究与基准实验，后者以 Mind2Report 探索 Deep Research 的报告质量边界。

权威基准
HLE · GAIA（Science-Star）

200

QRC-Eval
真实商业任务（Mind2Report）

内置工具
搜索 / 爬取 / PDF / RAG

运行形态
科学平台 · 报告合成

Science-Star · GitHub

Science-Star

开源科学 AI Agent 平台：基于 ReAct 与 RICO，将 Planning、Action、Memory、Reflection 与丰富工具集整合；内置 HLE、GAIA 与 Streamlit 可视化，支持单/多智能体协作，便于扩展自定义工具与评测流程。

🎯 ReAct · HLE · GAIA · CodeAgent + 搜索 Agent

🔧 搜索 · 爬取 · PDF · 浏览器 · RAG · Python 沙盒

查看详情 → GitHub

Mind2Report · arXiv 2601.04879

Mind2Report

认知式深度调研 Agent：模拟商业分析师的意图澄清、网络检索与笔记式记忆、迭代成文与多维反思；在 QRC-Eval 上从质量、可靠性与覆盖度系统评估报告，适用于高利害商业决策场景。

📊 Training-free · 动态记忆 · 意图驱动提纲 · 反思

📝 QRC-Eval · 专家级商业报告 · Apache 2.0

查看详情 → GitHub arXiv

Science-Star：开源科学 AI Agent 平台

科学研究对 AI Agent 的需求与通用任务有本质不同——它需要 Agent 能够检索最新文献、解析复杂 PDF、分析实验数据、编写代码验证假设，并在多个数据源之间进行深度推理。

Science-Star 正是为此而生：一个面向科学研究场景的开源 Agent 运行平台。无论是研究员希望快速评测 Agent 性能，还是开发者需要构建领域 Agent，Science-Star 都能提供即用的完整解决方案。

核心功能

🔧

丰富工具集

搜索（SerpAPI, Tavily, DuckDuckGo, Wayback）、爬取（Jina, crawl4ai）、PDF 解析、浏览器操作、视频/音频检查、RAG 检索。通过统一接口轻松扩展自定义工具。

🤖

多 Agent 架构

内置 CodeAgent + 搜索 Agent 的协作模式。通过单一配置文件即可在单 Agent 与多 Agent 之间切换，模块化设计使核心逻辑不受架构变化影响。

📊

一键基准评测

HLE 和 GAIA 基准开箱即用，配备完整的数据加载器和评分脚本。Streamlit 可视化仪表盘支持数据集浏览和结果对比分析。

⚙️

高度可配置

一个配置文件控制模型选择、工具组合、Agent 架构、基准数据集等所有参数。支持灵活替换数据加载器、模型后端和工具组合。

系统架构

Science-Star 基于 RICO 框架（Reflection + Intelligence + Cognition + Optimization），将 ReAct 的思考—行动循环与 Planning、Memory、Reflection 模块深度整合：

P

Planning — 任务规划 在执行前对复杂任务进行分解，生成结构化的执行计划，指导后续行动序列。
A

Action — 工具执行 调用搜索、爬取、PDF 解析、代码执行等工具，从外部环境获取信息并执行操作。
M

Memory — 上下文管理 维护跨轮次的工作记忆，管理检索到的文献、计算结果、中间推理过程，避免信息丢失。
R

Reflection — 自我反思 在每轮行动后评估结果质量，识别错误或信息缺口，调整后续策略，提升长任务稳定性。

多 Agent 协作模式

单 Agent 模式

单一 Agent 独立完成所有推理、检索、执行步骤。适合任务相对简单、上下文窗口充足的场景。通过配置一键启用。

多 Agent 模式（2026.02 新增）

CodeAgent 负责代码生成与执行，搜索 Agent 负责信息检索与文献整合。两类 Agent 协作完成需要跨域能力的复杂科学推理任务。

基准支持

🧠

HLE（Humanity's Last Exam）

人类最难考试基准，覆盖数学、物理、化学、生物、历史等多学科极难题目，专为测试 AI 的深层科学推理能力而设计。Science-Star 基于 o4-mini 在小规模 HLE 子集上实现了领先结果。

🌐

GAIA

通用 AI Agent 基准，评测 Agent 在真实世界多步任务中的能力——包括网页浏览、文件处理、工具使用等。Science-Star 内置完整的 GAIA 加载器、评分脚本和可视化仪表盘。

Roadmap：更多基准（OpenAI SimpleQA、SciCode 等）正在接入中。

工具集详情

搜索工具：SerpAPI、Tavily、DuckDuckGo（免费）、Wayback Machine（历史页面）
爬取工具：Jina（快速提取正文）、crawl4ai（复杂结构页面）
文档解析：PDF 解析器（提取文本、表格、公式）
浏览器工具：程序化浏览器操作，支持动态页面交互
检查器：文档/音频/视觉内容检查与分析
RAG 检索：向量检索器，支持自定义知识库构建
代码执行：Python 代码沙盒，用于数据分析与计算验证

所有工具通过统一接口暴露，只需实现 execute() 方法即可将自定义工具注册到 Agent 工具池中。

Science-Star GitHub →

Mind2Report：认知式深度调研

Mind2Report 面向专家级商业报告合成：从细粒度意图探询出发，在开放网络中自适应检索与蒸馏，将知识写入动态记忆结构，经迭代综合与多维反思输出可引用、可决策的长篇报告。

框架为 training-free 的 Agent 工作流，可与通用推理 LLM 配合；配套 QRC-Eval（200 个真实商业任务）从质量、可靠性与覆盖度进行系统评估。完整介绍、复现与 BibTeX 见独立主页。

🧭

意图与提纲

意图澄清、提纲检索与章节树生成，兼顾领域概览与具体推理方向。

🔄

记忆增强检索

递归研究循环、查询扩展与失败重试，知识合并与引用匹配。

✨

多维反思

从检索效率、信息完整、来源时效与观点多元等维度自检与改进。

查看 Mind2Report 完整介绍 →

维度	Science-Star	Mind2Report
定位	科学任务推理与基准评测平台	商业深度调研与报告合成 Agent
典型场景	文献/数据/代码驱动的科研问答与 GAIA 类任务	开放网络信息下的长篇商业决策报告
评测	HLE、GAIA 等 Agent 基准	QRC-Eval（质量 · 可靠性 · 覆盖度）
工程形态	可配置工具池、单/多智能体、Streamlit 仪表盘	无训练工作流、动态记忆与反思管线