从科学任务推理到商业深度调研,
两款开源推理 Agent 的系统性探索与落地。
中国科学技术大学 · 认知智能全国重点实验室
推理型 Agent 既需要可复现的评测环境与工具链(科学场景),也需要面向开放网络的长程认知与报告能力(商业决策场景)。 中国科大认知智能全国重点实验室的工作覆盖这两条互补路线:前者以 Science-Star 支撑研究与基准实验,后者以 Mind2Report 探索 Deep Research 的报告质量边界。
开源科学 AI Agent 平台:基于 ReAct 与 RICO,将 Planning、Action、Memory、Reflection 与丰富工具集整合;内置 HLE、GAIA 与 Streamlit 可视化,支持单/多智能体协作,便于扩展自定义工具与评测流程。
科学研究对 AI Agent 的需求与通用任务有本质不同——它需要 Agent 能够检索最新文献、解析复杂 PDF、分析实验数据、编写代码验证假设,并在多个数据源之间进行深度推理。
Science-Star 正是为此而生:一个面向科学研究场景的开源 Agent 运行平台。无论是研究员希望快速评测 Agent 性能,还是开发者需要构建领域 Agent,Science-Star 都能提供即用的完整解决方案。
搜索(SerpAPI, Tavily, DuckDuckGo, Wayback)、爬取(Jina, crawl4ai)、PDF 解析、浏览器操作、视频/音频检查、RAG 检索。通过统一接口轻松扩展自定义工具。
内置 CodeAgent + 搜索 Agent 的协作模式。通过单一配置文件即可在单 Agent 与多 Agent 之间切换,模块化设计使核心逻辑不受架构变化影响。
HLE 和 GAIA 基准开箱即用,配备完整的数据加载器和评分脚本。Streamlit 可视化仪表盘支持数据集浏览和结果对比分析。
一个配置文件控制模型选择、工具组合、Agent 架构、基准数据集等所有参数。支持灵活替换数据加载器、模型后端和工具组合。
Science-Star 基于 RICO 框架(Reflection + Intelligence + Cognition + Optimization), 将 ReAct 的思考—行动循环与 Planning、Memory、Reflection 模块深度整合:
单一 Agent 独立完成所有推理、检索、执行步骤。适合任务相对简单、上下文窗口充足的场景。通过配置一键启用。
CodeAgent 负责代码生成与执行,搜索 Agent 负责信息检索与文献整合。两类 Agent 协作完成需要跨域能力的复杂科学推理任务。
人类最难考试基准,覆盖数学、物理、化学、生物、历史等多学科极难题目,专为测试 AI 的深层科学推理能力而设计。Science-Star 基于 o4-mini 在小规模 HLE 子集上实现了领先结果。
通用 AI Agent 基准,评测 Agent 在真实世界多步任务中的能力——包括网页浏览、文件处理、工具使用等。Science-Star 内置完整的 GAIA 加载器、评分脚本和可视化仪表盘。
Roadmap:更多基准(OpenAI SimpleQA、SciCode 等)正在接入中。
所有工具通过统一接口暴露,只需实现 execute() 方法即可将自定义工具注册到 Agent 工具池中。
Mind2Report 面向专家级商业报告合成:从细粒度意图探询出发,在开放网络中自适应检索与蒸馏,将知识写入动态记忆结构,经迭代综合与多维反思输出可引用、可决策的长篇报告。
框架为 training-free 的 Agent 工作流,可与通用推理 LLM 配合;配套 QRC-Eval(200 个真实商业任务)从质量、可靠性与覆盖度进行系统评估。完整介绍、复现与 BibTeX 见独立主页。
意图澄清、提纲检索与章节树生成,兼顾领域概览与具体推理方向。
递归研究循环、查询扩展与失败重试,知识合并与引用匹配。
从检索效率、信息完整、来源时效与观点多元等维度自检与改进。
| 维度 | Science-Star | Mind2Report |
|---|---|---|
| 定位 | 科学任务推理与基准评测平台 | 商业深度调研与报告合成 Agent |
| 典型场景 | 文献/数据/代码驱动的科研问答与 GAIA 类任务 | 开放网络信息下的长篇商业决策报告 |
| 评测 | HLE、GAIA 等 Agent 基准 | QRC-Eval(质量 · 可靠性 · 覆盖度) |
| 工程形态 | 可配置工具池、单/多智能体、Streamlit 仪表盘 | 无训练工作流、动态记忆与反思管线 |
本方向的两个项目共同覆盖「可复现科学推理」与「开放域报告合成」两条互补路线:
以 ReAct/RICO 与权威基准为核心,沉淀工具链与多智能体协作模式,服务科研侧可扩展评测与可视化分析。
在噪声网络环境下强化长程记忆与反思,以 QRC-Eval 牵引报告质量,支撑高利害商业分析场景。
Science-Star 学生贡献者:Daoyu Wang、Qingchuan Li、Tian Gao、Shuo Yu、Xiaoyu Tao、Ze Guo
指导教师:Mingyue Cheng、Qi Liu
机构:中国科学技术大学 · 认知智能全国重点实验室
同方向项目 Mind2Report 的作者与引用请参阅 Mind2Report 主页 · 引用。