静态信息检索
给定 query 后返回论文列表,主要优化召回、排序和摘要呈现。系统输出通常停留在“找到什么论文”。
从静态文献检索走向自主证据获取,贯通科学知识接口、学术检索 Skill、知识获取智能体、过程评测与真实用户服务。
中国科学技术大学 · 认知智能全国重点实验室 · AGI研究组
Agentic AI 时代,科研智能体面对的核心挑战不只是生成答案,而是在复杂科学信息空间中主动获取、 验证、组织和利用知识。科学文献、实验数据、代码资源、图表证据和领域知识持续增长, 静态数据库、关键词检索和一次性 RAG 很难支撑真实科研过程中的多轮证据获取。
因此,Scientific Knowledge Acquisition 应从静态数据访问接口,推进为面向科研智能体的 Agentic Scientific Knowledge Acquisition Interface。它需要理解任务目标, 识别知识缺口,规划检索路径,调用文献搜索、引用追踪、图表解析、实验结果抽取、代码执行和数据库查询等工具, 并在多轮交互中完成证据筛选、跨文档推理和结论修正。
传统科学知识获取多依赖静态数据库、关键词检索或一次性 RAG 流程,通常把论文和知识资源视为被动读取的数据对象。 但真实科研过程要求智能体围绕研究目标持续识别知识缺口,调整检索策略,追踪引用网络,阅读关键证据, 并根据新证据修正结论。
给定 query 后返回论文列表,主要优化召回、排序和摘要呈现。系统输出通常停留在“找到什么论文”。
给定任务状态后规划知识获取过程,产出可验证证据链、结构化 claim、方法边界、实验依据和可复用记忆。
我们构建了一个从 Lewen API 到 Academic Search、PaperScout、PaperArena,再到学术乐问用户系统的完整 Agentic Scientific Knowledge Acquisition Stack。Lewen API 提供数据底座,Academic Search 提供可调用技能, PaperScout 负责自主知识获取,PaperArena 负责过程评测与能力诊断,学术乐问则面向真实用户提供学术知识问答与深度研究服务。
Lewen API 提供科学文献、元数据、引用关系、开放全文、多模态证据等底层数据访问能力。 它把分散的科学信息资源转化为可组合、可追踪、可扩展的数据接口,是后续 Skill 调用、智能体规划和证据评测的基础。
围绕论文、元数据、引用关系、开放全文、图表证据和多模态材料提供统一接口。
为上层 Academic Search、PaperScout 和 PaperArena 提供可引用、可验证、可复用的科学证据来源。
Academic Search 封装多源学术检索、Query 扩展、元数据补全、开放获取判断、引用追踪、结果筛选等能力, 作为 Agent Runtime 可调用的学术检索 Skill。它把底层 Lewen API 与其他学术数据源组织成一个稳定的工具接口, 让上层智能体不必重复实现检索、补全、过滤和引用分析逻辑。
PaperScout 是 stack 的智能体层,围绕科研任务自主规划检索路径,调用 Academic Search 等技能, 完成证据获取、筛选、组织和知识综合。它把学术论文搜索从静态语义匹配和固定工作流, 转化为一个多轮序列决策过程。
PSPO 将完整交互序列作为优化单元,用 sequence-level 的方式训练 Agentic Search 行为, 缓解 token-level 优化和 agent-environment interaction 之间的粒度错配。长期看, PaperScout 需要继续扩展到 evidence extraction、paper reading、 citation reasoning、claim verification、method mining、domain adaptation、task-aware search 和 long-term paper memory。
PaperArena 评估智能体在工具链规划、多步推理、多模态理解、跨论文整合、数据库交互和过程级决策中的能力。 它不只检查最后答案是否正确,还诊断 PaperScout 这类智能体是否能正确选择技能、读取跨论文证据、 处理多模态材料,并在证据不足时修正推理过程。
这使 Scientific Knowledge Acquisition 从“服务某个检索产品”,进一步成为科研智能体训练、 评测和持续进化的基础设施。检索命中、证据覆盖、引用正确性、图表读取精度、推理一致性和工具链效率, 都可以转化为过程级反馈信号。
评估智能体是否能在 Academic Search、引用追踪、图表解析、代码执行和数据库查询之间做出合理选择。
诊断智能体能否整合多篇论文中的方法、实验、局限性和引用关系,形成一致结论。
检查答案是否有可追踪证据支撑,引用是否准确,关键 claim 是否来自可信来源。
把过程指标转化为训练信号,为 Agentic RL 提供可观测、可优化的科研任务环境。
学术乐问是面向科研用户的前端系统,支持用户通过自然语言提出研究问题, 完成学术问答、深度检索、文献调研、证据追踪和研究辅助。它把底层数据、Academic Search 技能、 PaperScout 智能体和 PaperArena 评测能力连接到真实科研使用场景中。
用户用自然语言提出研究问题,系统返回带证据来源、引用链路和可追踪依据的回答。
围绕复杂主题执行多轮检索、相关工作发现、文献筛选、证据追踪和研究脉络整理。
为选题分析、方法比较、实验方案设计、相关工作梳理和科研写作提供证据支撑。
通过用户查询、点击、追问和采纳行为反哺检索策略、智能体规划和评测任务构造。
以下项目共同构成当前 Agentic Scientific Knowledge Acquisition Stack,可分别服务开发者、智能体、评测环境和真实科研用户。
| 模块 | 定位 | 链接 |
|---|---|---|
| Lewen-API | 数据支撑层:科学文献、元数据、引用关系、开放全文和多模态证据访问底座。 | GitHub · Docs |
| Academic Search | Skill 技能层:封装多源学术检索、Query 扩展、元数据补全、开放获取判断、引用追踪和结果筛选。 | GitHub |
| PaperScout | 智能体层:围绕科研任务自主规划检索路径,调用 Academic Search 等技能完成知识获取。 | Project · Paper |
| PaperArena | 评测层:评估工具链规划、多步推理、多模态理解、跨论文整合、数据库交互和过程级决策能力。 | Paper · Code |
| 学术乐问 | 用户应用层:面向科研用户的自然语言学术问答、深度检索、文献调研、证据追踪和研究辅助系统。 | 学术乐问 |
| 学术鲁班 | 面向科研场景的 Skills 管理、分发与共建平台,支撑科研能力单元的生态化扩展。 | luban.bdaa.pro |