Agentic RL for Academic Search

PaperScout:用 PSPO 训练的学术论文搜索 Agent

将 Academic Paper Search 重写为多轮决策问题,让 Agent 自主决定何时 Search、何时 Expand; 再用 process-aware、sequence-level 的 PSPO 对这类交互轨迹进行优化。

中国科学技术大学 · 认知智能全国重点实验室

Tingyue Pan, Jie Ouyang, Mingyue Cheng, Qingchuan Li, Zirui Liu, Daoyu Wang, Mingfan Pan, Shuo Yu, Qi Liu

TL;DR: PaperScout 的核心价值不只是“做论文搜索”,而是把 Paper Search 变成一个适合验证 Agentic RL 的多轮交互环境。 论文提出的 PSPO 通过 sequence-level advantage estimation 和 process rewards, 让优化粒度真正对齐 Agent 与环境的交互粒度,在 RealScholarQuery 上把 Recall 做到 0.574, 超过最佳基线 0.541

项目简介

这篇工作关注一个很典型但又经常被低估的 Agent 场景:学术论文搜索。现实查询往往带有细粒度约束、排除条件、 研究脉络追踪和逐步收敛需求,难以被一次性 lexical match 或单次 dense retrieval 解决。PaperScout 的关键做法是: 不再把检索看成固定 pipeline,而是让 Agent 在每一步基于当前 paper pool 自主决定下一次检索动作。

从算法视角看,PaperScout 更重要的意义在于提供了一个天然的 multi-turn tool-use 训练场景。每轮交互都会生成完整响应、 触发工具调用、接收新论文、更新候选池,再继续下一轮决策。这正好暴露出传统 token-level RL 在 Agent 场景中的粒度错配问题, 也就是 PSPO 要解决的核心。

0.574
RealScholarQuery Recall
0.441
RealScholarQuery F1
2.576
LLM-based Relevance Score
2
核心动作:Search / Expand

为什么要重构问题

论文的切入点很清楚:现有 academic search 方法大多卡在两种范式里。第一种是 query-centric 的单轮匹配; 第二种是 LLM 驱动但仍然 workflow-driven 的固定流程。前者表达力不够,后者虽然多了 query rewriting、 reference expansion 等模块,但真正的“何时做什么”仍然写死在 workflow 里,无法随中间检索结果自适应变化。

Semantic Match

单轮相关性匹配

把问题压缩成一次 query-document 匹配,适合明确查询,不适合带排除条件、层次约束和探索式搜索的问题。

Fixed Workflow

模块更多,但顺序固定

虽然能 Search、Rewrite、Expand,但执行逻辑预先定义,缺少对 evolving context 的在线决策能力。

PaperScout

把检索变成 sequential decision making

Agent 根据已拿到的论文池动态决定是继续 Search 引入新方向,还是 Expand 沿引用链深入探索。

从 Agentic RL 视角看,这里难的不是检索,而是信用分配

Multi-turn paper search 的收益往往在几步之后才显现。一个合理的中间 Search 可能不会立即带来最终答案,但会打开新的引用分支; 一次无效 Expand 则可能浪费预算并把轨迹引向局部最优。也就是说,训练目标天然依赖交互序列,而不是单个 token。

固定 Workflow
PaperScout Agent
决策单位
预先写好的 Search-then-Expand 流程
每一轮完整响应对应一次可学习动作
状态来源
有限的中间模块输出
累积 paper pool、历史 query、已扩展节点
策略变化
对不同 query 的适配能力有限
可根据上下文在 breadth 和 depth 间动态切换
优化对象
模块级启发式或单次排序质量
多轮交互轨迹的整体 retrieval utility
适合的 RL 粒度
通常未显式建模
sequence-level / turn-level 更自然
核心问题
流程僵硬
如何做稳定、对齐的多轮策略优化

PaperScout Agent 设计

PaperScout 将任务形式化为 POMDP。潜在状态是不断扩张的 paper pool,观测则是在上下文预算下对候选论文的摘要视图: 既包括已展开论文,也包括仍可继续扩展的高相关候选,同时保留过去的交互历史,避免重复探索。

🗂️

State: Paper Pool

每篇论文都带有内容与元数据、相关性分数 ρ(p),以及是否已被扩展的标记。

👁️

Observation: Dual-list View

观测由 expanded / unexpanded 两类高分论文组成,让 Agent 同时看到“已探索上下文”和“下一步候选 frontier”。

🧰

Action: Search / Expand

Search(query) 负责引入新方向,Expand(paper) 沿引用链深入,动作可以单独或组合调用。

📈

Reward: Marginal Utility

每一步只奖励新引入的高相关论文,并惩罚重复调用,让回报更贴近真实检索增益而非表面交互长度。

它验证的是“动态检索策略”,不是一个写死的 Search-Expand Pipeline

论文里专门分析了工具分布。训练后的 PaperScout 不会一味偏向 Expand,也不会停留在保守的少量调用, 而是在 Search 与 Expand 之间形成更均衡、更宽的分布。这一点很关键,因为它说明性能提升来自可学习策略, 而不是某个静态配方碰巧更适合某个 benchmark。

PSPO:面向多轮 Agent 的 Sequence-Level 优化

这篇论文最有价值的部分是 PSPO。作者指出,标准 PPO 在这里存在一个结构性问题: 环境给的是“整轮交互之后”的 step reward,但优化却发生在 token level。 一个完整回复里包含 reasoning、工具参数和动作选择,最后只拿到一个 turn-level reward, 这会把原本属于一次交互动作的监督信号,稀释到很多 token 上,造成 noisy credit assignment 和 value learning 不稳定。

r_t = sum_{p in top-k(V_t)} rho(p) - eta * sum_{c in C_t} I(c in H_{t-1}) 其中: - V_t: 第 t 步新接纳进 paper pool 的论文集合 - rho(p): 论文对当前查询的相关性分数 - 第二项: 对重复调用历史中已执行动作的惩罚
这个 reward 设计也很“Agentic RL”。 它不是直接奖励漂亮的文本输出,而是奖励一次动作给环境带来的 marginal retrieval gain。 换句话说,PSPO 学的是“哪一步 tool use 真正带来了新的高价值论文”,而不是“模型写得像不像在检索”。

为什么 PSPO 比 PPO / GSPO 更合适

PPO 的问题:粒度错配

Turn-level reward 要回传给一整串 token,导致监督被摊薄。结果是 value fitting 更难,credit assignment 更噪,训练效率更低。

GSPO 的问题:过程信号利用不足

虽然也是 sequence-level,但更依赖粗粒度 trajectory outcome,对中间 retrieval steps 的有效过程奖励利用不充分,容易早早平台化。

实验结果

论文在 RealScholarQueryAutoScholarQuery 两个 benchmark 上做评测。 前者更接近真实研究问题,后者是由顶会论文构造的 synthetic benchmark。PaperScout 的结果说明两件事: 第一,multi-turn retrieval 显著优于 single-shot baseline;第二,PSPO 训练后的 4B 模型,不仅超过传统 workflow 方法, 还能够匹配甚至超过更大的未训练 backbone。

RealScholarQuery Precision F1 Recall LLM-score
PaSa 0.415 0.417 0.541 2.111
SPAR 0.412 0.408 0.496 2.415
PaperScout-Qwen3-Max 0.435 0.427 0.562 2.483
PaperScout (PSPO) 0.442 0.441 0.574 2.576
🏁

总体性能最好

PaperScout 在 RealScholarQuery 上把 Recall 从最佳基线的 0.541 提升到 0.574,同时 F1 从 0.417 提升到 0.441。

⚙️

同等工具预算下更高效

论文显示随着 tool calls 累积,PaperScout 在相同步数下始终获得更高 recall,说明策略质量而非调用次数堆出来的结果。

📉

训练更稳

PSPO 的 gradient norm 更小、critic loss 更低、return 上升更快,验证了 sequence-level + process rewards 的组合更适合这类任务。

🧠

小模型也能赢

RL 训练后的 4B PaperScout 能匹配甚至超过未训练的 Qwen3-Max,说明优化方法对 Agent 行为本身的价值很高。

PSPO 对比 PPO / GSPO

在 RealScholarQuery 上,PSPO 取得了表内最佳的 Recall 0.574,高于 GSPO 0.557PPO 0.537。 论文的训练曲线还显示,PSPO 收敛更快、最终平台更高;去掉过程奖励的 PSPO* 则会明显掉到更低的平台, 这说明 sequence-level 对齐本身重要,但 process rewards 同样不可省略。

引用

如果你更关注 Agentic RL 方法本身,可以把这篇论文理解为: 选了一个很合适的多轮工具调用环境来验证 sequence-level policy optimization, 然后用 Paper Search 这个任务把“动作粒度对齐”和“过程奖励建模”的收益具体量化了出来。

@article{pan2026paperscout, title={PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization}, author={Pan, Tingyue and Ouyang, Jie and Cheng, Mingyue and Li, Qingchuan and Liu, Zirui and Wang, Daoyu and Pan, Mingfan and Yu, Shuo and Liu, Qi}, journal={arXiv preprint arXiv:2601.10029}, year={2026} }