这篇工作关注一个很典型但又经常被低估的 Agent 场景:学术论文搜索。现实查询往往带有细粒度约束、排除条件、 研究脉络追踪和逐步收敛需求,难以被一次性 lexical match 或单次 dense retrieval 解决。PaperScout 的关键做法是: 不再把检索看成固定 pipeline,而是让 Agent 在每一步基于当前 paper pool 自主决定下一次检索动作。
从算法视角看,PaperScout 更重要的意义在于提供了一个天然的 multi-turn tool-use 训练场景。每轮交互都会生成完整响应、 触发工具调用、接收新论文、更新候选池,再继续下一轮决策。这正好暴露出传统 token-level RL 在 Agent 场景中的粒度错配问题, 也就是 PSPO 要解决的核心。
论文的切入点很清楚:现有 academic search 方法大多卡在两种范式里。第一种是 query-centric 的单轮匹配; 第二种是 LLM 驱动但仍然 workflow-driven 的固定流程。前者表达力不够,后者虽然多了 query rewriting、 reference expansion 等模块,但真正的“何时做什么”仍然写死在 workflow 里,无法随中间检索结果自适应变化。
把问题压缩成一次 query-document 匹配,适合明确查询,不适合带排除条件、层次约束和探索式搜索的问题。
虽然能 Search、Rewrite、Expand,但执行逻辑预先定义,缺少对 evolving context 的在线决策能力。
Agent 根据已拿到的论文池动态决定是继续 Search 引入新方向,还是 Expand 沿引用链深入探索。
Multi-turn paper search 的收益往往在几步之后才显现。一个合理的中间 Search 可能不会立即带来最终答案,但会打开新的引用分支; 一次无效 Expand 则可能浪费预算并把轨迹引向局部最优。也就是说,训练目标天然依赖交互序列,而不是单个 token。
PaperScout 将任务形式化为 POMDP。潜在状态是不断扩张的 paper pool,观测则是在上下文预算下对候选论文的摘要视图: 既包括已展开论文,也包括仍可继续扩展的高相关候选,同时保留过去的交互历史,避免重复探索。
每篇论文都带有内容与元数据、相关性分数 ρ(p),以及是否已被扩展的标记。
观测由 expanded / unexpanded 两类高分论文组成,让 Agent 同时看到“已探索上下文”和“下一步候选 frontier”。
Search(query) 负责引入新方向,Expand(paper) 沿引用链深入,动作可以单独或组合调用。
每一步只奖励新引入的高相关论文,并惩罚重复调用,让回报更贴近真实检索增益而非表面交互长度。
论文里专门分析了工具分布。训练后的 PaperScout 不会一味偏向 Expand,也不会停留在保守的少量调用, 而是在 Search 与 Expand 之间形成更均衡、更宽的分布。这一点很关键,因为它说明性能提升来自可学习策略, 而不是某个静态配方碰巧更适合某个 benchmark。
这篇论文最有价值的部分是 PSPO。作者指出,标准 PPO 在这里存在一个结构性问题: 环境给的是“整轮交互之后”的 step reward,但优化却发生在 token level。 一个完整回复里包含 reasoning、工具参数和动作选择,最后只拿到一个 turn-level reward, 这会把原本属于一次交互动作的监督信号,稀释到很多 token 上,造成 noisy credit assignment 和 value learning 不稳定。
Turn-level reward 要回传给一整串 token,导致监督被摊薄。结果是 value fitting 更难,credit assignment 更噪,训练效率更低。
虽然也是 sequence-level,但更依赖粗粒度 trajectory outcome,对中间 retrieval steps 的有效过程奖励利用不充分,容易早早平台化。
论文在 RealScholarQuery 与 AutoScholarQuery 两个 benchmark 上做评测。 前者更接近真实研究问题,后者是由顶会论文构造的 synthetic benchmark。PaperScout 的结果说明两件事: 第一,multi-turn retrieval 显著优于 single-shot baseline;第二,PSPO 训练后的 4B 模型,不仅超过传统 workflow 方法, 还能够匹配甚至超过更大的未训练 backbone。
| RealScholarQuery | Precision | F1 | Recall | LLM-score |
|---|---|---|---|---|
| PaSa | 0.415 | 0.417 | 0.541 | 2.111 |
| SPAR | 0.412 | 0.408 | 0.496 | 2.415 |
| PaperScout-Qwen3-Max | 0.435 | 0.427 | 0.562 | 2.483 |
| PaperScout (PSPO) | 0.442 | 0.441 | 0.574 | 2.576 |
PaperScout 在 RealScholarQuery 上把 Recall 从最佳基线的 0.541 提升到 0.574,同时 F1 从 0.417 提升到 0.441。
论文显示随着 tool calls 累积,PaperScout 在相同步数下始终获得更高 recall,说明策略质量而非调用次数堆出来的结果。
PSPO 的 gradient norm 更小、critic loss 更低、return 上升更快,验证了 sequence-level + process rewards 的组合更适合这类任务。
RL 训练后的 4B PaperScout 能匹配甚至超过未训练的 Qwen3-Max,说明优化方法对 Agent 行为本身的价值很高。
在 RealScholarQuery 上,PSPO 取得了表内最佳的 Recall 0.574,高于 GSPO 0.557 和 PPO 0.537。
论文的训练曲线还显示,PSPO 收敛更快、最终平台更高;去掉过程奖励的 PSPO* 则会明显掉到更低的平台,
这说明 sequence-level 对齐本身重要,但 process rewards 同样不可省略。
如果你更关注 Agentic RL 方法本身,可以把这篇论文理解为:
选了一个很合适的多轮工具调用环境来验证 sequence-level policy optimization,
然后用 Paper Search 这个任务把“动作粒度对齐”和“过程奖励建模”的收益具体量化了出来。