PaperScout — PSPO for Agentic Paper Search

TL;DR： PaperScout 的核心价值不只是“做论文搜索”，而是把 Paper Search 变成一个适合验证 Agentic RL 的多轮交互环境。论文提出的 PSPO 通过 sequence-level advantage estimation 和 process rewards，让优化粒度真正对齐 Agent 与环境的交互粒度，在 RealScholarQuery 上把 Recall 做到 0.574，超过最佳基线 0.541。

项目简介

这篇工作关注一个很典型但又经常被低估的 Agent 场景：学术论文搜索。现实查询往往带有细粒度约束、排除条件、研究脉络追踪和逐步收敛需求，难以被一次性 lexical match 或单次 dense retrieval 解决。PaperScout 的关键做法是：不再把检索看成固定 pipeline，而是让 Agent 在每一步基于当前 paper pool 自主决定下一次检索动作。

从算法视角看，PaperScout 更重要的意义在于提供了一个天然的 multi-turn tool-use 训练场景。每轮交互都会生成完整响应、触发工具调用、接收新论文、更新候选池，再继续下一轮决策。这正好暴露出传统 token-level RL 在 Agent 场景中的粒度错配问题，也就是 PSPO 要解决的核心。

0.574

RealScholarQuery Recall

0.441

RealScholarQuery F1

2.576

LLM-based Relevance Score

核心动作：Search / Expand

为什么要重构问题

论文的切入点很清楚：现有 academic search 方法大多卡在两种范式里。第一种是 query-centric 的单轮匹配；第二种是 LLM 驱动但仍然 workflow-driven 的固定流程。前者表达力不够，后者虽然多了 query rewriting、 reference expansion 等模块，但真正的“何时做什么”仍然写死在 workflow 里，无法随中间检索结果自适应变化。

Semantic Match

单轮相关性匹配

把问题压缩成一次 query-document 匹配，适合明确查询，不适合带排除条件、层次约束和探索式搜索的问题。

Fixed Workflow

模块更多，但顺序固定

虽然能 Search、Rewrite、Expand，但执行逻辑预先定义，缺少对 evolving context 的在线决策能力。

PaperScout

把检索变成 sequential decision making

Agent 根据已拿到的论文池动态决定是继续 Search 引入新方向，还是 Expand 沿引用链深入探索。

从 Agentic RL 视角看，这里难的不是检索，而是信用分配

Multi-turn paper search 的收益往往在几步之后才显现。一个合理的中间 Search 可能不会立即带来最终答案，但会打开新的引用分支；一次无效 Expand 则可能浪费预算并把轨迹引向局部最优。也就是说，训练目标天然依赖交互序列，而不是单个 token。

固定 Workflow

PaperScout Agent

决策单位

预先写好的 Search-then-Expand 流程

每一轮完整响应对应一次可学习动作

状态来源

有限的中间模块输出

累积 paper pool、历史 query、已扩展节点

策略变化

对不同 query 的适配能力有限

可根据上下文在 breadth 和 depth 间动态切换

优化对象

模块级启发式或单次排序质量

多轮交互轨迹的整体 retrieval utility

适合的 RL 粒度

通常未显式建模

sequence-level / turn-level 更自然

核心问题

流程僵硬

如何做稳定、对齐的多轮策略优化

PaperScout Agent 设计

PaperScout 将任务形式化为 POMDP。潜在状态是不断扩张的 paper pool，观测则是在上下文预算下对候选论文的摘要视图：既包括已展开论文，也包括仍可继续扩展的高相关候选，同时保留过去的交互历史，避免重复探索。

🗂️

State: Paper Pool

每篇论文都带有内容与元数据、相关性分数 ρ(p)，以及是否已被扩展的标记。

👁️

Observation: Dual-list View

观测由 expanded / unexpanded 两类高分论文组成，让 Agent 同时看到“已探索上下文”和“下一步候选 frontier”。

🧰

Action: Search / Expand

Search(query) 负责引入新方向，Expand(paper) 沿引用链深入，动作可以单独或组合调用。

📈

Reward: Marginal Utility

每一步只奖励新引入的高相关论文，并惩罚重复调用，让回报更贴近真实检索增益而非表面交互长度。

它验证的是“动态检索策略”，不是一个写死的 Search-Expand Pipeline

论文里专门分析了工具分布。训练后的 PaperScout 不会一味偏向 Expand，也不会停留在保守的少量调用，而是在 Search 与 Expand 之间形成更均衡、更宽的分布。这一点很关键，因为它说明性能提升来自可学习策略，而不是某个静态配方碰巧更适合某个 benchmark。

Search 用来引入新的检索方向，避免被单一引用簇困住。
Expand 用来沿着当前高价值论文继续深挖，提高局部区域的召回。
训练后的策略在工具预算相同的情况下获得更高 recall，说明单次调用的边际价值更高。

PSPO：面向多轮 Agent 的 Sequence-Level 优化

这篇论文最有价值的部分是 PSPO。作者指出，标准 PPO 在这里存在一个结构性问题：环境给的是“整轮交互之后”的 step reward，但优化却发生在 token level。一个完整回复里包含 reasoning、工具参数和动作选择，最后只拿到一个 turn-level reward，这会把原本属于一次交互动作的监督信号，稀释到很多 token 上，造成 noisy credit assignment 和 value learning 不稳定。

1

把完整响应当作原子动作 PSPO 不再把监督拆散到 token，而是把每轮生成的完整 response 视作一次 interaction-level action。
2

sequence-level advantage estimation 优势函数在 turn 级别估计，优化粒度与 agent-environment interaction 粒度对齐。
3

显式利用 process rewards 中间步骤引入的有效论文会立即转化为奖励，不必等到整条轨迹结束后再做粗粒度归因。
4

稳定 critic，改善 sample efficiency 更合理的奖励目标和更对齐的 value regression，让训练更快收敛，也更不容易在长轨迹下抖动。

r_t = sum_{p in top-k(V_t)} rho(p) - eta * sum_{c in C_t} I(c in H_{t-1}) 其中： - V_t: 第 t 步新接纳进 paper pool 的论文集合 - rho(p): 论文对当前查询的相关性分数 - 第二项: 对重复调用历史中已执行动作的惩罚

这个 reward 设计也很“Agentic RL”。它不是直接奖励漂亮的文本输出，而是奖励一次动作给环境带来的 marginal retrieval gain。换句话说，PSPO 学的是“哪一步 tool use 真正带来了新的高价值论文”，而不是“模型写得像不像在检索”。

为什么 PSPO 比 PPO / GSPO 更合适

PPO 的问题：粒度错配

Turn-level reward 要回传给一整串 token，导致监督被摊薄。结果是 value fitting 更难，credit assignment 更噪，训练效率更低。

GSPO 的问题：过程信号利用不足

虽然也是 sequence-level，但更依赖粗粒度 trajectory outcome，对中间 retrieval steps 的有效过程奖励利用不充分，容易早早平台化。

实验结果

论文在 RealScholarQuery 与 AutoScholarQuery 两个 benchmark 上做评测。前者更接近真实研究问题，后者是由顶会论文构造的 synthetic benchmark。PaperScout 的结果说明两件事：第一，multi-turn retrieval 显著优于 single-shot baseline；第二，PSPO 训练后的 4B 模型，不仅超过传统 workflow 方法，还能够匹配甚至超过更大的未训练 backbone。

RealScholarQuery	Precision	F1	Recall	LLM-score
PaSa	0.415	0.417	0.541	2.111
SPAR	0.412	0.408	0.496	2.415
PaperScout-Qwen3-Max	0.435	0.427	0.562	2.483
PaperScout (PSPO)	0.442	0.441	0.574	2.576

🏁

总体性能最好

PaperScout 在 RealScholarQuery 上把 Recall 从最佳基线的 0.541 提升到 0.574，同时 F1 从 0.417 提升到 0.441。

⚙️

同等工具预算下更高效

论文显示随着 tool calls 累积，PaperScout 在相同步数下始终获得更高 recall，说明策略质量而非调用次数堆出来的结果。

📉

训练更稳

PSPO 的 gradient norm 更小、critic loss 更低、return 上升更快，验证了 sequence-level + process rewards 的组合更适合这类任务。

🧠

小模型也能赢

RL 训练后的 4B PaperScout 能匹配甚至超过未训练的 Qwen3-Max，说明优化方法对 Agent 行为本身的价值很高。

PSPO 对比 PPO / GSPO

在 RealScholarQuery 上，PSPO 取得了表内最佳的 Recall 0.574，高于 GSPO 0.557 和 PPO 0.537。论文的训练曲线还显示，PSPO 收敛更快、最终平台更高；去掉过程奖励的 PSPO* 则会明显掉到更低的平台，这说明 sequence-level 对齐本身重要，但 process rewards 同样不可省略。

引用

如果你更关注 Agentic RL 方法本身，可以把这篇论文理解为：选了一个很合适的多轮工具调用环境来验证 sequence-level policy optimization，然后用 Paper Search 这个任务把“动作粒度对齐”和“过程奖励建模”的收益具体量化了出来。

@article{pan2026paperscout, title={PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization}, author={Pan, Tingyue and Ouyang, Jie and Cheng, Mingyue and Li, Qingchuan and Liu, Zirui and Wang, Daoyu and Pan, Mingfan and Yu, Shuo and Liu, Qi}, journal={arXiv preprint arXiv:2601.10029}, year={2026} }