Agentic RAG — CRAG · PruningRAG

研究方向： 本方向聚焦检索增强生成（RAG）系统的设计与优化。团队在 KDD Cup 2024 CRAG 竞赛中取得 Task 2&3 银牌（第二名），并在此基础上提出 PruningRAG（多源知识剪枝方法，中稿 CIKM 2025），以及竞赛技术报告（中稿 FCS 期刊）。

系列工作概览

🏆

CRAG 竞赛方案

KDD Cup 2024 银牌解决方案，覆盖 Domain Router、动态检索、适应性 Few-Shot CoT 等完整系统。

✂️

PruningRAG

多源知识剪枝 RAG 基准与方法研究，CIKM 2025 录用。arXiv 2409.13694

📝

CRAG 技术报告

竞赛完整技术报告，FCS 期刊录用。arXiv 2409.15337

CRAG-in-KDD-Cup2024

🥈 KDD Cup 2024 · Task 2&3 银牌

Meta KDD Cup '24 CRAG：银牌解决方案（Task 2 & Task 3）

Jie Ouyang · Yucong Luo · Mingyue Cheng · Daoyu Wang · Shuo Yu · Qi Liu · Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

🥈 银牌 · 第二名 Task 2：KG + 网页增强 Task 3：端到端 RAG KDD Cup 2024 Meta CRAG Benchmark

Meta KDD Cup 2024 CRAG（Comprehensive RAG Benchmark）是 Meta 发布的全面 RAG 评测竞赛，包含三项任务：Task 1（基于 5 个网页的摘要检索），Task 2（知识图谱 + 网页多源增强），Task 3（50 个网页 + Mock API 的端到端 RAG）。本团队在 Task 2 和 Task 3 均取得银牌（第二名）。

系统方案

方案核心分为检索和生成两个阶段，均引入路由机制处理多样化查询：

🔀

双路由器设计

基于 BGE-M3 训练的领域路由器（5 类）和动态性路由器（4 类），精准分配不同类型问题的处理策略。

🌐

Web 检索管道

HTML 解析 → BM25 预排序（Task 3）→ BGE-M3 向量检索 → BGE-M3-v2 重排序，最终选取 Top-5 文本块。

🔌

Mock API 提取器

Llama3-70B NER → 实体匹配 → 时间信息提取 → API 规则选择 → JSON 转 Markdown，结构化 API 数据与网页信息深度融合。

💬

自适应 Few-Shot CoT

按领域动态选择数据源（电影/音乐用 Web + API，体育/金融仅用 API），结合链式推理提示生成高质量答案。

GitHub 技术报告 arXiv

PruningRAG CIKM 2025

PruningRAG · CIKM 2025 · arXiv 2409.13694

Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

Shuo Yu · Mingyue Cheng · Qi Liu · Daoyu Wang · Jiqian Yang · Jie Ouyang · Yucong Luo · Chenyi Lei · Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

CIKM 2025 检索增强生成知识剪枝多源检索基准评测

RAG 系统从多个异构数据源（网页、知识图谱、数据库、文档库）检索信息时，往往引入大量冗余、矛盾或低质量的知识片段。如何对这些多源知识进行高效剪枝，保留最有价值的内容传入生成模块，是提升 RAG 系统性能的关键环节。

本文提出了一个系统性的多源知识剪枝基准，覆盖 Web 检索、API 数据、知识图谱等多种来源，并通过大量实证研究（Empirical Study）分析不同剪枝策略（基于相关性评分、跨源去重、来源权重学习等）在不同任务和数据源组合下的效果差异。研究为 RAG 系统的剪枝模块设计提供了实践指导。本文被 CIKM 2025 录用。

arXiv 2409.13694 ← 返回主页

CRAG 技术报告 FCS 期刊

技术报告 · FCS 期刊 · arXiv 2409.15337

Revisiting the Solution of Meta KDD Cup 2024: CRAG

Jie Ouyang · Yucong Luo · Mingyue Cheng · Daoyu Wang · Shuo Yu · Qi Liu · Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

FCS 期刊 Frontiers of Computer Science 竞赛技术报告 RAG 系统 KDD Cup 2024

本文是对 Meta KDD Cup 2024 CRAG 竞赛解决方案的全面技术报告，系统性地阐述了团队在 Task 2（知识图谱 + 网页多源增强 QA）和 Task 3（端到端 RAG，含 50 个网页 + Mock API）上取得银牌的完整方案设计思路、技术选型依据、关键实验结论与经验总结。

报告详细分析了 CRAG 竞赛的独特挑战：大规模噪声信息过滤（Task 3 单问题 50 个网页）、结构化 API 数据与非结构化网页信息的融合、跨领域动态问题的处理策略差异。在此基础上，对路由器设计、检索管道、生成策略的选择进行了深入复盘。本文已被 Frontiers of Computer Science（FCS）期刊录用。

arXiv 2409.15337 GitHub ← 返回主页

引用

CRAG 技术报告 / KDD Cup 方案

@article{ouyang2024revisiting, title={Revisiting the Solution of Meta KDD Cup 2024: CRAG}, author={Ouyang, Jie and Luo, Yucong and Cheng, Mingyue and Wang, Daoyu and Yu, Shuo and Liu, Qi and Chen, Enhong}, journal={Frontiers of Computer Science}, eprint={arXiv:2409.15337}, year={2024} }

PruningRAG

@inproceedings{yu2025pruningrag, title={Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study}, author={Yu, Shuo and Cheng, Mingyue and Liu, Qi and Wang, Daoyu and Yang, Jiqian and Ouyang, Jie and Luo, Yucong and Lei, Chenyi and Chen, Enhong}, booktitle={Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM)}, year={2025}, eprint={arXiv:2409.13694} }

Agentic RAG 研究

KDD Cup 2024 · Meta CRAG Benchmark

系列工作概览

CRAG 竞赛方案

PruningRAG

CRAG 技术报告

CRAG-in-KDD-Cup2024

Meta KDD Cup '24 CRAG：银牌解决方案（Task 2 & Task 3）

系统方案

双路由器设计

Web 检索管道

Mock API 提取器

自适应 Few-Shot CoT

PruningRAG CIKM 2025

Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

CRAG 技术报告 FCS 期刊

Revisiting the Solution of Meta KDD Cup 2024: CRAG

引用

CRAG 技术报告 / KDD Cup 方案

PruningRAG