Agentic RAG

Agentic RAG 研究

检索增强生成方向的系列工作:
KDD Cup 竞赛银牌 · 知识剪枝 · 技术报告

中国科学技术大学 · 认知智能全国重点实验室

研究方向: 本方向聚焦检索增强生成(RAG)系统的设计与优化。团队在 KDD Cup 2024 CRAG 竞赛中取得 Task 2&3 银牌(第二名), 并在此基础上提出 PruningRAG(多源知识剪枝方法,中稿 CIKM 2025), 以及竞赛技术报告(中稿 FCS 期刊)。
🥈

KDD Cup 2024 · Meta CRAG Benchmark

Task 2(知识图谱 + 网页增强)& Task 3(端到端 RAG)双赛道银牌 · 第二名

系列工作概览

🏆

CRAG 竞赛方案

KDD Cup 2024 银牌解决方案,覆盖 Domain Router、动态检索、适应性 Few-Shot CoT 等完整系统。

✂️

PruningRAG

多源知识剪枝 RAG 基准与方法研究,CIKM 2025 录用。arXiv 2409.13694

📝

CRAG 技术报告

竞赛完整技术报告,FCS 期刊录用。arXiv 2409.15337

CRAG-in-KDD-Cup2024

🥈 KDD Cup 2024 · Task 2&3 银牌

Meta KDD Cup '24 CRAG:银牌解决方案(Task 2 & Task 3)

Jie Ouyang  ·  Yucong Luo  ·  Mingyue Cheng  ·  Daoyu Wang  ·  Shuo Yu  ·  Qi Liu  ·  Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

🥈 银牌 · 第二名 Task 2:KG + 网页增强 Task 3:端到端 RAG KDD Cup 2024 Meta CRAG Benchmark

Meta KDD Cup 2024 CRAG(Comprehensive RAG Benchmark)是 Meta 发布的全面 RAG 评测竞赛,包含三项任务:Task 1(基于 5 个网页的摘要检索),Task 2(知识图谱 + 网页多源增强),Task 3(50 个网页 + Mock API 的端到端 RAG)。本团队在 Task 2 和 Task 3 均取得银牌(第二名)。

系统方案

方案核心分为检索和生成两个阶段,均引入路由机制处理多样化查询:

🔀

双路由器设计

基于 BGE-M3 训练的领域路由器(5 类)和动态性路由器(4 类),精准分配不同类型问题的处理策略。

🌐

Web 检索管道

HTML 解析 → BM25 预排序(Task 3)→ BGE-M3 向量检索 → BGE-M3-v2 重排序,最终选取 Top-5 文本块。

🔌

Mock API 提取器

Llama3-70B NER → 实体匹配 → 时间信息提取 → API 规则选择 → JSON 转 Markdown,结构化 API 数据与网页信息深度融合。

💬

自适应 Few-Shot CoT

按领域动态选择数据源(电影/音乐用 Web + API,体育/金融仅用 API),结合链式推理提示生成高质量答案。

PruningRAG CIKM 2025

PruningRAG · CIKM 2025 · arXiv 2409.13694

Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

Shuo Yu  ·  Mingyue Cheng  ·  Qi Liu  ·  Daoyu Wang  ·  Jiqian Yang  ·  Jie Ouyang  ·  Yucong Luo  ·  Chenyi Lei  ·  Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

CIKM 2025 检索增强生成 知识剪枝 多源检索 基准评测

RAG 系统从多个异构数据源(网页、知识图谱、数据库、文档库)检索信息时,往往引入大量冗余、矛盾或低质量的知识片段。如何对这些多源知识进行高效剪枝,保留最有价值的内容传入生成模块,是提升 RAG 系统性能的关键环节。

本文提出了一个系统性的多源知识剪枝基准,覆盖 Web 检索、API 数据、知识图谱等多种来源,并通过大量实证研究(Empirical Study)分析不同剪枝策略(基于相关性评分、跨源去重、来源权重学习等)在不同任务和数据源组合下的效果差异。研究为 RAG 系统的剪枝模块设计提供了实践指导。本文被 CIKM 2025 录用。

CRAG 技术报告 FCS 期刊

技术报告 · FCS 期刊 · arXiv 2409.15337

Revisiting the Solution of Meta KDD Cup 2024: CRAG

Jie Ouyang  ·  Yucong Luo  ·  Mingyue Cheng  ·  Daoyu Wang  ·  Shuo Yu  ·  Qi Liu  ·  Enhong Chen
中国科学技术大学 · 认知智能全国重点实验室

FCS 期刊 Frontiers of Computer Science 竞赛技术报告 RAG 系统 KDD Cup 2024

本文是对 Meta KDD Cup 2024 CRAG 竞赛解决方案的全面技术报告,系统性地阐述了团队在 Task 2(知识图谱 + 网页多源增强 QA)和 Task 3(端到端 RAG,含 50 个网页 + Mock API)上取得银牌的完整方案设计思路、技术选型依据、关键实验结论与经验总结。

报告详细分析了 CRAG 竞赛的独特挑战:大规模噪声信息过滤(Task 3 单问题 50 个网页)、结构化 API 数据与非结构化网页信息的融合、跨领域动态问题的处理策略差异。在此基础上,对路由器设计、检索管道、生成策略的选择进行了深入复盘。本文已被 Frontiers of Computer Science(FCS)期刊录用。

引用

CRAG 技术报告 / KDD Cup 方案

@article{ouyang2024revisiting, title={Revisiting the Solution of Meta KDD Cup 2024: CRAG}, author={Ouyang, Jie and Luo, Yucong and Cheng, Mingyue and Wang, Daoyu and Yu, Shuo and Liu, Qi and Chen, Enhong}, journal={Frontiers of Computer Science}, eprint={arXiv:2409.15337}, year={2024} }

PruningRAG

@inproceedings{yu2025pruningrag, title={Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study}, author={Yu, Shuo and Cheng, Mingyue and Liu, Qi and Wang, Daoyu and Yang, Jiqian and Ouyang, Jie and Luo, Yucong and Lei, Chenyi and Chen, Enhong}, booktitle={Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM)}, year={2025}, eprint={arXiv:2409.13694} }