KDD Cup 2024 银牌解决方案,覆盖 Domain Router、动态检索、适应性 Few-Shot CoT 等完整系统。
多源知识剪枝 RAG 基准与方法研究,CIKM 2025 录用。arXiv 2409.13694
竞赛完整技术报告,FCS 期刊录用。arXiv 2409.15337
Meta KDD Cup 2024 CRAG(Comprehensive RAG Benchmark)是 Meta 发布的全面 RAG 评测竞赛,包含三项任务:Task 1(基于 5 个网页的摘要检索),Task 2(知识图谱 + 网页多源增强),Task 3(50 个网页 + Mock API 的端到端 RAG)。本团队在 Task 2 和 Task 3 均取得银牌(第二名)。
方案核心分为检索和生成两个阶段,均引入路由机制处理多样化查询:
基于 BGE-M3 训练的领域路由器(5 类)和动态性路由器(4 类),精准分配不同类型问题的处理策略。
HTML 解析 → BM25 预排序(Task 3)→ BGE-M3 向量检索 → BGE-M3-v2 重排序,最终选取 Top-5 文本块。
Llama3-70B NER → 实体匹配 → 时间信息提取 → API 规则选择 → JSON 转 Markdown,结构化 API 数据与网页信息深度融合。
按领域动态选择数据源(电影/音乐用 Web + API,体育/金融仅用 API),结合链式推理提示生成高质量答案。
RAG 系统从多个异构数据源(网页、知识图谱、数据库、文档库)检索信息时,往往引入大量冗余、矛盾或低质量的知识片段。如何对这些多源知识进行高效剪枝,保留最有价值的内容传入生成模块,是提升 RAG 系统性能的关键环节。
本文提出了一个系统性的多源知识剪枝基准,覆盖 Web 检索、API 数据、知识图谱等多种来源,并通过大量实证研究(Empirical Study)分析不同剪枝策略(基于相关性评分、跨源去重、来源权重学习等)在不同任务和数据源组合下的效果差异。研究为 RAG 系统的剪枝模块设计提供了实践指导。本文被 CIKM 2025 录用。
本文是对 Meta KDD Cup 2024 CRAG 竞赛解决方案的全面技术报告,系统性地阐述了团队在 Task 2(知识图谱 + 网页多源增强 QA)和 Task 3(端到端 RAG,含 50 个网页 + Mock API)上取得银牌的完整方案设计思路、技术选型依据、关键实验结论与经验总结。
报告详细分析了 CRAG 竞赛的独特挑战:大规模噪声信息过滤(Task 3 单问题 50 个网页)、结构化 API 数据与非结构化网页信息的融合、跨领域动态问题的处理策略差异。在此基础上,对路由器设计、检索管道、生成策略的选择进行了深入复盘。本文已被 Frontiers of Computer Science(FCS)期刊录用。