RAG新SOTA，还在5亿条数据上跑进秒级，只有它了

7.5

深览指数

科技微博·机器之心Pro·11小时前·AI 生成

RAG新SOTA，还在5亿条数据上跑进秒级，只有它了

针对传统RAG在多跳推理中容易偏差、GraphRAG/HippoRAG构建代价大且不适应实时变化的痛点，Zleap AI提出了SAG（SQL-Retrieval Augmented Generation）。核心理念是用「事项(Event) + 实体(Entity)」的数据库结构替代大型知识图谱，在线查询时通过SQL join动态串联出局部线索网。在HotpotQA等基准测试中，Recall@5达到88.2%，领先HippoRAG 2约5个点；已在5亿条数据规模的生产环境中实现秒级延迟。适合关注RAG工程落地、Agent记忆系统设计的AI工程师与研究者阅读。原文 ↗原文 ↗

核心观点

▍SAG（SQL-Retrieval Augmented Generation）通过将文本组织成「事项卡（Event）+ 实体（Entity）」的数据库结构，在查询时利用SQL动态串联局部线索，实现了比GraphRAG和HippoRAG 2更优的多跳检索效果与工程可扩展性。
▍传统RAG在多跳推理场景下不仅未能降低幻觉，反而使其恶化（如医学临床文本中幻觉率从5%飙升至43.6%），根因在于其仅做向量相似度匹配，缺乏对实体间关系的理解。

01SAG在三个多跳问答数据集（HotpotQA、2WikiMultiHopQA、MuSiQue）上，统一配置下的平均Recall@2/Recall@5达到79.3%/88.2%，领先HippoRAG 2达11.1个百分点（68.2%/83.3%）。
02在最难的MuSiQue（最多4跳推理）上，SAG的Recall@5为80.0%，而HippoRAG 2仅为65.1%，差距接近15个百分点。
03消融实验证实SAG的召回提升主要来自其结构设计：超边版SAG（80.0%）优于三元组版（77.1%）；关闭查询时扩展后Recall@5从80.0%降至69.4%。
04SAG对embedding模型不敏感，从BGE切换到NV-Embed-v2后Recall@5仅从80.0%微升至81.7%，性能增长远低于更依赖embedding质量的HippoRAG 2（65.1%→74.6%）。
05SAG已在Zleap AI生产环境中部署，支撑约5亿条数据规模，在线检索延迟保持在秒级以内。
06SAG的工程优势在于：chunk是天然并发单元，增量数据可独立处理为新的event和entity并入索引，无需像GraphRAG那样频繁重建全局图。

反方 / 局限

— SAG在实体合并上采用了保守的「不完美合并」策略（简单字符串归一化），并未解决根本性的实体消歧问题，其依赖于后续的向量检索和LLM重排来弥补偏差。
— 论文自身指出，SAG若要真正用于长期Agent Memory，仍需进一步加入版本化和时间感知能力，目前仅是更优的数据组织范式。

SAGSQL-Retrieval Augmented GenerationHippoRAG 2GraphRAGZleap AI广州智跃深空人工智能科技有限公司HotpotQA2WikiMultiHopQAMuSiQue超边 (Hyperedge)事项卡 (Event)

13 分钟 · 6 卡片 · 17 资料

读原文 →

RAG新SOTA，还在5亿条数据上跑进秒级，只有它了

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问