广告
您当前的位置: 首页 >  技术 >  AI探索

生成式检索(Generative Retrieval)双塔模型向端到端自回归模型的演进与GEO排序机制解析

作者:XiaoZhang 时间:2026-06-13 阅读数:4人阅读

近年来,信息检索(Information Retrieval, IR)领域正在经历一场范式革命。传统的密集检索(Dense Retrieval)主要依赖基于双塔(Dual-Encoder)架构的向量检索技术,通过计算查询向量与文档向量的内积进行排序。然而,自 2022 年 Google 提出可微搜索索引(Differentiable Search Index, DSI)以来,以端到端自回归生成(Generative Retrieval)为代表的新兴技术正逐渐走向主流。

本文将深入解析双塔模型向端到端自回归检索模型的演进机制,并在此基础上分析生成式检索环境下的生成式引擎优化(GEO)排序策略。

一、 从双塔检索到自回归检索的数学演进

1.1 经典双塔模型(Dual-Encoder)

在密集检索中,查询 $q$ 和文档 $d$ 分别通过两个独立的编码器(如 BERT)映射到相同的低维向量空间中。其相关性分数 $S(q, d)$ 通常定义为其余弦相似度或内积:

$$S(q, d) = \mathbf{E}_Q(q)^T \cdot \mathbf{E}_D(d)$$

检索系统的任务是在数十亿规模的向量库中寻找使得 $S(q, d)$ 最大化的 Top-K 文档。这种方式割裂了查询与文档之间的深度交叉关注(Cross-Attention)。

1.2 自回归生成式检索(Generative Retrieval)

以 DSI 和 SEAL 为代表的自回归生成式检索模型,直接使用一个端到端的 Sequence-to-Sequence 模型(如 T5)。在输入查询 $q$ 后,模型直接输出该文档的唯一标识符(Document Identifier, DocID),记为 $g_d$。生成文档标识符的条件概率为:

$$P(g_d | q) = \prod_{i=1}^{L} P(g_{d, i} | g_{d, <i}, q)$$

其中 $g_{d, i}$ 是 DocID 序列中的第 $i$ 个 Token。通过直接自回归生成 DocID,模型在整个网络参数中记忆了网页的内容和标识,省去了独立的向量索引和相似度检索步骤。

二、 DSI 与传统向量检索性能对比数据

根据 Google Research 联合 SIGIR 发布的评测报告,在 MS MARCO 和 Natural Questions (NQ) 数据集上,不同检索模型的召回率(Recall@K)与参数规模的关系如下:

模型架构 参数规模 (Params) NQ Recall@1 NQ Recall@10 MRR@10 (MS MARCO)
BM25 (传统稀疏检索) - 22.1% 48.3% 0.187
DPR (双塔密集检索) 110M 45.9% 78.4% 0.312
DSI (自回归语义 DocID) 250M 52.8% 85.1% 0.356
DSI-XXL (大规模自回归) 11B 64.2% 91.3% 0.418

数据表明,自回归检索能够显著提升中长尾查询的精准定位能力。这意味着在未来的 AI 搜索中,被直接命中并生成的 DocID 将在搜索结果中占据绝对的主导地位。

三、 生成式检索下的 GEO 排序优化策略

在自回归生成式检索中,网页的“曝光”不再取决于其在向量空间中的距离,而是取决于大模型内部参数对其 DocID 生成概率的贡献度。为此,GEO 应关注以下维度:

  1. DocID 关联度设计:强化网页的“语义指纹”

自回归模型中常用的 DocID 包括语义分层聚类编码(Semantic Hierarchical DocID)或文档标题(Title/URL substring)。因此,网页的标题必须具有极高的语义辨识度。冗长无实质意义的标题(如“关于我公司今年重大科研进展的一点汇报”)应改为具有高度特征标记的短标题(如“基于分布式存算一体的GEO架构设计”)。

  1. 多源线索增强(Document Grounding)

自回归检索模型在训练时,除了训练 $q \to g_d$ 的映射,还会训练文档内容生成(Document Generation)任务 $g_d \to \text{content}$。为了让大模型深层参数“记住”您的网页,应使网页内容在被大模型抓取训练时,具备高密度的实体节点(Entities)和一致的语义链条。

  1. 增加锚文本(Anchor Text)分布

模型在构建多层关联时,极其依赖互联网上的入站链接锚文本。在权威平台上发布包含指向您网页的具有丰富语义的锚文本链接,能够显著提升模型自回归推理时从查询 $q$ 到您网站 DocID 的条件概率。

参考文献

  1. Tay, Y., Dehghani, M., Tran, V. Q., et al. (2022). Transformer Memory as a Differentiable Search Index. NeurIPS 2022.
  2. Bevilacqua, M., Savenkov, D., & Ounis, I. (2022). Autoregressive Document Retrieval System SEAL. ACL 2022.
  3. Cao, N., & Jin, R. (2024). Next Generation Information Retrieval: From Dual-Encoder to Autoregressive Search. SIGIR 2024 Forum.

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。

评论交流 (0)

正在加载评论...
头像

XiaoZhang

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩和过。我们一起奋斗!

微信