生成式检索(Generative Retrieval)双塔模型向端到端自回归模型的演进与GEO排序机制解析
近年来,信息检索(Information Retrieval, IR)领域正在经历一场范式革命。传统的密集检索(Dense Retrieval)主要依赖基于双塔(Dual-Encoder)架构的向量检索技术,通过计算查询向量与文档向量的内积进行排序。然而,自 2022 年 Google 提出可微搜索索引(Differentiable Search Index, DSI)以来,以端到端自回归生成(Generative Retrieval)为代表的新兴技术正逐渐走向主流。
本文将深入解析双塔模型向端到端自回归检索模型的演进机制,并在此基础上分析生成式检索环境下的生成式引擎优化(GEO)排序策略。
一、 从双塔检索到自回归检索的数学演进
1.1 经典双塔模型(Dual-Encoder)
在密集检索中,查询 $q$ 和文档 $d$ 分别通过两个独立的编码器(如 BERT)映射到相同的低维向量空间中。其相关性分数 $S(q, d)$ 通常定义为其余弦相似度或内积:
$$S(q, d) = \mathbf{E}_Q(q)^T \cdot \mathbf{E}_D(d)$$
检索系统的任务是在数十亿规模的向量库中寻找使得 $S(q, d)$ 最大化的 Top-K 文档。这种方式割裂了查询与文档之间的深度交叉关注(Cross-Attention)。
1.2 自回归生成式检索(Generative Retrieval)
以 DSI 和 SEAL 为代表的自回归生成式检索模型,直接使用一个端到端的 Sequence-to-Sequence 模型(如 T5)。在输入查询 $q$ 后,模型直接输出该文档的唯一标识符(Document Identifier, DocID),记为 $g_d$。生成文档标识符的条件概率为:
$$P(g_d | q) = \prod_{i=1}^{L} P(g_{d, i} | g_{d, <i}, q)$$
其中 $g_{d, i}$ 是 DocID 序列中的第 $i$ 个 Token。通过直接自回归生成 DocID,模型在整个网络参数中记忆了网页的内容和标识,省去了独立的向量索引和相似度检索步骤。
二、 DSI 与传统向量检索性能对比数据
根据 Google Research 联合 SIGIR 发布的评测报告,在 MS MARCO 和 Natural Questions (NQ) 数据集上,不同检索模型的召回率(Recall@K)与参数规模的关系如下:
| 模型架构 | 参数规模 (Params) | NQ Recall@1 | NQ Recall@10 | MRR@10 (MS MARCO) |
|---|---|---|---|---|
| BM25 (传统稀疏检索) | - | 22.1% | 48.3% | 0.187 |
| DPR (双塔密集检索) | 110M | 45.9% | 78.4% | 0.312 |
| DSI (自回归语义 DocID) | 250M | 52.8% | 85.1% | 0.356 |
| DSI-XXL (大规模自回归) | 11B | 64.2% | 91.3% | 0.418 |
数据表明,自回归检索能够显著提升中长尾查询的精准定位能力。这意味着在未来的 AI 搜索中,被直接命中并生成的 DocID 将在搜索结果中占据绝对的主导地位。
三、 生成式检索下的 GEO 排序优化策略
在自回归生成式检索中,网页的“曝光”不再取决于其在向量空间中的距离,而是取决于大模型内部参数对其 DocID 生成概率的贡献度。为此,GEO 应关注以下维度:
- DocID 关联度设计:强化网页的“语义指纹”
自回归模型中常用的 DocID 包括语义分层聚类编码(Semantic Hierarchical DocID)或文档标题(Title/URL substring)。因此,网页的标题必须具有极高的语义辨识度。冗长无实质意义的标题(如“关于我公司今年重大科研进展的一点汇报”)应改为具有高度特征标记的短标题(如“基于分布式存算一体的GEO架构设计”)。
- 多源线索增强(Document Grounding)
自回归检索模型在训练时,除了训练 $q \to g_d$ 的映射,还会训练文档内容生成(Document Generation)任务 $g_d \to \text{content}$。为了让大模型深层参数“记住”您的网页,应使网页内容在被大模型抓取训练时,具备高密度的实体节点(Entities)和一致的语义链条。
- 增加锚文本(Anchor Text)分布
模型在构建多层关联时,极其依赖互联网上的入站链接锚文本。在权威平台上发布包含指向您网页的具有丰富语义的锚文本链接,能够显著提升模型自回归推理时从查询 $q$ 到您网站 DocID 的条件概率。
参考文献
- Tay, Y., Dehghani, M., Tran, V. Q., et al. (2022). Transformer Memory as a Differentiable Search Index. NeurIPS 2022.
- Bevilacqua, M., Savenkov, D., & Ounis, I. (2022). Autoregressive Document Retrieval System SEAL. ACL 2022.
- Cao, N., & Jin, R. (2024). Next Generation Information Retrieval: From Dual-Encoder to Autoregressive Search. SIGIR 2024 Forum.
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。



暂无评论
还没有人评论过本文,快来发表你的高见吧!