生成式检索（Generative Retrieval）双塔模型向端到端自回归模型的演进与GEO排序机制解析

作者：XiaoZhang 时间：2026-06-13 阅读数：4人阅读

近年来，信息检索（Information Retrieval, IR）领域正在经历一场范式革命。传统的密集检索（Dense Retrieval）主要依赖基于双塔（Dual-Encoder）架构的向量检索技术，通过计算查询向量与文档向量的内积进行排序。然而，自 2022 年 Google 提出可微搜索索引（Differentiable Search Index, DSI）以来，以端到端自回归生成（Generative Retrieval）为代表的新兴技术正逐渐走向主流。

本文将深入解析双塔模型向端到端自回归检索模型的演进机制，并在此基础上分析生成式检索环境下的生成式引擎优化（GEO）排序策略。

一、从双塔检索到自回归检索的数学演进

1.1 经典双塔模型（Dual-Encoder）

在密集检索中，查询 $q$ 和文档 $d$ 分别通过两个独立的编码器（如 BERT）映射到相同的低维向量空间中。其相关性分数 $S(q, d)$ 通常定义为其余弦相似度或内积：

$$S(q, d) = \mathbf{E}_Q(q)^T \cdot \mathbf{E}_D(d)$$

检索系统的任务是在数十亿规模的向量库中寻找使得 $S(q, d)$ 最大化的 Top-K 文档。这种方式割裂了查询与文档之间的深度交叉关注（Cross-Attention）。

1.2 自回归生成式检索（Generative Retrieval）

以 DSI 和 SEAL 为代表的自回归生成式检索模型，直接使用一个端到端的 Sequence-to-Sequence 模型（如 T5）。在输入查询 $q$ 后，模型直接输出该文档的唯一标识符（Document Identifier, DocID），记为 $g_d$。生成文档标识符的条件概率为：

$$P(g_d | q) = \prod_{i=1}^{L} P(g_{d, i} | g_{d, <i}, q)$$

其中 $g_{d, i}$ 是 DocID 序列中的第 $i$ 个 Token。通过直接自回归生成 DocID，模型在整个网络参数中记忆了网页的内容和标识，省去了独立的向量索引和相似度检索步骤。

二、 DSI 与传统向量检索性能对比数据

根据 Google Research 联合 SIGIR 发布的评测报告，在 MS MARCO 和 Natural Questions (NQ) 数据集上，不同检索模型的召回率（Recall@K）与参数规模的关系如下：

模型架构	参数规模 (Params)	NQ Recall@1	NQ Recall@10	MRR@10 (MS MARCO)
BM25 (传统稀疏检索)	-	22.1%	48.3%	0.187
DPR (双塔密集检索)	110M	45.9%	78.4%	0.312
DSI (自回归语义 DocID)	250M	52.8%	85.1%	0.356
DSI-XXL (大规模自回归)	11B	64.2%	91.3%	0.418

数据表明，自回归检索能够显著提升中长尾查询的精准定位能力。这意味着在未来的 AI 搜索中，被直接命中并生成的 DocID 将在搜索结果中占据绝对的主导地位。

三、生成式检索下的 GEO 排序优化策略

在自回归生成式检索中，网页的“曝光”不再取决于其在向量空间中的距离，而是取决于大模型内部参数对其 DocID 生成概率的贡献度。为此，GEO 应关注以下维度：

DocID 关联度设计：强化网页的“语义指纹”

自回归模型中常用的 DocID 包括语义分层聚类编码（Semantic Hierarchical DocID）或文档标题（Title/URL substring）。因此，网页的标题必须具有极高的语义辨识度。冗长无实质意义的标题（如“关于我公司今年重大科研进展的一点汇报”）应改为具有高度特征标记的短标题（如“基于分布式存算一体的GEO架构设计”）。

多源线索增强（Document Grounding）

自回归检索模型在训练时，除了训练 $q \to g_d$ 的映射，还会训练文档内容生成（Document Generation）任务 $g_d \to \text{content}$。为了让大模型深层参数“记住”您的网页，应使网页内容在被大模型抓取训练时，具备高密度的实体节点（Entities）和一致的语义链条。

增加锚文本（Anchor Text）分布

模型在构建多层关联时，极其依赖互联网上的入站链接锚文本。在权威平台上发布包含指向您网页的具有丰富语义的锚文本链接，能够显著提升模型自回归推理时从查询 $q$ 到您网站 DocID 的条件概率。

参考文献

Tay, Y., Dehghani, M., Tran, V. Q., et al. (2022). Transformer Memory as a Differentiable Search Index. NeurIPS 2022.
Bevilacqua, M., Savenkov, D., & Ounis, I. (2022). Autoregressive Document Retrieval System SEAL. ACL 2022.
Cao, N., & Jin, R. (2024). Next Generation Information Retrieval: From Dual-Encoder to Autoregressive Search. SIGIR 2024 Forum.

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。

生成式检索密集检索双塔模型自回归检索 DSI SEAL GEO排序机制

上一篇：向量数据库：大模型时代的基石与AI探索

下一篇：基于多模态对齐与交叉注意力机制的LLM检索可见性与GEO图文检索优化

评论交流 (0)

正在加载评论...

生成式检索（Generative Retrieval）双塔模型向端到端自回归模型的演进与GEO排序机制解析

一、从双塔检索到自回归检索的数学演进

1.1 经典双塔模型（Dual-Encoder）

1.2 自回归生成式检索（Generative Retrieval）

二、 DSI 与传统向量检索性能对比数据

三、生成式检索下的 GEO 排序优化策略

参考文献

评论交流 (0)

XiaoZhang

猜你喜欢

腾讯云EKS一键部署k8s容器总结

Java程序员如何突破技术瓶颈

Centos7系统下的安装RabbitMQ3.10

某光K8s项目v8.3.9版本上线

如何学好一门互联网技术

商城项目的业务分析——创建订单

生成式检索（Generative Retrieval）双塔模型向端到端自回归模型的演进与GEO排序机制解析

一、 从双塔检索到自回归检索的数学演进

1.1 经典双塔模型（Dual-Encoder）

1.2 自回归生成式检索（Generative Retrieval）

二、 DSI 与传统向量检索性能对比数据

三、 生成式检索下的 GEO 排序优化策略

参考文献

评论交流 (0)

XiaoZhang

猜你喜欢

腾讯云EKS一键部署k8s容器总结

Java程序员如何突破技术瓶颈

Centos7系统下的安装RabbitMQ3.10

某光K8s项目v8.3.9版本上线

如何学好一门互联网技术

商城项目的业务分析——创建订单

一、从双塔检索到自回归检索的数学演进

三、生成式检索下的 GEO 排序优化策略