应对 ChatGPT Search 和 Perplexity 爬虫的 robots.txt 最佳实践

作者：admin 时间：2026-06-13 阅读数：0人阅读

随着大模型搜索和 AI 智能体（Agent）的爆发，互联网站长们面临着一个前所未有的难题：AI 爬虫每天都在疯狂抓取我们的内容，我们该完全向它们敞开大门，还是通过 robots.txt 进行封锁？

如果完全拦截，我们将在未来的 AI 搜索结果中“查无此人”，失去流量新阵地；如果完全放行，大模型可能会用我们的数据进行训练却不给任何点击回流，甚至造成服务器负载过大。

本文将为您梳理各大 AI 搜索爬虫的特征，并分享如何定制最合理的 robots.txt 规则。

1. 认清主流 AI 搜索爬虫的“马甲”

在配置 robots.txt 之前，必须分清“训练爬虫”和“实时搜索爬虫”的区别。前者用于大模型预训练（通常不给站长带去流量），后者用于 AI 搜索引擎的实时 RAG 检索（会给站长带去引用链接和流量）。

1.1 OpenAI 旗下爬虫

GPTBot：主要用于大模型的预训练数据收集。如果您不希望自己的原创内容被拿去无偿训练 GPT-5，可以选择拦截。
OAI-SearchBot：专门用于 ChatGPT Search 实时搜索服务的爬虫。建议予以放行，否则您的网页将无法出现在 ChatGPT 的实时搜索引用中。

1.2 Perplexity 旗下爬虫

PerplexityBot：用于 Perplexity AI 搜索引擎的抓取与索引。由于 Perplexity 是目前流量回流效果最好的 AI 搜索之一，强烈建议放行。

1.3 Anthropic (Claude) 旗下爬虫

ClaudeBot：用于 Claude 的训练和信息补充，目前 Claude 还没有独立的实时通用搜索，可根据版权诉求选择放行或封堵。

2. Robots.txt 最佳配置实战方案

根据不同的站长诉求，我们推荐三套配置模板：

2.1 方案 A：积极拥抱 AI 搜索，获取新生流量（推荐多数站长）

本方案拦截无意义的训练爬虫，但放行会带来流量的实时搜索爬虫。

User-agent: *
Disallow: /admin/
Disallow: /api/

# 允许 ChatGPT Search 实时抓取
User-agent: OAI-SearchBot
Disallow:

# 允许 Perplexity 实时抓取
User-agent: PerplexityBot
Disallow:

# 拒绝大模型无偿用于预训练数据收集
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

2.2 方案 B：全面封锁，严防数据被 AI 吞噬（适合高壁垒原创付费内容网站）

如果您运营的是高净值学术期刊、付费数据库或极度依赖传统广告展现的媒体，不希望被 AI “总结摘要”以至于用户不再点击：

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

(注：Google-Extended 专门用于控制是否允许谷歌将您的内容用于 Gemini 等模型的训练。)

3. 结语

在 AI 搜索时代，robots.txt 不再是简单的防卫工具，而是企业的流量外交协议。通过精细化地区分“训练爬虫”与“搜索爬虫”，我们既能保护自身的版权资产不被无偿消耗，又能确保网页能够在 ChatGPT Search 和 Perplexity 的回答中获得高权重引用，实现精准的“流量防守与进攻”。

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。

上一篇：向量数据库：大模型时代的基石与AI探索

下一篇：应对 ChatGPT Search 和 Perplexity 爬虫的 robots.txt 最佳实践

评论交流 (0)

正在加载评论...