广告
您当前的位置: 首页 >  技术 >  AI探索

应对 ChatGPT Search 和 Perplexity 爬虫的 robots.txt 最佳实践

作者:admin 时间:2026-06-13 阅读数:0人阅读

随着大模型搜索和 AI 智能体(Agent)的爆发,互联网站长们面临着一个前所未有的难题:AI 爬虫每天都在疯狂抓取我们的内容,我们该完全向它们敞开大门,还是通过 robots.txt 进行封锁?

如果完全拦截,我们将在未来的 AI 搜索结果中“查无此人”,失去流量新阵地;如果完全放行,大模型可能会用我们的数据进行训练却不给任何点击回流,甚至造成服务器负载过大。

本文将为您梳理各大 AI 搜索爬虫的特征,并分享如何定制最合理的 robots.txt 规则。


1. 认清主流 AI 搜索爬虫的“马甲”

在配置 robots.txt 之前,必须分清“训练爬虫”和“实时搜索爬虫”的区别。前者用于大模型预训练(通常不给站长带去流量),后者用于 AI 搜索引擎的实时 RAG 检索(会给站长带去引用链接和流量)。

1.1 OpenAI 旗下爬虫

  • GPTBot:主要用于大模型的预训练数据收集。如果您不希望自己的原创内容被拿去无偿训练 GPT-5,可以选择拦截。
  • OAI-SearchBot:专门用于 ChatGPT Search 实时搜索服务的爬虫。建议予以放行,否则您的网页将无法出现在 ChatGPT 的实时搜索引用中。

1.2 Perplexity 旗下爬虫

  • PerplexityBot:用于 Perplexity AI 搜索引擎的抓取与索引。由于 Perplexity 是目前流量回流效果最好的 AI 搜索之一,强烈建议放行

1.3 Anthropic (Claude) 旗下爬虫

  • ClaudeBot:用于 Claude 的训练和信息补充,目前 Claude 还没有独立的实时通用搜索,可根据版权诉求选择放行或封堵。

2. Robots.txt 最佳配置实战方案

根据不同的站长诉求,我们推荐三套配置模板:

2.1 方案 A:积极拥抱 AI 搜索,获取新生流量(推荐多数站长)

本方案拦截无意义的训练爬虫,但放行会带来流量的实时搜索爬虫。

User-agent: *
Disallow: /admin/
Disallow: /api/

# 允许 ChatGPT Search 实时抓取
User-agent: OAI-SearchBot
Disallow:

# 允许 Perplexity 实时抓取
User-agent: PerplexityBot
Disallow:

# 拒绝大模型无偿用于预训练数据收集
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

2.2 方案 B:全面封锁,严防数据被 AI 吞噬(适合高壁垒原创付费内容网站)

如果您运营的是高净值学术期刊、付费数据库或极度依赖传统广告展现的媒体,不希望被 AI “总结摘要”以至于用户不再点击:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

(注:Google-Extended 专门用于控制是否允许谷歌将您的内容用于 Gemini 等模型的训练。)


3. 结语

在 AI 搜索时代,robots.txt 不再是简单的防卫工具,而是企业的流量外交协议。通过精细化地区分“训练爬虫”与“搜索爬虫”,我们既能保护自身的版权资产不被无偿消耗,又能确保网页能够在 ChatGPT Search 和 Perplexity 的回答中获得高权重引用,实现精准的“流量防守与进攻”。

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。

评论交流 (0)

正在加载评论...
头像

admin

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩和过。我们一起奋斗!

微信