应对 ChatGPT Search 和 Perplexity 爬虫的 robots.txt 最佳实践
随着大模型搜索和 AI 智能体(Agent)的爆发,互联网站长们面临着一个前所未有的难题:AI 爬虫每天都在疯狂抓取我们的内容,我们该完全向它们敞开大门,还是通过 robots.txt 进行封锁?
如果完全拦截,我们将在未来的 AI 搜索结果中“查无此人”,失去流量新阵地;如果完全放行,大模型可能会用我们的数据进行训练却不给任何点击回流,甚至造成服务器负载过大。
本文将为您梳理各大 AI 搜索爬虫的特征,并分享如何定制最合理的 robots.txt 规则。
1. 认清主流 AI 搜索爬虫的“马甲”
在配置 robots.txt 之前,必须分清“训练爬虫”和“实时搜索爬虫”的区别。前者用于大模型预训练(通常不给站长带去流量),后者用于 AI 搜索引擎的实时 RAG 检索(会给站长带去引用链接和流量)。
1.1 OpenAI 旗下爬虫
- GPTBot:主要用于大模型的预训练数据收集。如果您不希望自己的原创内容被拿去无偿训练 GPT-5,可以选择拦截。
- OAI-SearchBot:专门用于 ChatGPT Search 实时搜索服务的爬虫。建议予以放行,否则您的网页将无法出现在 ChatGPT 的实时搜索引用中。
1.2 Perplexity 旗下爬虫
- PerplexityBot:用于 Perplexity AI 搜索引擎的抓取与索引。由于 Perplexity 是目前流量回流效果最好的 AI 搜索之一,强烈建议放行。
1.3 Anthropic (Claude) 旗下爬虫
- ClaudeBot:用于 Claude 的训练和信息补充,目前 Claude 还没有独立的实时通用搜索,可根据版权诉求选择放行或封堵。
2. Robots.txt 最佳配置实战方案
根据不同的站长诉求,我们推荐三套配置模板:
2.1 方案 A:积极拥抱 AI 搜索,获取新生流量(推荐多数站长)
本方案拦截无意义的训练爬虫,但放行会带来流量的实时搜索爬虫。
User-agent: *
Disallow: /admin/
Disallow: /api/
# 允许 ChatGPT Search 实时抓取
User-agent: OAI-SearchBot
Disallow:
# 允许 Perplexity 实时抓取
User-agent: PerplexityBot
Disallow:
# 拒绝大模型无偿用于预训练数据收集
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
2.2 方案 B:全面封锁,严防数据被 AI 吞噬(适合高壁垒原创付费内容网站)
如果您运营的是高净值学术期刊、付费数据库或极度依赖传统广告展现的媒体,不希望被 AI “总结摘要”以至于用户不再点击:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
(注:Google-Extended 专门用于控制是否允许谷歌将您的内容用于 Gemini 等模型的训练。)
3. 结语
在 AI 搜索时代,robots.txt 不再是简单的防卫工具,而是企业的流量外交协议。通过精细化地区分“训练爬虫”与“搜索爬虫”,我们既能保护自身的版权资产不被无偿消耗,又能确保网页能够在 ChatGPT Search 和 Perplexity 的回答中获得高权重引用,实现精准的“流量防守与进攻”。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。
评论交流 (0)
您尚未登录,请先 登录 后发表评论!



暂无评论
还没有人评论过本文,快来发表你的高见吧!