网站如何拒绝ChatGPT爬虫抓取内容

最近大火的ChatGPT,让国内站长一度感到危机,因为这个东西一但普及,搜索引擎的作用就小了很多,严重影响网站流量,而ChatGPT的内容来源都是从各大网站中抓取的。

网站如何拒绝ChatGPT爬虫抓取内容插图

为了应对这个问题,我们有权拒绝ChatGPT抓取,目前ChatGPT已经出了拒绝抓取的方法了,国内类ChatGPT的工具目前还没有出现,不过应该在不久的将来也会出。

现在我们来介绍下如何拒绝ChatGPT抓取?目前三种方式阻止GPT爬虫

1.禁止UA

ChatGPT的UA是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是浏览器的身份标识,包含了访问者的系统环境、浏览器内核版本、语言等诸多信息。通过HTML的标签,可以阻止特定的浏览器对网页内容进行访问,有了UA信息我们可以用防火墙进行拦截。

2.修改网站robots.txt文件

在网站的robots.txt中加入如下内容:

User-agent: GPTBot

Disallow: /

这样,GPTBot将不会访问你的网站进行内容抓取。如果只想禁止GPT抓取部分内容,也可以利用robots.txt进行设置。和上面的内容相似,分别写明允许和不允许访问的目录即可。

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

3.禁止爬虫IP

OpenAI发布了有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。

20.15.240.80/28

20.15.240.96/28

20.15.240.176/28

20.15.241.0/28

20.15.242.128/28

20.15.242.144/28

20.15.242.192/28

40.83.2.64/28

以上方法就可以如何禁止ChatGPT抓取的方法了,希望可以帮助大家。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
个人中心
购物车
优惠劵
搜索