京东云星盾拦截常见恶意爬虫方法

现在网上针对网站的恶意爬虫相当多，对网站造成影响非常大，轻则使网站访问卡慢，重则使服务器停止运行，而如果网站使用了CDN，还会对非常消耗CDN流量，造成财产损失，因此拦截恶意爬虫是非常重要的，使用京东云星盾可以有效拦截特定恶意爬虫抓取网站，以下是常见爬虫的拦截方法。

1.进入京东云星盾后台-安全规则

2.创建防火墙规则

规则名称：拦截恶意爬虫

字段:选User-Agent

运算符：等于

值：填写恶意爬虫的User-Agent，如chatgpt的User-Agent:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

操作：阻止

响应类型：默认

如下图：

3.添加多个恶意爬虫拦截

点或按钮再输入另一个恶意爬虫的User-Agent，比如DataForSeoBot的

如下图：

以此类推，把需要拦截的恶意爬虫全部加上，再点确定即可拦截。

想知道是否正常拦截，可进入数据分析-事件日志查看。

下面主机邦根据客户反馈的恶意爬虫User-Agent分享给大家，需要拦截的直接把User-Agent加上就可以了。

1.GPTBot

GPTBot是OpenAI推出的一款网络爬虫机器人，抓取非常频繁，建议屏蔽。

User-Agent：

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

2.AmazonBot

AmazonBot是亚马逊不同广告服务部门使用的爬虫，包括Amazon AdBot等，抓取频繁，对网站毫无用处，建议屏蔽。

User-Agent：

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36

3.PanguBot

PanguBot 是由华为公司开发的一个爬虫，主要用于下载训练数据，以支持其多模态大型语言模型（LLM）PanGu 的训练。抓取非常疯狂，建议屏蔽。

User-Agent：Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PanguBot;pangubot@huawei.com)

4.SemrushBot

SemrushBot是Semrush发送的用于发现和收集新的和更新的Web数据的搜索机器人软件。抓取非常频繁，建议屏蔽。

User-Agent：

Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

5.DataForSeoBot

DataForSeoBot是DataForSEO网站的蜘蛛，旨在向世界各地的SEO爱好者和专业人士提供高质量的数据。抓取非常频繁，建议屏蔽。

User-Agent：

Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

6.BLEXBot

BLEXBot是WebMeUp的蜘蛛爬虫，每天可以抓取上百亿个页面来收集反向链接数据，并将该数据提供给其链接索引（在SEO SpyGlass中使用的链接索引）。它是美国的一家外链反向链接查询工具网站所使用的爬虫。抓取非常频繁，建议屏蔽。

User-Agent：

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

{{userData.name}}已认证

百度统计被刷垃圾广告怎么办？用京东云星盾防火墙解决

京东云星盾 SCDN个人实名无法购买怎么办？

京东云星盾SCDN如何设置域名白名单

京东云星盾高防CDN如何自配置缓存文件