AI分析某客户网站的百度云防护请求日志

最近,有位客户遭遇了大量爬虫的恶意请求,主机吧通过下载百度云防护日志喂给AI后分析,得出结论如下,供大家参考:

根据你提供的 WAF(Web 应用防火墙)日志文件,以下是对恶意爬虫的分类分析。日志中大部分请求已被 WAF 识别并采取了防护动作(如 js 挑战、strict_captchablock)。


明确被识别为恶意爬虫的请求

这些请求的 final_actionjsstrict_captchablock,且 final_modulebot,说明 WAF 已将其判定为非正常用户流量。

1. 使用伪造/异常 UA 的爬虫(明显恶意)

  • 用户代理特征
  • 伪造 iOS、Android、Windows CE 等老版本系统
  • 语言/区域代码异常(如 ber-MAwo-SNss-ZA
  • 浏览器版本过旧或格式异常(如 Chrome/136.0.0.0Firefox/3.8Opera/8.53
  • 示例请求(部分):
  • user_agent: "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3 like Mac OS X; ber-MA) ..."
  • user_agent: "Mozilla/5.0 (compatible; MSIE 7.0; Windows CE; Trident/5.0)"
  • user_agent: "Mozilla/5.0 (Windows CE; ss-ZA; rv:1.9.1.20) Gecko/... Firefox/3.8"

2. 使用已知爬虫 UA 但被 WAF 拦截的请求

  • YisouSpider(被标记为 block):
  • user_agent: "YisouSpider"
  • 请求静态资源(CSS 文件),被 WAF 规则 1000066051 拦截。
  • GPTBot(被标记为 block):
  • user_agent: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)"
  • 被 WAF 规则 1000066049 拦截。
  • Bingbot(被标记为 block):
  • user_agent: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
  • 被 WAF 规则 1000075988 拦截。

3. 请求特征异常的爬虫

  • 大量查询参数(如 c=...&g=...&l=...),疑似扫描或参数爆破。
  • 来源 IP 遍布全球(越南、阿塞拜疆、美国、印度、哥伦比亚、加蓬等),疑似分布式爬虫节点。
  • JA3/JA4 指纹重复出现(如 ja3_hash: "5cc600468c246704e1699c12f51eb3ab" 多次出现),说明是同一批自动化工具。

⚠️ 可疑但可能为误判的请求

  • 部分请求使用 Chrome/132.0.0.0Firefox/120.0 等较新版本 UA,但被标记为 js 挑战,可能是由于请求频率过高或 IP 信誉不佳。
  • 部分请求来自 中国境内 IP(如南京、张家口、北京等),但 UA 为“Macintosh + Chrome 132”,可能与爬虫工具或自动化脚本相关。

WAF 已成功拦截或挑战的恶意爬虫统计

防护动作次数说明
js(JS 挑战)大量主要用于对抗自动化工具
strict_captcha多次对高威胁请求要求严格验证
block(直接拦截)多次针对已知恶意 UA 或规则触发

📌 总结

  • 绝大多数请求已被 WAF 识别并防护,包括使用伪造 UA、分布式节点、参数扫描等常见爬虫行为。
  • 部分请求可能为误判,但 WAF 采取的是“先挑战后放行”策略,不影响正常用户。
  • 建议关注:重复出现的 JA3/JA4 哈希、异常 UA 格式、高频请求的 IP,可考虑进一步封禁或限制频率。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
QQ客服
  • QQ176363189 点击这里给我发消息
旺旺客服
  • 速度网络服务商 点这里给我发消息
电子邮箱
  • sudu@yunjiasu.cc
微信客服
  • suduwangluo