最近,有位客户遭遇了大量爬虫的恶意请求,主机吧通过下载百度云防护日志喂给AI后分析,得出结论如下,供大家参考:
根据你提供的 WAF(Web 应用防火墙)日志文件,以下是对恶意爬虫的分类分析。日志中大部分请求已被 WAF 识别并采取了防护动作(如 js 挑战、strict_captcha、block)。
✅ 明确被识别为恶意爬虫的请求
这些请求的 final_action 为 js、strict_captcha 或 block,且 final_module 为 bot,说明 WAF 已将其判定为非正常用户流量。
1. 使用伪造/异常 UA 的爬虫(明显恶意)
- 用户代理特征:
- 伪造 iOS、Android、Windows CE 等老版本系统
- 语言/区域代码异常(如
ber-MA、wo-SN、ss-ZA) - 浏览器版本过旧或格式异常(如
Chrome/136.0.0.0、Firefox/3.8、Opera/8.53) - 示例请求(部分):
user_agent: "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3 like Mac OS X; ber-MA) ..."user_agent: "Mozilla/5.0 (compatible; MSIE 7.0; Windows CE; Trident/5.0)"user_agent: "Mozilla/5.0 (Windows CE; ss-ZA; rv:1.9.1.20) Gecko/... Firefox/3.8"
2. 使用已知爬虫 UA 但被 WAF 拦截的请求
- YisouSpider(被标记为
block): user_agent: "YisouSpider"- 请求静态资源(CSS 文件),被 WAF 规则
1000066051拦截。 - GPTBot(被标记为
block): user_agent: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)"- 被 WAF 规则
1000066049拦截。 - Bingbot(被标记为
block): user_agent: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"- 被 WAF 规则
1000075988拦截。
3. 请求特征异常的爬虫
- 大量查询参数(如
c=...&g=...&l=...),疑似扫描或参数爆破。 - 来源 IP 遍布全球(越南、阿塞拜疆、美国、印度、哥伦比亚、加蓬等),疑似分布式爬虫节点。
- JA3/JA4 指纹重复出现(如
ja3_hash: "5cc600468c246704e1699c12f51eb3ab"多次出现),说明是同一批自动化工具。
⚠️ 可疑但可能为误判的请求
- 部分请求使用 Chrome/132.0.0.0 或 Firefox/120.0 等较新版本 UA,但被标记为
js挑战,可能是由于请求频率过高或 IP 信誉不佳。 - 部分请求来自 中国境内 IP(如南京、张家口、北京等),但 UA 为“Macintosh + Chrome 132”,可能与爬虫工具或自动化脚本相关。
✅ WAF 已成功拦截或挑战的恶意爬虫统计
| 防护动作 | 次数 | 说明 |
|---|---|---|
js(JS 挑战) | 大量 | 主要用于对抗自动化工具 |
strict_captcha | 多次 | 对高威胁请求要求严格验证 |
block(直接拦截) | 多次 | 针对已知恶意 UA 或规则触发 |
📌 总结
- 绝大多数请求已被 WAF 识别并防护,包括使用伪造 UA、分布式节点、参数扫描等常见爬虫行为。
- 部分请求可能为误判,但 WAF 采取的是“先挑战后放行”策略,不影响正常用户。
- 建议关注:重复出现的 JA3/JA4 哈希、异常 UA 格式、高频请求的 IP,可考虑进一步封禁或限制频率。


