返回博客

机器人首次超越人类:57.5% 的流量——这对数据抓取意味着什么

2026年6月3日,Cloudflare 记录了历史性的转折:机器人首次占据了互联网请求的一半以上——57.5% 对比 42.5% 的人类。主要驱动因素是代理 AI。我们分析数据,探讨为什么网站大量关闭了对爬虫的访问,以及这对网络抓取和数据收集意味着什么。

📅2026年6月13日

发生了行业期待至少一年之久的事情:互联网上的机器数量首次超过了人类。 2026年6月3日,Cloudflare发布了其Radar网络的数据,显示自动化系统首次在历史上生成了大多数HTTP请求——57.5%对42.5%,后者是来自真实用户的请求。NBC新闻引用同一报告,给出了几乎相同的比例——57.4%对42.6%。这不是统计误差,也不是一次性激增,而是多年趋势的显著转折。

最引人注目的是这一变化发生得多么迅速。在发布前的三个月,Cloudflare首席执行官马修·普林斯在SXSW大会上曾坚称,交叉点不会早于2027年到来。在评论最新数据时,他承认:“好吧,这发生得比我预期的要快。”这一里程碑比他本人预测的时间提前了超过一年。

谁把网络变成了机器人的领地

主要的罪魁祸首不是传统的搜索爬虫,也不是垃圾邮件机器人,而是代理AI:半自主程序,为像ChatGPT和Gemini这样的助手执行任务。逻辑简单且对服务器无情:人类点击几次的地方,一个AI代理可以浏览成千上万的页面,以收集上下文并给出答案。每一次这样的“出行”都是数十甚至数百个请求,在统计上形成了雪崩。

增长的规模在各个爬虫中显而易见。根据Cloudflare的测量,OpenAI的GPTBot在一年内的流量增长了305%。如果看AI流量的份额,情况也是如此:GPTBot从4.7%(2024年7月)上升到11.7%(2025年7月)。到2026年5月,专门的AI爬虫占据了20.3%的机器人请求,另外6.5%则来自AI搜索机器人——总计几乎27%的所有机器人流量已经直接为语言模型提供支持。根据用途,这些流量的分配如下:51.8%用于数据收集以进行训练,35.7%为混合模式(训练加上回答),而仅约9%为纯搜索。

基础设施的负担不再是抽象的概念。维基媒体基金会报告称,自2024年1月以来,多媒体带宽的消耗增长了50%,而65%的最耗资源的流量由机器人产生,尽管它们仅占页面浏览的35%。换句话说,机器占用了不成比例的昂贵流量,却没有给网站所有者带来任何回报。

为什么开放网络关闭了大门

平台的反应是可以预见的:如果机器人既不带来广告展示,也不带来点击,它们就会被阻止。到2025年8月,超过250万个网站完全禁止使用其数据来训练AI。在2025年7月后的五个月里,仅Cloudflare网络就阻止了约4160亿个AI机器人请求。GPTBot成为了在robots.txt文件中被“禁用”最多的爬虫——它出现在5.52%的所有DISALLOW规则中。

这种失衡在所谓的爬取到推荐比率中表现得尤为明显——每个返回的点击,机器人提取多少页面。对于标准的Googlebot,这一比例约为4.9:1。而GPTBot的比例为1276:1,ClaudeBot的比例甚至在接近24000:1之前,改善至约11000:1。对于网站所有者来说,这意味着简单的事实:AI以成千上万的请求获取数据,却只以极少的请求回馈。

但简单地阻止意味着失去潜在收入,因此Cloudflare提出了第三种解决方案。其按爬取付费系统利用了早已被遗忘的HTTP状态402 “需要付款”:网站可以向机器人收取访问费用,而不是完全封锁它。公司本身充当中介并处理支付。机制分为三个层次:Block(一键阻止,默认适用于新域名)、Charge(按所有者的费率收费的付费访问)和Allow(开放访问并提供详细分析)。根据Cloudflare的数据,客户每天已经支付超过十亿个402代码。

这一趋势超出了单一公司的范围。2026年4月7日,全球最大的主机提供商之一GoDaddy将Cloudflare的AI爬取控制工具集成到其平台中。Cloudflare的战略总监斯蒂芬妮·科恩这样表述:“通过为网站所有者提供像AI爬取控制这样的工具和开放标准,我们为互联网的新商业模式奠定了基础。”考虑到全球约20%的网站在Cloudflare的反向代理下运行,这意味着游戏规则的地壳变动。

面具战争:为什么封锁对所有人并不一样

一个关键的细节,常常在引人注目的标题中被忽视:新的障碍主要针对诚实自我介绍并来自数据中心IP范围的机器人。具有明显User-Agent的爬虫,如“GPTBot”和来自AWS云的地址,成为WAF和流量分类器的轻易目标。正是针对这些进行的数十亿次封锁。

问题在于,并非所有人都遵守规则。麻省理工学院CSAIL的AI代理指数和Cloudflare的观察结果一致:大约一半的AI流量根本无视robots.txt。而标准的llms.txt,原本应成为模型的“礼貌菜单”,截至2026年第一季度,没有一家大型AI公司在生产中读取它。2025年8月的事件尤为典型:Cloudflare公开指责Perplexity进行隐蔽爬取——轮换User-Agent并伪装成普通浏览器,以绕过robots.txt中的禁令。Perplexity否认了这些指控,但这一案例清楚地展示了行业的发展方向。

对于那些合法收集公开的、未登录的数据的人来说,结论是矛盾的:平台越是激进地切断“嘈杂”的数据中心爬虫,流量的价值就越高,而这些流量看起来像普通人。来自住宅或移动IP的请求,具有正常的浏览器指纹和人类节奏,对于反机器人系统来说与访客无异——并且能够通过,而云机器人则会立即被封禁。

这对网络爬取在实践中意味着什么

如果您的业务依赖于数据收集——价格监控、SERP解析、评论聚合、在开放源上训练模型——那么Cloudflare报告中的结论值得您作为行动指南。

  • 未伪装的数据中心代理——风险区。如果您从明显的云IP范围发送请求,并且不管理指纹,您正好落入主要攻击的类别。对于不太敏感的任务(内部API、友好的来源、简单的公共页面),数据中心代理仍然快速且便宜,但对于受保护的平台,它们的生命周期正在缩短。
  • 住宅IP——新的基本水平。对于严肃的爬取受保护网站,住宅代理提供了反机器人系统默认允许的“人类”配置文件。这已经不是一种高级选项,而是基本的卫生要求。
  • 移动代理——用于最严格的目标。社交网络和行为分析平台对连接来源特别严格。移动代理使用真实运营商的IP和轮换机制,在即使是住宅地址也受到怀疑的地方提供最大的“隐蔽性”。
  • 准备付费访问。按爬取付费的402代码并不是一个临时实验:每天十亿个这样的响应表明,这一模式已经扎根。在未来几年内,部分数据将仅通过付费或仅对能够看起来像有机流量的人开放。

另一个场景是自有基础设施。对于小规模和私人任务,建立自己的节点是有意义的:我们详细讨论了如何在晚上和几千卢布内建立Raspberry Pi上的家庭代理服务器。这不能替代数百万地址的池,但可以满足基本需求,并帮助理解内部机制。

结论

57.5%的数字是一个象征性的里程碑,但其背后代表着真实的时代变迁。互联网在几十年中为人类读者构建的结构,正迅速转变为数据消费机器,而平台则通过封锁、付费网关和机器人的加密认证来回应。开放网络并没有消失——它正在分层。自由访问仍然保留给那些遵循规则或能够看起来像普通用户的人;其他一切都被推向了付费墙或被封禁。对于数据收集行业来说,这意味着:您的流量的质量和“人性”不再是竞争优势,而是生存的必要条件。