机器人在互联网上超越了人类：57.5% 的流量

发生了行业期待至少一年之久的事情：互联网上的机器数量首次超过了人类。 2026年6月3日，Cloudflare发布了其Radar网络的数据，显示自动化系统首次在历史上生成了大多数HTTP请求——57.5%对42.5%，后者是来自真实用户的请求。NBC新闻引用同一报告，给出了几乎相同的比例——57.4%对42.6%。这不是统计误差，也不是一次性激增，而是多年趋势的显著转折。

最引人注目的是这一变化发生得多么迅速。在发布前的三个月，Cloudflare首席执行官马修·普林斯在SXSW大会上曾坚称，交叉点不会早于2027年到来。在评论最新数据时，他承认：“好吧，这发生得比我预期的要快。”这一里程碑比他本人预测的时间提前了超过一年。

谁把网络变成了机器人的领地

主要的罪魁祸首不是传统的搜索爬虫，也不是垃圾邮件机器人，而是代理AI：半自主程序，为像ChatGPT和Gemini这样的助手执行任务。逻辑简单且对服务器无情：人类点击几次的地方，一个AI代理可以浏览成千上万的页面，以收集上下文并给出答案。每一次这样的“出行”都是数十甚至数百个请求，在统计上形成了雪崩。

增长的规模在各个爬虫中显而易见。根据Cloudflare的测量，OpenAI的GPTBot在一年内的流量增长了305%。如果看AI流量的份额，情况也是如此：GPTBot从4.7%（2024年7月）上升到11.7%（2025年7月）。到2026年5月，专门的AI爬虫占据了20.3%的机器人请求，另外6.5%则来自AI搜索机器人——总计几乎27%的所有机器人流量已经直接为语言模型提供支持。根据用途，这些流量的分配如下：51.8%用于数据收集以进行训练，35.7%为混合模式（训练加上回答），而仅约9%为纯搜索。

基础设施的负担不再是抽象的概念。维基媒体基金会报告称，自2024年1月以来，多媒体带宽的消耗增长了50%，而65%的最耗资源的流量由机器人产生，尽管它们仅占页面浏览的35%。换句话说，机器占用了不成比例的昂贵流量，却没有给网站所有者带来任何回报。

为什么开放网络关闭了大门

平台的反应是可以预见的：如果机器人既不带来广告展示，也不带来点击，它们就会被阻止。到2025年8月，超过250万个网站完全禁止使用其数据来训练AI。在2025年7月后的五个月里，仅Cloudflare网络就阻止了约4160亿个AI机器人请求。GPTBot成为了在robots.txt文件中被“禁用”最多的爬虫——它出现在5.52%的所有DISALLOW规则中。

这种失衡在所谓的爬取到推荐比率中表现得尤为明显——每个返回的点击，机器人提取多少页面。对于标准的Googlebot，这一比例约为4.9:1。而GPTBot的比例为1276:1，ClaudeBot的比例甚至在接近24000:1之前，改善至约11000:1。对于网站所有者来说，这意味着简单的事实：AI以成千上万的请求获取数据，却只以极少的请求回馈。

但简单地阻止意味着失去潜在收入，因此Cloudflare提出了第三种解决方案。其按爬取付费系统利用了早已被遗忘的HTTP状态402 “需要付款”：网站可以向机器人收取访问费用，而不是完全封锁它。公司本身充当中介并处理支付。机制分为三个层次：Block（一键阻止，默认适用于新域名）、Charge（按所有者的费率收费的付费访问）和Allow（开放访问并提供详细分析）。根据Cloudflare的数据，客户每天已经支付超过十亿个402代码。

这一趋势超出了单一公司的范围。2026年4月7日，全球最大的主机提供商之一GoDaddy将Cloudflare的AI爬取控制工具集成到其平台中。Cloudflare的战略总监斯蒂芬妮·科恩这样表述：“通过为网站所有者提供像AI爬取控制这样的工具和开放标准，我们为互联网的新商业模式奠定了基础。”考虑到全球约20%的网站在Cloudflare的反向代理下运行，这意味着游戏规则的地壳变动。

面具战争：为什么封锁对所有人并不一样

一个关键的细节，常常在引人注目的标题中被忽视：新的障碍主要针对诚实自我介绍并来自数据中心IP范围的机器人。具有明显User-Agent的爬虫，如“GPTBot”和来自AWS云的地址，成为WAF和流量分类器的轻易目标。正是针对这些进行的数十亿次封锁。

问题在于，并非所有人都遵守规则。麻省理工学院CSAIL的AI代理指数和Cloudflare的观察结果一致：大约一半的AI流量根本无视robots.txt。而标准的llms.txt，原本应成为模型的“礼貌菜单”，截至2026年第一季度，没有一家大型AI公司在生产中读取它。2025年8月的事件尤为典型：Cloudflare公开指责Perplexity进行隐蔽爬取——轮换User-Agent并伪装成普通浏览器，以绕过robots.txt中的禁令。Perplexity否认了这些指控，但这一案例清楚地展示了行业的发展方向。

对于那些合法收集公开的、未登录的数据的人来说，结论是矛盾的：平台越是激进地切断“嘈杂”的数据中心爬虫，流量的价值就越高，而这些流量看起来像普通人。来自住宅或移动IP的请求，具有正常的浏览器指纹和人类节奏，对于反机器人系统来说与访客无异——并且能够通过，而云机器人则会立即被封禁。

这对网络爬取在实践中意味着什么

如果您的业务依赖于数据收集——价格监控、SERP解析、评论聚合、在开放源上训练模型——那么Cloudflare报告中的结论值得您作为行动指南。

未伪装的数据中心代理——风险区。如果您从明显的云IP范围发送请求，并且不管理指纹，您正好落入主要攻击的类别。对于不太敏感的任务（内部API、友好的来源、简单的公共页面），数据中心代理仍然快速且便宜，但对于受保护的平台，它们的生命周期正在缩短。
住宅IP——新的基本水平。对于严肃的爬取受保护网站，住宅代理提供了反机器人系统默认允许的“人类”配置文件。这已经不是一种高级选项，而是基本的卫生要求。
移动代理——用于最严格的目标。社交网络和行为分析平台对连接来源特别严格。移动代理使用真实运营商的IP和轮换机制，在即使是住宅地址也受到怀疑的地方提供最大的“隐蔽性”。
准备付费访问。按爬取付费的402代码并不是一个临时实验：每天十亿个这样的响应表明，这一模式已经扎根。在未来几年内，部分数据将仅通过付费或仅对能够看起来像有机流量的人开放。

另一个场景是自有基础设施。对于小规模和私人任务，建立自己的节点是有意义的：我们详细讨论了如何在晚上和几千卢布内建立Raspberry Pi上的家庭代理服务器。这不能替代数百万地址的池，但可以满足基本需求，并帮助理解内部机制。

结论

57.5%的数字是一个象征性的里程碑，但其背后代表着真实的时代变迁。互联网在几十年中为人类读者构建的结构，正迅速转变为数据消费机器，而平台则通过封锁、付费网关和机器人的加密认证来回应。开放网络并没有消失——它正在分层。自由访问仍然保留给那些遵循规则或能够看起来像普通用户的人；其他一切都被推向了付费墙或被封禁。对于数据收集行业来说，这意味着：您的流量的质量和“人性”不再是竞争优势，而是生存的必要条件。