Aconteceu o que a indústria esperava há pelo menos um ano: na internet, agora há mais máquinas do que pessoas. Em 3 de junho de 2026, a Cloudflare publicou dados de sua rede Radar, segundo os quais sistemas automatizados geraram pela primeira vez na história a maioria de todos os pedidos HTTP ao conteúdo da web — 57,5% contra 42,5% de usuários humanos. A NBC News, citando o mesmo relatório, apresentou uma proporção quase idêntica — 57,4% a 42,6%. Isso não é uma margem de erro estatística nem um pico pontual, mas uma mudança registrada de uma tendência de muitos anos.
O mais impressionante é quão rápido isso aconteceu. Apenas três meses antes da publicação, durante uma conferência SXSW, o CEO da Cloudflare, Matthew Prince, assegurou que o ponto de cruzamento não ocorreria antes de 2027. Comentando os números recentes, ele reconheceu: "Bem, isso aconteceu mais rápido do que eu previ". O marco foi alcançado mais de um ano antes da previsão do próprio autor dessa previsão.
Quem transformou a web em território de bots
O principal culpado não são os clássicos crawlers de busca nem os bots de spam, mas sim o AI agente: programas semi-autônomos que realizam tarefas para assistentes como ChatGPT e Gemini. A lógica é simples e implacável para os servidores: onde um humano clica algumas vezes, um agente de IA navega por milhares de páginas para coletar contexto e fornecer uma resposta. Cada "expedição" desse tipo gera dezenas e centenas de solicitações, que nas estatísticas se acumulam em uma avalanche.
A escala do crescimento é visível em crawlers individuais. De acordo com medições da Cloudflare, o tráfego do GPTBot da OpenAI cresceu 305% em um ano. Se olharmos a participação dentro de todo o tráfego de IA, o quadro é o mesmo: o GPTBot subiu de 4,7% (julho de 2024) para 11,7% (julho de 2025). Em maio de 2026, crawlers de IA especializados representavam 20,3% das solicitações de bots, e outros 6,5% eram gerados por bots de busca de IA — no total, quase 27% de todo o tráfego de bots já alimenta diretamente modelos de linguagem. Quanto ao propósito, esse tráfego é distribuído da seguinte forma: 51,8% — coleta de dados para treinamento, 35,7% — modo misto (treinamento mais fornecimento de respostas), e apenas cerca de 9% — busca pura.
A carga na infraestrutura deixou de ser uma abstração. O Wikimedia Foundation informou que, desde janeiro de 2024, o consumo de largura de banda para entrega de multimídia aumentou em 50%, sendo que 65% do tráfego mais intensivo em recursos é gerado por bots, embora eles representem apenas 35% das visualizações de páginas. Em outras palavras, as máquinas consomem uma quantidade desproporcional de tráfego caro, sem devolver nada ao proprietário do site.
Por que a web aberta fecha as portas
A reação das plataformas foi previsível: se os bots não trazem nem impressões publicitárias nem cliques, eles começam a ser bloqueados. Até agosto de 2025, mais de 2,5 milhões de sites proibiram completamente o uso de seus dados para treinamento de IA. Nos cinco meses após julho de 2025, apenas a rede Cloudflare bloqueou cerca de 416 bilhões de solicitações de bots de IA. O GPTBot se tornou o crawler mais "banido" nos arquivos robots.txt — ele aparece em 5,52% de todas as regras DISALLOW.
O desequilíbrio é bem visível na chamada razão crawl-to-referral — quantas páginas um bot extrai para cada clique enviado de volta. Para o Googlebot padrão, essa relação é de cerca de 4,9:1. Para o GPTBot, é de 1276:1, e para o ClaudeBot, chegou a quase 24.000:1, antes de melhorar para cerca de 11.000:1. Para o proprietário do site, isso significa uma coisa simples: a IA coleta milhares, devolve unidades.
Mas simplesmente bloquear significa perder receita potencial, então a Cloudflare propôs um terceiro caminho. Seu sistema Pay-Per-Crawl utiliza um status HTTP há muito esquecido 402 "Pagamento Necessário": em vez de fechar completamente o bot, o site pode cobrar por acesso. A própria empresa atua como intermediária e processa os pagamentos. A mecânica é de três níveis: Block (com um clique, por padrão para novos domínios), Charge (acesso pago de acordo com a tarifa do proprietário) e Allow (acesso aberto com análise detalhada). Segundo a Cloudflare, os clientes já estão gerando mais de um bilhão de códigos 402 por dia.
A tendência vai além de uma única empresa. Em 7 de abril de 2026, a GoDaddy — um dos maiores provedores de hospedagem do mundo — integrou a ferramenta Cloudflare AI Crawl Control em sua plataforma. A diretora de estratégia da Cloudflare, Stephanie Cohen, formulou isso da seguinte maneira: "Ao fornecer aos proprietários de sites ferramentas como o AI Crawl Control e padrões abertos, estamos estabelecendo as bases para um novo modelo de negócios na internet". Considerando que cerca de 20% de todos os sites do mundo operam por trás de um proxy reverso da Cloudflare, estamos falando de uma mudança tectônica nas regras do jogo.
A guerra das máscaras: por que os bloqueios não afetam a todos da mesma forma
Um detalhe crucial que muitas vezes é negligenciado nas manchetes chamativas: as novas barreiras estão direcionadas principalmente a bots que se apresentam honestamente e vêm de faixas de IP de data centers. Um crawler com um User-Agent explícito como "GPTBot" e um endereço da nuvem AWS é um alvo fácil para WAF e categorizadores de tráfego. É exatamente sobre esses que recaem os bloqueios bilionários.
O problema é que nem todos seguem as regras. O índice AI Agent Index do MIT CSAIL para 2025 e as observações da Cloudflare concordam: cerca da metade do tráfego de IA simplesmente ignora o robots.txt. E o padrão llms.txt, que deveria ser um "menu educado" para os modelos, até o primeiro trimestre de 2026 não é lido em produção por nenhuma grande empresa de IA. É emblemática a história de agosto de 2025: a Cloudflare acusou publicamente a Perplexity de crawling oculto — rotação de User-Agent e disfarce como um navegador comum para contornar as proibições no robots.txt. A Perplexity rejeitou as acusações, mas o caso ilustra claramente a direção que a indústria está tomando.
A conclusão para aqueles que coletam dados públicos e não autenticados legalmente é paradoxal: quanto mais agressivamente as plataformas cortam os crawlers "barulhentos" de data centers, maior é o valor do tráfego que se parece com um humano comum. Uma solicitação que vem de um IP residencial ou móvel, com uma impressão de navegador normal e um ritmo humano, é indistinguível para os sistemas anti-bot de um visitante — e passa onde um bot na nuvem recebe um banimento instantâneo.
O que isso significa para web scraping na prática
Se o seu negócio depende da coleta de dados — monitoramento de preços, parsing de SERP, agregação de avaliações, treinamento de modelos em fontes abertas — as conclusões do relatório da Cloudflare devem ser aceitas como um guia de ação.
- Proxies de data center sem disfarce — zona de risco. Se você está enviando solicitações de faixas de nuvem explícitas e não gerencia a impressão, você se enquadra exatamente na categoria que está sob o fogo cruzado. Para tarefas que não são sensíveis à reputação (APIs internas, fontes amigáveis, páginas públicas simples), proxies de data center continuam sendo rápidos e baratos, mas para plataformas protegidas, seu ciclo de vida está diminuindo.
- IPs residenciais — o novo nível básico. Para scraping sério de sites protegidos, proxies residenciais oferecem aquele perfil "humano" que os sistemas anti-bot aceitam por padrão. Isso já não é uma opção premium, mas um mínimo higiênico.
- Proxies móveis — para os objetivos mais rigorosos. Redes sociais e plataformas com análise comportamental são especialmente rigorosas quanto à fonte da conexão. Proxies móveis com IPs reais de operadores e mecânica de rotação oferecem a máxima "invisibilidade" onde até endereços residenciais estão sob suspeita.
- Prepare-se para acesso pago. Pay-Per-Crawl com o código 402 — isso não é um experimento temporário: um bilhão de tais respostas por dia indica que o modelo se estabeleceu. Parte dos dados nos próximos anos se tornará disponível apenas mediante pagamento ou apenas para aqueles que conseguem parecer tráfego orgânico.
Um cenário separado é a infraestrutura própria. Para volumes pequenos e tarefas privadas, faz sentido levantar seu próprio nó: discutimos detalhadamente como montar um servidor proxy doméstico em um Raspberry Pi em uma noite e por algumas milhares de rublos. Isso não substituirá um pool de milhões de endereços, mas atende às necessidades básicas e ajuda a entender a mecânica por dentro.
Conclusão
O número 57,5% é um marco simbólico, mas por trás dele está uma verdadeira mudança de era. A internet, que foi construída por décadas para o leitor humano, está se reestruturando cada vez mais rapidamente para a máquina consumidora de dados, e as plataformas estão respondendo com barricadas: bloqueios, portões pagos e autenticação criptográfica de bots. A web aberta não desaparece — ela se estratifica. O acesso livre permanece para aqueles que jogam segundo as regras ou conseguem parecer um usuário comum; tudo o mais vai para trás de um paywall ou sob banimento. Para a indústria de coleta de dados, isso significa uma coisa: a qualidade e a "humanidade" do seu tráfego se tornam não uma vantagem competitiva, mas uma condição de sobrevivência.
```