È successo ciò che l'industria attendeva da almeno un anno: su Internet ci sono più macchine che persone. Il 3 giugno 2026, Cloudflare ha pubblicato i dati della sua rete Radar, secondo i quali i sistemi automatizzati hanno generato per la prima volta nella storia la maggior parte di tutte le richieste HTTP ai contenuti web — 57,5% contro 42,5% degli utenti reali. NBC News, citando lo stesso rapporto, ha riportato una proporzione quasi identica — 57,4% a 42,6%. Non si tratta di un errore statistico o di un picco occasionale, ma di un cambiamento significativo di un trend pluriennale.
Ciò che colpisce di più è la rapidità con cui è avvenuto. Solo tre mesi prima della pubblicazione, parlando alla conferenza SXSW, il CEO di Cloudflare, Matthew Prince, aveva assicurato che il punto di incrocio non sarebbe arrivato prima del 2027. Commentando i nuovi dati, ha ammesso: «Beh, è successo più velocemente di quanto avessi previsto». La soglia è stata superata più di un anno prima della previsione dello stesso uomo che l'aveva fatta.
Chi ha trasformato il web in un territorio di bot
Il principale colpevole non sono i classici spider di ricerca né i bot di spam, ma l'AI agent: programmi semi-autonomi che svolgono compiti per assistenti come ChatGPT e Gemini. La logica è semplice e spietata per i server: dove una persona clicca un paio di volte, un agente AI esplora migliaia di pagine per raccogliere contesto e fornire una risposta. Ogni "escursione" del genere comporta decine e centinaia di richieste, che nella statistica si accumulano in una valanga.
La scala della crescita è evidente nei singoli crawler. Secondo le misurazioni di Cloudflare, il traffico di GPTBot di OpenAI è aumentato del 305% in un anno. Se si guarda alla quota all'interno dell'intero traffico AI, la situazione è la stessa: GPTBot è passato dal 4,7% (luglio 2024) all'11,7% (luglio 2025). Nel maggio 2026, i crawler AI specializzati rappresentavano il 20,3% delle richieste dei bot, mentre altri 6,5% provenivano dai bot di ricerca AI — in totale quasi 27% di tutto il traffico dei bot alimenta già direttamente i modelli linguistici. Questo traffico è distribuito così: 51,8% — raccolta di dati per l'addestramento, 35,7% — modalità mista (addestramento più fornitura di risposte), e solo circa 9% — ricerca pura.
Il carico sull'infrastruttura ha smesso di essere un'astrazione. La Wikimedia Foundation ha riportato che dal gennaio 2024 il consumo di banda per la distribuzione di contenuti multimediali è aumentato del 50%, con il 65% del traffico più dispendioso generato dai bot, sebbene questi rappresentino solo il 35% delle visualizzazioni di pagina. In altre parole, le macchine sottraggono una quantità sproporzionata di traffico costoso, senza restituire nulla ai proprietari dei siti.
Perché il web aperto chiude le porte
La reazione delle piattaforme è stata prevedibile: se i bot non portano né impressioni pubblicitarie né clic, iniziano a essere bloccati. Entro agosto 2025, oltre 2,5 milioni di siti hanno completamente vietato l'uso dei propri dati per l'addestramento dell'AI. Nei cinque mesi successivi a luglio 2025, solo la rete Cloudflare ha bloccato circa 416 miliardi di richieste dei bot AI. GPTBot è diventato il crawler più "bandito" nei file robots.txt — figura nel 5,52% di tutte le regole DISALLOW.
Il disallineamento è ben visibile nel cosiddetto rapporto crawl-to-referral — quante pagine il bot scarica per ogni clic restituito. Per il Googlebot di riferimento, questo rapporto è di circa 4,9:1. Per GPTBot è di 1276:1, mentre per ClaudeBot è arrivato quasi a 24.000:1, prima di migliorare a circa 11.000:1. Per il proprietario del sito, questo significa una cosa semplice: l'AI prende a migliaia, restituisce a unità.
Ma semplicemente bloccare significa perdere potenziali guadagni, quindi Cloudflare ha proposto una terza via. Il suo sistema Pay-Per-Crawl utilizza un vecchio status HTTP 402 "Payment Required": invece di chiudere completamente il bot, il sito può addebitargli un costo per l'accesso. La stessa azienda funge da intermediario e gestisce i pagamenti. La meccanica è a tre livelli: Block (con un clic, di default per i nuovi domini), Charge (accesso a pagamento secondo la tariffa del proprietario) e Allow (accesso aperto con analisi dettagliata). Secondo Cloudflare, i clienti già emettono più di un miliardo di codici 402 al giorno.
Il trend va oltre una singola azienda. Il 7 aprile 2026, GoDaddy — uno dei più grandi host al mondo — ha integrato lo strumento Cloudflare AI Crawl Control nella sua piattaforma. La direttrice strategica di Cloudflare, Stephanie Cohen, l'ha formulata così: «Fornendo ai proprietari di siti strumenti come AI Crawl Control e standard aperti, stiamo ponendo le basi per un nuovo modello di business per Internet». Considerando che circa il 20% di tutti i siti del mondo operano dietro un reverse proxy di Cloudflare, si tratta di un cambiamento tettonico nelle regole del gioco.
La guerra delle maschere: perché i blocchi non colpiscono tutti allo stesso modo
Un aspetto chiave che spesso viene trascurato nei titoli sensazionalistici: le nuove barriere sono principalmente mirate a bot che si presentano onestamente e provengono da intervalli di indirizzi IP di data center. Un crawler con un User-Agent esplicito come "GPTBot" e un indirizzo da un cloud AWS è un facile bersaglio per WAF e categorizzatori di traffico. È proprio su questi che si abbattono i blocchi miliardari.
Il problema è che non tutti rispettano le regole. L'indice AI Agent Index del MIT CSAIL per il 2025 e le osservazioni di Cloudflare concordano: circa la metà del traffico AI ignora semplicemente il robots.txt. E lo standard llms.txt, che avrebbe dovuto diventare un "menu cortese" per i modelli, a partire dal primo trimestre del 2026 non è letto in produzione da nessuna grande azienda AI. Significativa è la storia di agosto 2025: Cloudflare ha accusato pubblicamente Perplexity di crawling nascosto — rotazione dell'User-Agent e mascheramento da browser normale per eludere i divieti nel robots.txt. Perplexity ha respinto le accuse, ma il caso ha chiaramente mostrato la direzione in cui si sta muovendo l'industria.
La conclusione per coloro che raccolgono legalmente dati pubblici non autenticati è paradossale: più le piattaforme tagliano i crawler di data center "rumorosi", maggiore è il valore del traffico che appare come un normale utente. Una richiesta proveniente da un IP residenziale o mobile, con un'impronta del browser normale e un ritmo umano, per i sistemi anti-bot è indistinguibile da un visitatore — e passa dove un bot cloud riceve un divieto immediato.
Cosa significa questo per il web scraping nella pratica
Se la tua attività dipende dalla raccolta di dati — monitoraggio dei prezzi, parsing SERP, aggregazione di recensioni, addestramento di modelli su fonti aperte — le conclusioni del rapporto Cloudflare dovrebbero essere considerate come una guida all'azione.
- I proxy di data center senza mascheramento sono una zona a rischio. Se invii richieste da intervalli di cloud evidenti e non gestisci l'impronta, rientri esattamente nella categoria sotto il fuoco principale. Per compiti non sensibili alla reputazione (API interne, fonti amiche, semplici pagine pubbliche) i proxy di data center rimangono veloci ed economici, ma per i siti protetti il loro ciclo di vita si accorcia.
- Gli IP residenziali sono il nuovo livello base. Per uno scraping serio di siti protetti, i proxy residenziali offrono quel profilo "umano" che i sistemi anti-bot lasciano passare per default. Non è più un'opzione premium, ma un minimo igienico.
- I proxy mobili — per gli obiettivi più severi. I social media e le piattaforme con analisi comportamentale sono particolarmente severi riguardo alla fonte della connessione. I proxy mobili con veri IP degli operatori e meccaniche di rotazione offrono la massima "invisibilità" dove anche gli indirizzi residenziali sono sotto sospetto.
- Preparati all'accesso a pagamento. Pay-Per-Crawl con codice 402 non è un esperimento temporaneo: un miliardo di tali risposte al giorno indica che il modello si è affermato. Parte dei dati nei prossimi anni sarà disponibile solo a pagamento o solo per coloro che sanno apparire come traffico organico.
Un altro scenario è l'infrastruttura propria. Per volumi ridotti e compiti privati ha senso creare il proprio nodo: abbiamo esaminato in dettaglio come costruire un server proxy domestico su Raspberry Pi in una sera e per un paio di migliaia di rubli. Questo non sostituirà un pool di milioni di indirizzi, ma soddisfa le esigenze di base e aiuta a comprendere la meccanica dall'interno.
Conclusione
Il numero 57,5% è una soglia simbolica, ma dietro di essa si cela un reale cambio di epoca. Internet, che per decenni è stato costruito per l'utente lettore, si sta rapidamente ristrutturando per la macchina consumatrice di dati, e le piattaforme rispondono con barricate: blocchi, portali a pagamento e autenticazione crittografica dei bot. Il web aperto non scompare — si stratifica. L'accesso libero rimane per coloro che giocano secondo le regole o sanno apparire come utenti normali; tutto il resto va dietro un paywall o sotto ban. Per l'industria della raccolta dati, questo significa una cosa: la qualità e l'"umanità" del tuo traffico diventano non un vantaggio competitivo, ma una condizione di sopravvivenza.
```