Retour au blog

Les bots dépassent pour la première fois les humains sur Internet : 57,5 % du trafic - quelles implications pour le scraping ?

Le 3 juin 2026, Cloudflare a enregistré un tournant historique : les bots ont pour la première fois généré plus de la moitié des requêtes sur Internet — 57,5 % contre 42,5 % pour les humains. Le principal moteur — l'IA agent. Analysons les chiffres, pourquoi les sites ferment massivement leurs portes aux crawlers et ce que cela change pour le web scraping et la collecte de données.

📅13 juin 2026
```html

Il s'est passé ce que l'industrie attendait depuis au moins un an : il y a maintenant plus de machines sur Internet que d'humains. Le 3 juin 2026, Cloudflare a publié des données de son réseau Radar, selon lesquelles les systèmes automatisés ont généré pour la première fois dans l'histoire la majorité de toutes les requêtes HTTP vers le contenu web — 57,5 % contre 42,5 % pour les utilisateurs humains. NBC News, se référant au même rapport, a cité une proportion presque identique — 57,4 % contre 42,6 %. Ce n'est pas une erreur statistique ni un pic ponctuel, mais un tournant enregistré d'une tendance de longue date.

Ce qui est le plus frappant, c'est la rapidité avec laquelle cela s'est produit. Seulement trois mois avant la publication, lors de la conférence SXSW, le PDG de Cloudflare, Matthew Prince, affirmait que le point de croisement n'arriverait pas avant 2027. Commentant les chiffres récents, il a reconnu : « Eh bien, cela s'est produit plus vite que je ne l'avais prédit ». Le cap a été franchi plus d'un an avant la prévision de la personne même qui avait fait cette prévision.

Qui a transformé le web en territoire de bots

Le principal coupable n'est pas les classiques robots d'exploration ou les bots de spam, mais l'IA agent : des programmes semi-autonomes qui accomplissent des tâches pour des assistants comme ChatGPT et Gemini. La logique est simple et impitoyable pour les serveurs : là où un humain clique quelques fois, un agent IA parcourt des milliers de pages pour rassembler le contexte et fournir une réponse. Chaque « expédition » de ce type représente des dizaines et des centaines de requêtes, qui s'accumulent en une avalanche dans les statistiques.

L'ampleur de la croissance est visible à travers des crawlers individuels. Selon les mesures de Cloudflare, le trafic de GPTBot d'OpenAI a augmenté de 305 % en un an. Si l'on regarde la part dans l'ensemble du trafic IA, le tableau est le même : GPTBot est passé de 4,7 % (juillet 2024) à 11,7 % (juillet 2025). En mai 2026, les crawlers IA spécialisés représentaient 20,3 % des requêtes de bots, et 6,5 % provenaient des bots de recherche IA — au total, presque 27 % de tout le trafic de bots alimente déjà directement les modèles linguistiques. En termes d'utilisation, ce trafic se répartit comme suit : 51,8 % — collecte de données pour l'apprentissage, 35,7 % — mode mixte (apprentissage plus fourniture de réponses), et seulement environ 9 % — recherche pure.

La charge sur l'infrastructure a cessé d'être une abstraction. La Wikimedia Foundation a signalé qu'à partir de janvier 2024, la consommation de bande passante pour la diffusion de multimédia a augmenté de 50 %, et 65 % du trafic le plus gourmand en ressources est généré par des bots, alors qu'ils ne représentent que 35 % des vues de pages. En d'autres termes, les machines prennent de manière disproportionnée beaucoup de trafic coûteux, sans rien rendre au propriétaire du site.

Pourquoi le web ouvert ferme ses portes

La réaction des plateformes a été prévisible : si les bots n'apportent ni impressions publicitaires ni clics, ils commencent à être bloqués. En août 2025, plus de 2,5 millions de sites ont complètement interdit l'utilisation de leurs données pour l'apprentissage de l'IA. Au cours des cinq mois suivant juillet 2025, le seul réseau Cloudflare a bloqué environ 416 milliards de requêtes de bots IA. GPTBot est devenu le crawler le plus « banni » dans les fichiers robots.txt — il figure dans 5,52 % de toutes les règles DISALLOW.

Le déséquilibre est bien visible dans le ratio crawl-to-referral — combien de pages un bot extrait pour chaque clic de retour. Pour le Googlebot de référence, ce ratio est d'environ 4,9:1. Pour GPTBot, il est de 1276:1, et pour ClaudeBot, il atteignait presque 24 000:1, avant de s'améliorer à environ 11 000:1. Pour le propriétaire du site, cela signifie simplement : l'IA prend par milliers, rend par unités.

Mais simplement bloquer signifie perdre des revenus potentiels, c'est pourquoi Cloudflare a proposé une troisième voie. Son système Pay-Per-Crawl utilise un statut HTTP oublié depuis longtemps 402 « Payment Required » : au lieu de fermer complètement l'accès au bot, le site peut lui facturer l'accès. La société elle-même agit en tant qu'intermédiaire et gère les paiements. La mécanique est à trois niveaux : Block (d'un clic, par défaut pour les nouveaux domaines), Charge (accès payant selon le tarif du propriétaire) et Allow (accès ouvert avec des analyses détaillées). Selon Cloudflare, les clients génèrent déjà plus d'un milliard de codes 402 par jour.

La tendance dépasse le cadre d'une seule entreprise. Le 7 avril 2026, GoDaddy — l'un des plus grands hébergeurs au monde — a intégré l'outil Cloudflare AI Crawl Control dans sa plateforme. La directrice de la stratégie de Cloudflare, Stéphanie Cohen, l'a formulé ainsi : « En donnant aux propriétaires de sites des outils comme AI Crawl Control et des normes ouvertes, nous posons les bases d'un nouveau modèle commercial pour Internet ». Étant donné qu'environ 20 % de tous les sites du monde fonctionnent derrière un proxy inverse Cloudflare, il s'agit d'un changement tectonique dans les règles du jeu.

Guerre des masques : pourquoi les blocages ne touchent pas tout le monde de la même manière

Un point clé, souvent négligé dans les gros titres : les nouvelles barrières visent principalement les bots qui se présentent honnêtement et viennent de plages d'adresses IP de centres de données. Un crawler avec un User-Agent explicite comme « GPTBot » et une adresse provenant du cloud AWS est une cible facile pour les WAF et les catégorisateurs de trafic. C'est précisément sur ceux-ci que se concentrent les blocages massifs.

Le problème, c'est que toutes les règles ne sont pas respectées. L'Index AI Agent de MIT CSAIL pour 2025 et les observations de Cloudflare convergent : environ la moitié du trafic IA ignore tout simplement robots.txt. Et la norme llms.txt, qui devait devenir un « menu poli » pour les modèles, n'est lue en production par aucune grande entreprise d'IA au premier trimestre 2026. L'histoire d'août 2025 est révélatrice : Cloudflare a publiquement accusé Perplexity de crawling caché — rotation de User-Agent et déguisement en navigateur ordinaire pour contourner les interdictions dans robots.txt. Perplexity a rejeté les accusations, mais le cas a clairement montré la direction dans laquelle l'industrie se dirige.

La conclusion pour ceux qui collectent légalement des données publiques non connectées est paradoxale : plus les plateformes coupent les crawlers de centres de données « bruyants », plus la valeur du trafic qui ressemble à un utilisateur ordinaire augmente. Une requête provenant d'une adresse IP résidentielle ou mobile, avec une empreinte de navigateur normale et un rythme humain, est indiscernable pour les systèmes anti-bots d'un visiteur — et passe là où un bot cloud reçoit un ban instantané.

Qu'est-ce que cela signifie pour le web scraping en pratique

Si votre entreprise dépend de la collecte de données — surveillance des prix, parsing des SERP, agrégation d'avis, formation de modèles sur des sources ouvertes — les conclusions du rapport de Cloudflare doivent être prises comme un guide d'action.

  • Les proxies de centres de données sans déguisement — zone de risque. Si vous envoyez des requêtes depuis des plages cloud évidentes et que vous ne gérez pas l'empreinte, vous tombez exactement dans la catégorie qui subit le feu principal. Pour les tâches peu sensibles à la réputation (API internes, sources amicales, simples pages publiques), les proxies de centres de données restent rapides et bon marché, mais pour les sites protégés, leur cycle de vie se réduit.
  • Les IP résidentielles — le nouveau niveau de base. Pour le scraping sérieux de sites protégés, les proxies résidentiels offrent ce profil « humain » que les systèmes anti-bots laissent passer par défaut. Ce n'est plus une option premium, mais un minimum hygiénique.
  • Les proxies mobiles — pour les objectifs les plus stricts. Les réseaux sociaux et les plateformes d'analyse comportementale sont particulièrement stricts quant à la source de la connexion. Les proxies mobiles avec de véritables IP d'opérateurs et leur mécanique de rotation offrent la « discrétion » maximale là où même les adresses résidentielles sont suspectes.
  • Préparez-vous à un accès payant. Pay-Per-Crawl avec le code 402 — ce n'est pas une expérience temporaire : un milliard de telles réponses par jour indique que le modèle s'est installé. Une partie des données dans les prochaines années ne sera disponible que contre paiement ou uniquement pour ceux qui savent se faire passer pour un trafic organique.

Un scénario distinct — une infrastructure propre. Pour de petits volumes et des tâches privées, il est judicieux de mettre en place votre propre nœud : nous avons détaillé comment construire un serveur proxy domestique sur Raspberry Pi en une soirée et pour quelques milliers de roubles. Cela ne remplacera pas un pool de millions d'adresses, mais cela répond aux besoins de base et aide à comprendre la mécanique de l'intérieur.

Conclusion

Le chiffre de 57,5 % est un jalon symbolique, mais il représente un véritable changement d'époque. Internet, qui a été construit pendant des décennies pour l'humain lecteur, se réorganise de plus en plus rapidement pour la machine consommatrice de données, et les plateformes répondent par des barricades : blocages, passerelles payantes et authentification cryptographique des bots. Le web ouvert ne disparaît pas — il se stratifie. L'accès libre reste pour ceux qui jouent selon les règles ou savent se faire passer pour un utilisateur ordinaire ; tout le reste est relégué derrière un paywall ou sous ban. Pour l'industrie de la collecte de données, cela signifie une chose : la qualité et l'« humanité » de votre trafic deviennent non pas un avantage concurrentiel, mais une condition de survie.

```