Zurück zum Blog

Bots überholen erstmals Menschen im Internet: 57,5% des Traffics – was bedeutet das für das Scraping?

Am 3. Juni 2026 verzeichnete Cloudflare einen historischen Wendepunkt: Bots lieferten erstmals mehr als die Hälfte der Anfragen im Internet – 57,5 % gegenüber 42,5 % bei Menschen. Der Haupttreiber ist agentenbasierte KI. Wir analysieren die Zahlen, warum Websites massenhaft ihre Türen vor Crawlern schließen und was das für Web-Scraping und Datensammlung bedeutet.

📅13. Juni 2026
```html

Es ist passiert, worauf die Branche mindestens ein Jahr gewartet hat: Im Internet gibt es jetzt mehr Maschinen als Menschen. Am 3. Juni 2026 veröffentlichte Cloudflare Daten aus seinem Radar-Netzwerk, wonach automatisierte Systeme erstmals in der Geschichte die Mehrheit aller HTTP-Anfragen an Webinhalte generierten — 57,5% gegenüber 42,5% bei lebenden Nutzern. NBC News, das sich auf denselben Bericht bezieht, nannte eine nahezu identische Verteilung — 57,4% zu 42,6%. Dies ist kein statistischer Fehler und kein einmaliger Anstieg, sondern ein dokumentierter Wendepunkt eines jahrelangen Trends.

Am bemerkenswertesten ist, wie schnell dies geschehen ist. Nur drei Monate vor der Veröffentlichung versicherte der CEO von Cloudflare, Matthew Prince, auf der SXSW-Konferenz, dass der Wendepunkt nicht vor 2027 eintreten würde. Als er die aktuellen Zahlen kommentierte, gestand er: „Nun, das ist schneller passiert, als ich vorhergesagt habe.“ Der Wendepunkt wurde mehr als ein Jahr früher erreicht als die Prognose desjenigen, der diese Prognose aufgestellt hatte.

Wer das Web in ein Bot-Territorium verwandelt hat

Der Hauptverursacher sind nicht die klassischen Suchmaschinen-Crawler und nicht die Spam-Bots, sondern Agenten-AI: halbautonome Programme, die Aufgaben für Assistenten wie ChatGPT und Gemini ausführen. Die Logik ist einfach und gnadenlos für Server: Wo ein Mensch ein paar Mal klickt, durchläuft ein AI-Agent Tausende von Seiten, um Kontext zu sammeln und eine Antwort zu geben. Jeder solcher „Ausflug“ bedeutet Dutzende und Hunderte von Anfragen, die in der Statistik zu einer Lawine werden.

Das Wachstum ist bei einzelnen Crawlern deutlich sichtbar. Laut Messungen von Cloudflare ist der Traffic von GPTBot von OpenAI im Laufe eines Jahres um 305% gestiegen. Betrachtet man den Anteil innerhalb des gesamten AI-Traffics, zeigt sich dasselbe Bild: GPTBot stieg von 4,7% (Juli 2024) auf 11,7% (Juli 2025). Im Mai 2026 entfielen 20,3% der Bot-Anfragen auf spezialisierte AI-Crawler, weitere 6,5% kamen von AI-Suchbots — insgesamt füttern bereits fast 27% des gesamten Bot-Traffics direkt Sprachmodelle. Dieser Traffic wird wie folgt verteilt: 51,8% — Datensammlung für das Training, 35,7% — gemischter Modus (Training plus Antwortausgabe), und nur etwa 9% — reines Suchen.

Die Belastung der Infrastruktur ist keine abstrakte Vorstellung mehr. Die Wikimedia-Stiftung berichtete, dass seit Januar 2024 der Bandbreitenverbrauch für die Auslieferung von Multimedia um 50% gestiegen ist, wobei 65% des ressourcenintensivsten Traffics von Bots erzeugt werden, obwohl sie nur 35% der Seitenaufrufe ausmachen. Mit anderen Worten, Maschinen beanspruchen unverhältnismäßig viel teuren Traffic, ohne dem Website-Besitzer etwas zurückzugeben.

Warum das offene Web Türen schließt

Die Reaktion der Plattformen war vorhersehbar: Wenn Bots weder Werbeeinblendungen noch Klicks bringen, werden sie gestoppt. Bis August 2025 haben mehr als 2,5 Millionen Websites die Nutzung ihrer Daten für das Training von AI vollständig verboten. In den fünf Monaten nach Juli 2025 blockierte allein das Cloudflare-Netzwerk etwa 416 Milliarden Anfragen von AI-Bots. GPTBot wurde zum am häufigsten „verbotenen“ Crawler in den robots.txt-Dateien — er erscheint in 5,52% aller DISALLOW-Regeln.

Das Ungleichgewicht ist im sogenannten Crawl-to-Referral-Ratio gut sichtbar — wie viele Seiten ein Bot abruft für jeden zurückgeschickten Klick. Für den Referenz-Googlebot liegt dieses Verhältnis bei etwa 4,9:1. Bei GPTBot beträgt es 1276:1, und bei ClaudeBot erreichte es fast 24.000:1, bevor es sich auf etwa 11.000:1 verbesserte. Für den Website-Besitzer bedeutet dies einfach: AI nimmt Tausende, gibt Hunderte zurück.

Doch einfach zu blockieren bedeutet, potenzielle Einnahmen zu verlieren, weshalb Cloudflare einen dritten Weg vorschlug. Sein System Pay-Per-Crawl nutzt den längst vergessenen HTTP-Status 402 „Payment Required“: Anstatt den Bot vollständig zu sperren, kann die Website ihm eine Rechnung für den Zugang ausstellen. Das Unternehmen fungiert als Vermittler und bearbeitet die Zahlungen. Die Mechanik ist dreistufig: Block (mit einem Klick, standardmäßig für neue Domains), Charge (kostenpflichtiger Zugang zum Tarif des Eigentümers) und Allow (offener Zugang mit detaillierter Analyse). Laut Cloudflare geben die Kunden bereits über eine Milliarde 402-Codes pro Tag aus.

Der Trend geht über ein einzelnes Unternehmen hinaus. Am 7. April 2026 integrierte GoDaddy — einer der größten Hosting-Anbieter der Welt — das Cloudflare AI Crawl Control-Tool in seine Plattform. Die Strategiechefin von Cloudflare, Stephanie Cohen, formulierte es so: „Indem wir Website-Besitzern Werkzeuge wie AI Crawl Control und offene Standards zur Verfügung stellen, legen wir das Fundament für ein neues Geschäftsmodell des Internets.“ Angesichts der Tatsache, dass etwa 20% aller Websites weltweit hinter einem Reverse-Proxy von Cloudflare betrieben werden, handelt es sich um einen tektonischen Wandel in den Spielregeln.

Maskenkrieg: Warum Blockierungen nicht alle gleich treffen

Ein entscheidender Punkt, der in den Schlagzeilen oft übersehen wird: Die neuen Barrieren richten sich vor allem gegen Bots, die sich ehrlich ausgeben und von IP-Bereichen aus Rechenzentren kommen. Ein Crawler mit einem klaren User-Agent wie „GPTBot“ und einer Adresse aus der AWS-Cloud ist ein leichtes Ziel für WAF und Traffic-Kategorisierer. Genau gegen solche werden milliardenschwere Blockierungen verhängt.

Das Problem ist, dass sich nicht alle an die Regeln halten. Der AI Agent Index des MIT CSAIL für 2025 und die Beobachtungen von Cloudflare stimmen überein: Etwa die Hälfte des AI-Traffics ignoriert einfach robots.txt. Und der Standard llms.txt, der als „höfliches Menü“ für Modelle gedacht war, wird im ersten Quartal 2026 von keinem großen AI-Unternehmen in der Produktion gelesen. Ein bemerkenswerter Vorfall im August 2025: Cloudflare beschuldigte Perplexity öffentlich des versteckten Crawlings — der Rotation von User-Agents und der Tarnung als normaler Browser, um die Verbote in robots.txt zu umgehen. Perplexity wies die Vorwürfe zurück, aber der Fall zeigte deutlich, wohin die Branche steuert.

Die Schlussfolgerung für diejenigen, die öffentliche, nicht angemeldete Daten legal sammeln, ist paradox: Je aggressiver Plattformen die „lauten“ Rechenzentrums-Crawler abschneiden, desto höher wird der Wert des Traffics, der wie ein normaler Mensch aussieht. Eine Anfrage, die von einer Wohn- oder mobilen IP mit einem normalen Browser-Fingerabdruck und menschlichem Rhythmus kommt, ist für Anti-Bot-Systeme nicht von einem Besucher zu unterscheiden — und passiert dort, wo ein Cloud-Bot sofort gesperrt wird.

Was das praktisch für Web-Scraping bedeutet

Wenn Ihr Geschäft vom Datensammeln abhängt — Preisüberwachung, Parsing von SERP, Aggregation von Bewertungen, Training von Modellen auf offenen Quellen — sollten die Schlussfolgerungen aus dem Cloudflare-Bericht als Handlungsanweisung betrachtet werden.

  • Rechenzentrums-Proxys ohne Tarnung — Risikozone. Wenn Sie Anfragen von klaren Cloud-Bereichen senden und den Fingerabdruck nicht steuern, fallen Sie genau in die Kategorie, die unter Beschuss steht. Für nicht sensiblen Aufgaben (interne APIs, freundliche Quellen, einfache öffentliche Seiten) bleiben Rechenzentrums-Proxys schnell und günstig, aber für geschützte Plattformen verkürzt sich ihr Lebenszyklus.
  • Residential IPs — neue Basislinie. Für ernsthaftes Scraping geschützter Websites bieten Residential Proxys das „menschliche“ Profil, das Anti-Bot-Systeme standardmäßig durchlassen. Dies ist nicht mehr eine Premium-Option, sondern das hygienische Minimum.
  • Mobile Proxys — für die härtesten Ziele. Soziale Netzwerke und Plattformen mit Verhaltensanalysen sind besonders streng gegenüber der Quelle der Verbindung. Mobile Proxys mit echten IPs von Anbietern und der Mechanik ihrer Rotation bieten maximale „Unauffälligkeit“ dort, wo selbst Residential-Adressen unter Verdacht stehen.
  • Bereiten Sie sich auf kostenpflichtigen Zugang vor. Pay-Per-Crawl mit dem Code 402 ist kein vorübergehendes Experiment: Eine Milliarde solcher Antworten pro Tag zeigt, dass sich das Modell etabliert hat. Ein Teil der Daten wird in den nächsten paar Jahren nur gegen Geld oder nur für diejenigen verfügbar sein, die wie organischer Traffic aussehen können.

Ein separates Szenario ist die eigene Infrastruktur. Für kleine Mengen und private Aufgaben macht es Sinn, einen eigenen Knoten aufzubauen: Wir haben ausführlich beschrieben, wie man einen heimischen Proxy-Server auf Raspberry Pi an einem Abend und für ein paar Tausend Rubel aufbaut. Dies ersetzt nicht einen Pool aus Millionen von Adressen, deckt jedoch die grundlegenden Bedürfnisse ab und hilft, die Mechanik von innen heraus zu verstehen.

Fazit

Die Zahl 57,5% ist ein symbolischer Wendepunkt, aber dahinter steht ein echter Zeitalterwechsel. Das Internet, das jahrzehntelang für den menschlichen Leser aufgebaut wurde, wird immer schneller für die datenverbrauchende Maschine umgebaut, und die Plattformen reagieren mit Barrikaden: Blockierungen, kostenpflichtigen Gateways und kryptografischer Authentifizierung von Bots. Das offene Web verschwindet nicht — es schichtet sich auf. Freier Zugang bleibt für diejenigen, die sich an die Regeln halten oder wie ein normaler Benutzer aussehen können; alles andere geht hinter eine Paywall oder wird gesperrt. Für die Datensammelindustrie bedeutet dies eines: Die Qualität und „Menschlichkeit“ Ihres Traffics werden nicht zu einem Wettbewerbsvorteil, sondern zu einer Überlebensbedingung.

```