Sie haben den Scraper eingerichtet, die Datensammlung gestartet — und nach wenigen Minuten erhalten Sie eine Seite mit einer CAPTCHA oder eine leere Antwort. Höchstwahrscheinlich ist die Website durch DataDome geschützt. Dies ist eines der aggressivsten Anti-Bot-Systeme auf dem Markt, und herkömmliche Proxys aus Rechenzentren helfen hier nicht. In diesem Artikel werden wir untersuchen, wie genau DataDome Bots erkennt und welche Proxys Ergebnisse liefern.
Was ist DataDome und wo wird es eingesetzt
DataDome ist eine kommerzielle SaaS-Plattform zum Schutz vor Bots, die von großen Online-Shops, Nachrichtenportalen, Marktplätzen und Buchungsdiensten weltweit genutzt wird. Das Unternehmen wurde 2015 gegründet und schützt derzeit Tausende von Websites mit einer Gesamtbesucherzahl von Milliarden Anfragen pro Tag.
Zu den Kunden von DataDome gehören Plattformen wie Reddit, Foot Locker, Rakuten, AngelList und viele andere große Ressourcen. Wenn Sie Preisüberwachungen von Wettbewerbern, das Scraping von Produktkarten, das Sammeln von Daten von ausländischen Marktplätzen oder die Aggregation von Nachrichten durchführen — besteht eine hohe Wahrscheinlichkeit, dass Sie bereits mit diesem System konfrontiert wurden.
Typische Anzeichen dafür, dass eine Website durch DataDome geschützt ist:
- Eine Seite mit CAPTCHA erscheint nach mehreren aufeinanderfolgenden Anfragen
- Im Serverantwort-Header ist der Header
x-datadome-cidvorhanden - Redirect zur Domain
geo.captcha-delivery.com - HTTP-Antwort 403 oder 429 bei häufigen Anfragen von einer IP
- JavaScript-Challenge beim ersten Besuch (Seite „Browserprüfung“)
DataDome arbeitet in Echtzeit: Jede eingehende Anfrage wird in Millisekunden analysiert. Das System trifft die Entscheidung — den Benutzer durchzulassen, CAPTCHA anzuzeigen oder zu blockieren — noch bevor der Server den Hauptinhalt der Seite ausliefert. Aus diesem Grund ist es schwieriger, es zu umgehen als einfache IP-Blockierungen.
Wie DataDome Bots erkennt: Schutzmechanismen
Um zu verstehen, welche Proxys funktionieren, müssen wir klären, was genau DataDome analysiert. Das System verwendet einen mehrstufigen Ansatz — kein einzelner Faktor ist das alleinige Kriterium für eine Blockierung. Die Entscheidung wird auf der Grundlage einer Kombination von Signalen getroffen.
1. Reputation der IP-Adresse
Das erste, was DataDome überprüft, ist die Reputation der IP-Adresse anhand externer und interner Datenbanken. Das System erkennt sofort, ob die IP zu einem Rechenzentrum (AWS, Google Cloud, Hetzner, DigitalOcean), einem VPN-Anbieter gehört oder eine echte Wohn-/Mobiladresse ist. IPs aus Rechenzentren erhalten automatisch einen hohen „Verdachtswert“, noch bevor das Verhalten analysiert wird.
2. Verhaltensanalyse
DataDome verfolgt Verhaltensmuster: Anfragespeed, Reihenfolge der Seitenbesuche, Zeit zwischen Klicks, Mausbewegungen (sofern JavaScript vorhanden ist). Ein echter Benutzer macht Pausen, navigiert auf logischen Routen und kehrt manchmal zurück. Ein Bot stellt normalerweise Anfragen mit konstanten Intervallen, an genau definierten URLs, ohne „zufällige“ Abweichungen.
3. JavaScript-Fingerprint
Wenn die Anfrage über einen Browser (oder einen headless-Browser wie Puppeteer/Playwright) erfolgt, führt DataDome ein JavaScript-Skript aus, das einen „Fingerprint“ der Umgebung sammelt: Browser-Version, installierte Schriftarten, Bildschirmauflösung, WebGL-Unterstützung, Canvas-Fingerprint, Vorhandensein von Plugins. Headless-Browser ohne zusätzliche Tarnung sind leicht an charakteristischen Parametern zu erkennen.
4. HTTP-Header
Die Header der Anfrage werden analysiert: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua und andere. Eine Diskrepanz zwischen dem angegebenen User-Agent und den tatsächlichen Anfrageparametern ist ein starkes Signal für einen Bot.
5. Echtzeit-Maschinenlernen
Alle gesammelten Signale werden von einem ML-Modell verarbeitet, das auf einem riesigen Datensatz von echten Benutzern und Bots trainiert wurde. Das Modell wird ständig aktualisiert — was vor einem Monat funktionierte, kann heute nicht mehr funktionieren. Aus diesem Grund veralten statische Lösungen schnell.
Warum Proxys aus Rechenzentren gegen DataDome nicht funktionieren
Dies ist die häufigste Frage von denen, die gerade erst anfangen, mit geschützten Websites zu arbeiten. Proxys aus Rechenzentren sind günstig, schnell und haben eine hohe Verfügbarkeit. Sie scheinen die ideale Wahl für das Scraping zu sein. Aber gegen DataDome sind sie praktisch nutzlos.
Der Grund ist einfach: DataDome führt und nutzt Datenbanken von ASN (autonomen Systemen) aller großen Hosting-Anbieter. Wenn eine Anfrage von einer IP-Adresse kommt, die beispielsweise zu einem Subnetz von Amazon Web Services oder OVH gehört, wird der IP sofort der Status „verdächtig“ zugewiesen. Selbst wenn Ihr Scraper das Verhalten eines Menschen perfekt imitiert — die IP aus dem Rechenzentrum bringt Sie bereits in Gefahr.
⚠️ Wichtig zu verstehen
Proxys aus Rechenzentren eignen sich hervorragend für Aufgaben, bei denen der Schutz schwach oder nicht vorhanden ist: Scraping von offenen Daten, Arbeiten mit APIs ohne Anti-Bot-Systeme, Geschwindigkeitstests. Aber für Websites mit DataDome führen sie in über 90% der Fälle bereits bei den ersten Dutzend Anfragen zu einer Blockierung.
Ein weiteres Problem sind „ausgebrannte“ IPs. Wenn Tausende von Benutzern vor Ihnen dieselbe IP-Adresse für Bot-Aktivitäten verwendet haben (und in Pools von günstigen Rechenzentren ist das normal), hat DataDome bereits eine negative Historie für diese Adresse. Selbst die erste Anfrage von einer solchen IP kann blockiert werden.
Residential Proxys: das Hauptwerkzeug zum Umgehen von DataDome
Residential Proxys sind IP-Adressen, die echten Haushaltsnutzern des Internets gehören. Sie werden von Internetanbietern (Ростелеком, Comcast, Deutsche Telekom usw.) vergeben und erscheinen aus der Sicht von DataDome wie gewöhnliche Menschen, die zu Hause am Computer sitzen.
Aus diesem Grund sind Residential Proxys das Hauptarbeitswerkzeug für das Scraping von Websites mit DataDome. Sie bestehen die erste Überprüfung der IP-Reputation, was Ihnen ein „Vertrauensguthaben“ für die weitere Arbeit gibt.
Was bei der Auswahl von Residential Proxys für DataDome zu beachten ist
| Parameter | Was wichtig ist | Warum das kritisch ist |
|---|---|---|
| Rotationsart | Rotation bei jeder Anfrage oder Sitzung von 5-30 Minuten | DataDome verfolgt die IP-Historie — zu häufige Wechsel sind ebenfalls verdächtig |
| Geolokalisierung | IP aus dem Land der Zielwebsite | Anfrage aus einem anderen Land — zusätzliches Signal der Verdächtigkeit |
| Poolgröße | Millionen von IPs, nicht Tausende | Ein kleiner Pool „verbraucht“ sich schnell — DataDome merkt sich aktive Adressen |
| Sticky-Sitzungen | Möglichkeit, eine IP für 10-30 Minuten zu halten | Für mehrseitiges Scraping sollte eine Sitzung wie ein Benutzer aussehen |
| Geschwindigkeit | Mindestens 5-10 Mbit/s pro Verbindung | Langsame Proxys erhöhen die Anfragenzeit, was die Timings beeinflusst |
Ein wichtiger Punkt: Residential Proxys garantieren nicht allein 100% Umgehung von DataDome. Sie lösen das Problem der IP-Reputation, aber wenn Ihr Scraper 100 Anfragen pro Minute von einer Adresse ausführt oder falsche Header sendet — wird DataDome Sie trotzdem blockieren. Die IP ist nur eine der Schutzebenen.
Mobile Proxys: wenn maximaler Trust erforderlich ist
Mobile Proxys sind IP-Adressen von Mobilfunkanbietern (4G/5G-Netze). Sie haben eine besondere Eigenschaft: Eine IP-Adresse eines Mobilfunkanbieters kann von Tausenden von echten Nutzern gleichzeitig über NAT verwendet werden. DataDome weiß das — und behandelt daher mobile IPs mit maximalem Vertrauen.
Eine mobile IP zu blockieren bedeutet, potenziell Tausende von echten Kunden des Anbieters zu blockieren — keine normale Website wird das tun. Daher bieten mobile Proxys den höchsten Prozentsatz erfolgreicher Anfragen an Websites mit DataDome.
Wann sollten Sie mobile Proxys anstelle von Residential Proxys wählen:
- Die Website ist sehr aggressiv geschützt — Residential Proxys führen selbst bei niedriger Anfragefrequenz zu Blockierungen
- Sie scrapen die mobile Version der Website — mobile IP + mobiler User-Agent wirken organisch
- Arbeiten mit Anwendungen erforderlich — wenn Sie mobile APIs scrapen, entspricht die mobile IP logisch der Anfrage
- Langfristige Sitzungen — mobile Proxys halten die Sitzung gut ohne IP-Wechsel
Der Nachteil von mobilen Proxys ist, dass sie teurer sind als Residential Proxys und normalerweise einen kleineren IP-Pool haben. Für großangelegtes Scraping mit Tausenden von Anfragen pro Stunde kann dies eine Einschränkung darstellen. In solchen Fällen ist die optimale Strategie, mobile Proxys für „Erkundungen“ und komplexe Seiten zu verwenden, während Residential Proxys für die Massen-Datensammlung eingesetzt werden.
Rotations- und Verzögerungsstrategie: wie man nicht auffällt, selbst mit guten Proxys
Selbst mit Residential oder mobilen Proxys kann man blockiert werden, wenn die Anfrage-Strategie nicht richtig aufgebaut ist. DataDome analysiert das Verhalten auf Sitzungsebene — und anomale Muster erregen Verdacht, unabhängig von der IP-Qualität.
Regeln für sicheres Scraping durch DataDome
✅ Checkliste für sicheres Scraping
- Verzögerungen zwischen Anfragen: von 3 bis 15 Sekunden (zufällig, nicht fest)
- Nicht mehr als 20-30 Anfragen von einer IP pro Sitzung
- Sticky-Sitzung: Halten Sie eine IP für einen „Benutzerpfad“
- Beginnen Sie mit der Hauptseite, dann zu den Ziel-URLs wechseln
- Simulieren Sie echte Navigation: Hauptseite → Kategorie → Produkt
- Verwenden Sie die Geolokalisierung des Proxys, die mit der Sprache der Website übereinstimmt
- Ändern Sie die IP nach jeder Sitzung oder nach einer Blockierung
- Starten Sie keine parallelen Anfragen von einer IP
Rotation: wann IP wechseln
Hier gibt es keine universelle Antwort — alles hängt von der spezifischen Website ab. Aber die allgemeine Logik ist: DataDome merkt sich die Aktivität der IP in einem gleitenden Zeitfenster (normalerweise 10-60 Minuten). Wenn in dieser Zeit von einer Adresse verdächtig viele Anfragen eingegangen sind — erhält die IP eine temporäre Sperre.
Die optimale Strategie ist, die IP nicht nach einem Timer, sondern nach der Anzahl der Anfragen zu rotieren. Zum Beispiel: 15-25 Anfragen → IP wechseln → Pause von 30-60 Sekunden → neue Sitzung. Dieser Ansatz simuliert das Verhalten verschiedener Benutzer, von denen jeder mehrere Seiten besucht hat und gegangen ist.
Header und Fingerprint: was DataDome neben IP noch überprüft
Gute Proxys sind eine notwendige, aber nicht ausreichende Bedingung, um DataDome zu umgehen. Das System analysiert die gesamte Anfrage. Wenn die IP residential ist, aber die Header einen Bot verraten — wird trotzdem eine Blockierung stattfinden.
Kritisch wichtige Header
Hier ist, was DataDome in den HTTP-Headern überprüft und worauf man achten sollte:
| Header | Was überprüft wird | Typischer Fehler |
|---|---|---|
User-Agent |
Aktuelle Version des Browsers | Veralteter UA oder UA einer Python-Bibliothek |
Accept-Language |
Sprache stimmt mit der Geolokalisierung des Proxys überein | Proxy aus den USA, aber Sprache ru-RU |
sec-ch-ua |
Stimmt mit User-Agent überein | Fehlender Header bei angegebenem Chrome |
Referer |
Logische Kette von Übergängen | Direkte Anfrage an eine tiefere Seite ohne Referer |
Accept-Encoding |
Standard-Browser-Set | Fehlendes oder nicht standardmäßiges Set |
Cookie |
Speicherung der Sitzungscookies von DataDome | Ignorieren von Set-Cookie von DataDome |
Besondere Aufmerksamkeit gilt den Cookies von DataDome. Bei der ersten Anfrage setzt das System sein Cookie (normalerweise genannt datadome). Wenn Ihr Scraper dieses Cookie nicht speichert und in nachfolgenden Anfragen nicht sendet — betrachtet DataDome jede Anfrage als ersten Besuch eines neuen Benutzers, was bei hoher Frequenz selbst verdächtig ist.
TLS-Fingerprint
Der fortschrittliche Schutz von DataDome analysiert auch den TLS-Fingerprint — die Eigenschaften des SSL/TLS-Handshakes. Verschiedene HTTP-Bibliotheken (requests, curl, axios) haben charakteristische Sets von Cipher Suites und TLS-Erweiterungen, die sich von Browsern unterscheiden. Wenn Sie die Standard-Python-Bibliothek requests verwenden — ist ihr TLS-Fingerprint leicht zu identifizieren. Die Lösung besteht darin, Bibliotheken zu verwenden, die das Browser-TLS imitieren (z. B. curl-impersonate oder spezialisierte Lösungen).
Werkzeuge für die Arbeit mit DataDome-Websites
Die richtige Wahl des Scraping-Tools ist ebenso wichtig wie die Wahl der Proxys. Verschiedene Aufgaben erfordern unterschiedliche Ansätze. Lassen Sie uns die Hauptoptionen aus der Perspektive der Kompatibilität mit DataDome betrachten.
Browserautomatisierung (Puppeteer, Playwright)
Headless-Browser sollten theoretisch gut mit DataDome funktionieren, da sie JavaScript ausführen und einen „echten“ Fingerabdruck erzeugen. In der Praxis werden Standard-Puppeteer oder Playwright jedoch leicht an charakteristischen Parametern erkannt: navigator.webdriver = true, fehlende Plugins, nicht standardmäßige Werte für WebGL. Um sie zu umgehen, ist zusätzliche Tarnung durch Plugins wie puppeteer-extra-plugin-stealth erforderlich.
Anti-Detect-Browser
Für Aufgaben, bei denen eine vollständige Interaktion mit der Website erforderlich ist (nicht nur Scraping, sondern auch Interaktion), sind Anti-Detect-Browser die optimale Wahl. Dolphin Anty, AdsPower, GoLogin und Multilogin erstellen vollständige Browserprofile mit realistischen Fingerabdrücken. In Kombination mit Residential oder mobilen Proxys bieten sie das höchste Maß an Umgehung von DataDome.
Das Verbindungsschema in einem Anti-Detect-Browser ist standardmäßig: Erstellen Sie ein Profil → Geben Sie in den Proxy-Einstellungen den Typ (HTTP/SOCKS5), Host, Port, Benutzername und Passwort des Proxy-Dienstes an → Starten Sie das Profil. Jedes Profil arbeitet in einer isolierten Umgebung mit einem einzigartigen Fingerabdruck.
Spezialisierte Scraping-Dienste
Es gibt fertige Dienste (ScrapingBee, Apify, Bright Data Scraping Browser), die die gesamte Arbeit zum Umgehen von Schutzmaßnahmen übernehmen — Sie geben einfach die URL ein und erhalten HTML zurück. Sie verwenden eigene Pools von Residential Proxys und lösen automatisch CAPTCHAs. Nachteil — hohe Kosten bei großen Volumina und weniger Kontrolle über den Prozess.
Vergleich der Ansätze
| Werkzeug | Effektivität gegen DataDome | Einrichtungsaufwand | Skalierbarkeit |
|---|---|---|---|
| HTTP-Scraper + Residential Proxys | Mittel | Niedrig | Hoch |
| Puppeteer/Playwright + Stealth + Proxys | Hoch | Mittel | Mittel |
| Anti-Detect-Browser + Mobile Proxys | Sehr hoch | Niedrig | Niedrig |
| Fertige Scraping-Dienste | Hoch | Sehr niedrig | Hoch (teuer) |
| Proxys aus Rechenzentren (jedes Werkzeug) | Sehr niedrig | — | — |
Praktisches Szenario: Preisüberwachung auf einer geschützten Website
Angenommen, Sie überwachen die Preise von Wettbewerbern auf einem ausländischen Marktplatz, der durch DataDome geschützt ist. Sie müssen Daten zu 5000 Produkten alle 6 Stunden sammeln. Hier ist das optimale Schema:
- Werkzeug: Playwright mit Stealth-Plugin (löst automatisch JS-Challenges)
- Proxys: Residential mit Rotation, Geolokalisierung — Land der Zielwebsite
- Sitzung: Sticky für 15 Minuten, 20 Anfragen pro IP
- Header: Aktueller Chrome User-Agent, korrekter Accept-Language
- Cookies: Speicherung und Übertragung von DataDome-Cookies zwischen Anfragen einer Sitzung
- Verzögerungen: Zufällige Verzögerungen von 4 bis 12 Sekunden zwischen Anfragen
- Sitzungsstart: Immer mit der Hauptseite beginnen, dann zu den Produkten wechseln
Bei dieser Konfiguration beträgt die Erfolgsquote der Anfragen 85-95%, was für eine regelmäßige Überwachung völlig ausreichend ist. Die verbleibenden 5-15% sind Wiederholungsanfragen über eine andere IP.
Fazit und Empfehlungen
DataDome ist ein ernstzunehmendes Schutzsystem, aber nicht unüberwindbar. Der Schlüssel zum erfolgreichen Arbeiten mit Websites, die durch es geschützt sind, ist ein ganzheitlicher Ansatz: der richtige Typ von Proxys, korrekte Header, realistisches Verhalten und eine durchdachte Rotationsstrategie.
Die wichtigsten Schlussfolgerungen des Artikels:
- Proxys aus Rechenzentren funktionieren gegen DataDome nicht — sie werden auf der Ebene der IP-Reputation blockiert
- Residential Proxys sind das grundlegende Werkzeug für die meisten Scraping-Aufgaben
- Mobile Proxys bieten maximalen Trust und eignen sich für aggressiv geschützte Websites
- Gute Proxys sind nur ein Teil der Lösung: Header, Cookies und Verhalten sind ebenso wichtig
- Anti-Detect-Browser in Kombination mit hochwertigen Proxys liefern die besten Ergebnisse
- Die Rotations- und Verzögerungsstrategie ist entscheidend — selbst mit Residential Proxys kann man bei aggressivem Scraping gesperrt werden
Wenn Sie Preisüberwachungen, das Scraping von Produktkarten oder das Sammeln von Daten von Websites, die durch DataDome geschützt sind, durchführen, empfehlen wir, mit Residential Proxys zu beginnen — sie bieten das optimale Gleichgewicht zwischen der Qualität des Umgehens des Schutzes und den Kosten. Für Aufgaben, bei denen ein maximaler Vertrauensgrad von Anti-Bot-Systemen erforderlich ist, sollten Sie mobile Proxys in Betracht ziehen — insbesondere wenn Sie mit mobilen Versionen von Websites oder mobilen API-Anwendungen arbeiten.