Proxys zum Umgehen von DataDome: welche Typen funktionieren 2024

```html

Sie haben den Scraper eingerichtet, die Datensammlung gestartet — und nach wenigen Minuten erhalten Sie eine Seite mit einer CAPTCHA oder eine leere Antwort. Höchstwahrscheinlich ist die Website durch DataDome geschützt. Dies ist eines der aggressivsten Anti-Bot-Systeme auf dem Markt, und herkömmliche Proxys aus Rechenzentren helfen hier nicht. In diesem Artikel werden wir untersuchen, wie genau DataDome Bots erkennt und welche Proxys Ergebnisse liefern.

Was ist DataDome und wo wird es eingesetzt

DataDome ist eine kommerzielle SaaS-Plattform zum Schutz vor Bots, die von großen Online-Shops, Nachrichtenportalen, Marktplätzen und Buchungsdiensten weltweit genutzt wird. Das Unternehmen wurde 2015 gegründet und schützt derzeit Tausende von Websites mit einer Gesamtbesucherzahl von Milliarden Anfragen pro Tag.

Zu den Kunden von DataDome gehören Plattformen wie Reddit, Foot Locker, Rakuten, AngelList und viele andere große Ressourcen. Wenn Sie Preisüberwachungen von Wettbewerbern, das Scraping von Produktkarten, das Sammeln von Daten von ausländischen Marktplätzen oder die Aggregation von Nachrichten durchführen — besteht eine hohe Wahrscheinlichkeit, dass Sie bereits mit diesem System konfrontiert wurden.

Typische Anzeichen dafür, dass eine Website durch DataDome geschützt ist:

Eine Seite mit CAPTCHA erscheint nach mehreren aufeinanderfolgenden Anfragen
Im Serverantwort-Header ist der Header x-datadome-cid vorhanden
Redirect zur Domain geo.captcha-delivery.com
HTTP-Antwort 403 oder 429 bei häufigen Anfragen von einer IP
JavaScript-Challenge beim ersten Besuch (Seite „Browserprüfung“)

DataDome arbeitet in Echtzeit: Jede eingehende Anfrage wird in Millisekunden analysiert. Das System trifft die Entscheidung — den Benutzer durchzulassen, CAPTCHA anzuzeigen oder zu blockieren — noch bevor der Server den Hauptinhalt der Seite ausliefert. Aus diesem Grund ist es schwieriger, es zu umgehen als einfache IP-Blockierungen.

Wie DataDome Bots erkennt: Schutzmechanismen

Um zu verstehen, welche Proxys funktionieren, müssen wir klären, was genau DataDome analysiert. Das System verwendet einen mehrstufigen Ansatz — kein einzelner Faktor ist das alleinige Kriterium für eine Blockierung. Die Entscheidung wird auf der Grundlage einer Kombination von Signalen getroffen.

1. Reputation der IP-Adresse

Das erste, was DataDome überprüft, ist die Reputation der IP-Adresse anhand externer und interner Datenbanken. Das System erkennt sofort, ob die IP zu einem Rechenzentrum (AWS, Google Cloud, Hetzner, DigitalOcean), einem VPN-Anbieter gehört oder eine echte Wohn-/Mobiladresse ist. IPs aus Rechenzentren erhalten automatisch einen hohen „Verdachtswert“, noch bevor das Verhalten analysiert wird.

2. Verhaltensanalyse

DataDome verfolgt Verhaltensmuster: Anfragespeed, Reihenfolge der Seitenbesuche, Zeit zwischen Klicks, Mausbewegungen (sofern JavaScript vorhanden ist). Ein echter Benutzer macht Pausen, navigiert auf logischen Routen und kehrt manchmal zurück. Ein Bot stellt normalerweise Anfragen mit konstanten Intervallen, an genau definierten URLs, ohne „zufällige“ Abweichungen.

3. JavaScript-Fingerprint

Wenn die Anfrage über einen Browser (oder einen headless-Browser wie Puppeteer/Playwright) erfolgt, führt DataDome ein JavaScript-Skript aus, das einen „Fingerprint“ der Umgebung sammelt: Browser-Version, installierte Schriftarten, Bildschirmauflösung, WebGL-Unterstützung, Canvas-Fingerprint, Vorhandensein von Plugins. Headless-Browser ohne zusätzliche Tarnung sind leicht an charakteristischen Parametern zu erkennen.

4. HTTP-Header

Die Header der Anfrage werden analysiert: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua und andere. Eine Diskrepanz zwischen dem angegebenen User-Agent und den tatsächlichen Anfrageparametern ist ein starkes Signal für einen Bot.

5. Echtzeit-Maschinenlernen

Alle gesammelten Signale werden von einem ML-Modell verarbeitet, das auf einem riesigen Datensatz von echten Benutzern und Bots trainiert wurde. Das Modell wird ständig aktualisiert — was vor einem Monat funktionierte, kann heute nicht mehr funktionieren. Aus diesem Grund veralten statische Lösungen schnell.

Warum Proxys aus Rechenzentren gegen DataDome nicht funktionieren

Dies ist die häufigste Frage von denen, die gerade erst anfangen, mit geschützten Websites zu arbeiten. Proxys aus Rechenzentren sind günstig, schnell und haben eine hohe Verfügbarkeit. Sie scheinen die ideale Wahl für das Scraping zu sein. Aber gegen DataDome sind sie praktisch nutzlos.

Der Grund ist einfach: DataDome führt und nutzt Datenbanken von ASN (autonomen Systemen) aller großen Hosting-Anbieter. Wenn eine Anfrage von einer IP-Adresse kommt, die beispielsweise zu einem Subnetz von Amazon Web Services oder OVH gehört, wird der IP sofort der Status „verdächtig“ zugewiesen. Selbst wenn Ihr Scraper das Verhalten eines Menschen perfekt imitiert — die IP aus dem Rechenzentrum bringt Sie bereits in Gefahr.

⚠️ Wichtig zu verstehen

Proxys aus Rechenzentren eignen sich hervorragend für Aufgaben, bei denen der Schutz schwach oder nicht vorhanden ist: Scraping von offenen Daten, Arbeiten mit APIs ohne Anti-Bot-Systeme, Geschwindigkeitstests. Aber für Websites mit DataDome führen sie in über 90% der Fälle bereits bei den ersten Dutzend Anfragen zu einer Blockierung.

Ein weiteres Problem sind „ausgebrannte“ IPs. Wenn Tausende von Benutzern vor Ihnen dieselbe IP-Adresse für Bot-Aktivitäten verwendet haben (und in Pools von günstigen Rechenzentren ist das normal), hat DataDome bereits eine negative Historie für diese Adresse. Selbst die erste Anfrage von einer solchen IP kann blockiert werden.

Residential Proxys: das Hauptwerkzeug zum Umgehen von DataDome

Residential Proxys sind IP-Adressen, die echten Haushaltsnutzern des Internets gehören. Sie werden von Internetanbietern (Ростелеком, Comcast, Deutsche Telekom usw.) vergeben und erscheinen aus der Sicht von DataDome wie gewöhnliche Menschen, die zu Hause am Computer sitzen.

Aus diesem Grund sind Residential Proxys das Hauptarbeitswerkzeug für das Scraping von Websites mit DataDome. Sie bestehen die erste Überprüfung der IP-Reputation, was Ihnen ein „Vertrauensguthaben“ für die weitere Arbeit gibt.

Was bei der Auswahl von Residential Proxys für DataDome zu beachten ist

Parameter	Was wichtig ist	Warum das kritisch ist
Rotationsart	Rotation bei jeder Anfrage oder Sitzung von 5-30 Minuten	DataDome verfolgt die IP-Historie — zu häufige Wechsel sind ebenfalls verdächtig
Geolokalisierung	IP aus dem Land der Zielwebsite	Anfrage aus einem anderen Land — zusätzliches Signal der Verdächtigkeit
Poolgröße	Millionen von IPs, nicht Tausende	Ein kleiner Pool „verbraucht“ sich schnell — DataDome merkt sich aktive Adressen
Sticky-Sitzungen	Möglichkeit, eine IP für 10-30 Minuten zu halten	Für mehrseitiges Scraping sollte eine Sitzung wie ein Benutzer aussehen
Geschwindigkeit	Mindestens 5-10 Mbit/s pro Verbindung	Langsame Proxys erhöhen die Anfragenzeit, was die Timings beeinflusst

Ein wichtiger Punkt: Residential Proxys garantieren nicht allein 100% Umgehung von DataDome. Sie lösen das Problem der IP-Reputation, aber wenn Ihr Scraper 100 Anfragen pro Minute von einer Adresse ausführt oder falsche Header sendet — wird DataDome Sie trotzdem blockieren. Die IP ist nur eine der Schutzebenen.

Mobile Proxys: wenn maximaler Trust erforderlich ist

Mobile Proxys sind IP-Adressen von Mobilfunkanbietern (4G/5G-Netze). Sie haben eine besondere Eigenschaft: Eine IP-Adresse eines Mobilfunkanbieters kann von Tausenden von echten Nutzern gleichzeitig über NAT verwendet werden. DataDome weiß das — und behandelt daher mobile IPs mit maximalem Vertrauen.

Eine mobile IP zu blockieren bedeutet, potenziell Tausende von echten Kunden des Anbieters zu blockieren — keine normale Website wird das tun. Daher bieten mobile Proxys den höchsten Prozentsatz erfolgreicher Anfragen an Websites mit DataDome.

Wann sollten Sie mobile Proxys anstelle von Residential Proxys wählen:

Die Website ist sehr aggressiv geschützt — Residential Proxys führen selbst bei niedriger Anfragefrequenz zu Blockierungen
Sie scrapen die mobile Version der Website — mobile IP + mobiler User-Agent wirken organisch
Arbeiten mit Anwendungen erforderlich — wenn Sie mobile APIs scrapen, entspricht die mobile IP logisch der Anfrage
Langfristige Sitzungen — mobile Proxys halten die Sitzung gut ohne IP-Wechsel

Der Nachteil von mobilen Proxys ist, dass sie teurer sind als Residential Proxys und normalerweise einen kleineren IP-Pool haben. Für großangelegtes Scraping mit Tausenden von Anfragen pro Stunde kann dies eine Einschränkung darstellen. In solchen Fällen ist die optimale Strategie, mobile Proxys für „Erkundungen“ und komplexe Seiten zu verwenden, während Residential Proxys für die Massen-Datensammlung eingesetzt werden.

Rotations- und Verzögerungsstrategie: wie man nicht auffällt, selbst mit guten Proxys

Selbst mit Residential oder mobilen Proxys kann man blockiert werden, wenn die Anfrage-Strategie nicht richtig aufgebaut ist. DataDome analysiert das Verhalten auf Sitzungsebene — und anomale Muster erregen Verdacht, unabhängig von der IP-Qualität.

Regeln für sicheres Scraping durch DataDome

✅ Checkliste für sicheres Scraping

Verzögerungen zwischen Anfragen: von 3 bis 15 Sekunden (zufällig, nicht fest)
Nicht mehr als 20-30 Anfragen von einer IP pro Sitzung
Sticky-Sitzung: Halten Sie eine IP für einen „Benutzerpfad“
Beginnen Sie mit der Hauptseite, dann zu den Ziel-URLs wechseln
Simulieren Sie echte Navigation: Hauptseite → Kategorie → Produkt
Verwenden Sie die Geolokalisierung des Proxys, die mit der Sprache der Website übereinstimmt
Ändern Sie die IP nach jeder Sitzung oder nach einer Blockierung
Starten Sie keine parallelen Anfragen von einer IP

Rotation: wann IP wechseln

Hier gibt es keine universelle Antwort — alles hängt von der spezifischen Website ab. Aber die allgemeine Logik ist: DataDome merkt sich die Aktivität der IP in einem gleitenden Zeitfenster (normalerweise 10-60 Minuten). Wenn in dieser Zeit von einer Adresse verdächtig viele Anfragen eingegangen sind — erhält die IP eine temporäre Sperre.

Die optimale Strategie ist, die IP nicht nach einem Timer, sondern nach der Anzahl der Anfragen zu rotieren. Zum Beispiel: 15-25 Anfragen → IP wechseln → Pause von 30-60 Sekunden → neue Sitzung. Dieser Ansatz simuliert das Verhalten verschiedener Benutzer, von denen jeder mehrere Seiten besucht hat und gegangen ist.

Header und Fingerprint: was DataDome neben IP noch überprüft

Gute Proxys sind eine notwendige, aber nicht ausreichende Bedingung, um DataDome zu umgehen. Das System analysiert die gesamte Anfrage. Wenn die IP residential ist, aber die Header einen Bot verraten — wird trotzdem eine Blockierung stattfinden.

Kritisch wichtige Header

Hier ist, was DataDome in den HTTP-Headern überprüft und worauf man achten sollte:

Header	Was überprüft wird	Typischer Fehler
`User-Agent`	Aktuelle Version des Browsers	Veralteter UA oder UA einer Python-Bibliothek
`Accept-Language`	Sprache stimmt mit der Geolokalisierung des Proxys überein	Proxy aus den USA, aber Sprache ru-RU
`sec-ch-ua`	Stimmt mit User-Agent überein	Fehlender Header bei angegebenem Chrome
`Referer`	Logische Kette von Übergängen	Direkte Anfrage an eine tiefere Seite ohne Referer
`Accept-Encoding`	Standard-Browser-Set	Fehlendes oder nicht standardmäßiges Set
`Cookie`	Speicherung der Sitzungscookies von DataDome	Ignorieren von Set-Cookie von DataDome

Besondere Aufmerksamkeit gilt den Cookies von DataDome. Bei der ersten Anfrage setzt das System sein Cookie (normalerweise genannt datadome). Wenn Ihr Scraper dieses Cookie nicht speichert und in nachfolgenden Anfragen nicht sendet — betrachtet DataDome jede Anfrage als ersten Besuch eines neuen Benutzers, was bei hoher Frequenz selbst verdächtig ist.

TLS-Fingerprint

Der fortschrittliche Schutz von DataDome analysiert auch den TLS-Fingerprint — die Eigenschaften des SSL/TLS-Handshakes. Verschiedene HTTP-Bibliotheken (requests, curl, axios) haben charakteristische Sets von Cipher Suites und TLS-Erweiterungen, die sich von Browsern unterscheiden. Wenn Sie die Standard-Python-Bibliothek requests verwenden — ist ihr TLS-Fingerprint leicht zu identifizieren. Die Lösung besteht darin, Bibliotheken zu verwenden, die das Browser-TLS imitieren (z. B. curl-impersonate oder spezialisierte Lösungen).

Werkzeuge für die Arbeit mit DataDome-Websites

Die richtige Wahl des Scraping-Tools ist ebenso wichtig wie die Wahl der Proxys. Verschiedene Aufgaben erfordern unterschiedliche Ansätze. Lassen Sie uns die Hauptoptionen aus der Perspektive der Kompatibilität mit DataDome betrachten.

Browserautomatisierung (Puppeteer, Playwright)

Headless-Browser sollten theoretisch gut mit DataDome funktionieren, da sie JavaScript ausführen und einen „echten“ Fingerabdruck erzeugen. In der Praxis werden Standard-Puppeteer oder Playwright jedoch leicht an charakteristischen Parametern erkannt: navigator.webdriver = true, fehlende Plugins, nicht standardmäßige Werte für WebGL. Um sie zu umgehen, ist zusätzliche Tarnung durch Plugins wie puppeteer-extra-plugin-stealth erforderlich.

Anti-Detect-Browser

Für Aufgaben, bei denen eine vollständige Interaktion mit der Website erforderlich ist (nicht nur Scraping, sondern auch Interaktion), sind Anti-Detect-Browser die optimale Wahl. Dolphin Anty, AdsPower, GoLogin und Multilogin erstellen vollständige Browserprofile mit realistischen Fingerabdrücken. In Kombination mit Residential oder mobilen Proxys bieten sie das höchste Maß an Umgehung von DataDome.

Das Verbindungsschema in einem Anti-Detect-Browser ist standardmäßig: Erstellen Sie ein Profil → Geben Sie in den Proxy-Einstellungen den Typ (HTTP/SOCKS5), Host, Port, Benutzername und Passwort des Proxy-Dienstes an → Starten Sie das Profil. Jedes Profil arbeitet in einer isolierten Umgebung mit einem einzigartigen Fingerabdruck.

Spezialisierte Scraping-Dienste

Es gibt fertige Dienste (ScrapingBee, Apify, Bright Data Scraping Browser), die die gesamte Arbeit zum Umgehen von Schutzmaßnahmen übernehmen — Sie geben einfach die URL ein und erhalten HTML zurück. Sie verwenden eigene Pools von Residential Proxys und lösen automatisch CAPTCHAs. Nachteil — hohe Kosten bei großen Volumina und weniger Kontrolle über den Prozess.

Vergleich der Ansätze

Werkzeug	Effektivität gegen DataDome	Einrichtungsaufwand	Skalierbarkeit
HTTP-Scraper + Residential Proxys	Mittel	Niedrig	Hoch
Puppeteer/Playwright + Stealth + Proxys	Hoch	Mittel	Mittel
Anti-Detect-Browser + Mobile Proxys	Sehr hoch	Niedrig	Niedrig
Fertige Scraping-Dienste	Hoch	Sehr niedrig	Hoch (teuer)
Proxys aus Rechenzentren (jedes Werkzeug)	Sehr niedrig	—	—

Praktisches Szenario: Preisüberwachung auf einer geschützten Website

Angenommen, Sie überwachen die Preise von Wettbewerbern auf einem ausländischen Marktplatz, der durch DataDome geschützt ist. Sie müssen Daten zu 5000 Produkten alle 6 Stunden sammeln. Hier ist das optimale Schema:

Werkzeug: Playwright mit Stealth-Plugin (löst automatisch JS-Challenges)
Proxys: Residential mit Rotation, Geolokalisierung — Land der Zielwebsite
Sitzung: Sticky für 15 Minuten, 20 Anfragen pro IP
Header: Aktueller Chrome User-Agent, korrekter Accept-Language
Cookies: Speicherung und Übertragung von DataDome-Cookies zwischen Anfragen einer Sitzung
Verzögerungen: Zufällige Verzögerungen von 4 bis 12 Sekunden zwischen Anfragen
Sitzungsstart: Immer mit der Hauptseite beginnen, dann zu den Produkten wechseln

Bei dieser Konfiguration beträgt die Erfolgsquote der Anfragen 85-95%, was für eine regelmäßige Überwachung völlig ausreichend ist. Die verbleibenden 5-15% sind Wiederholungsanfragen über eine andere IP.

Fazit und Empfehlungen

DataDome ist ein ernstzunehmendes Schutzsystem, aber nicht unüberwindbar. Der Schlüssel zum erfolgreichen Arbeiten mit Websites, die durch es geschützt sind, ist ein ganzheitlicher Ansatz: der richtige Typ von Proxys, korrekte Header, realistisches Verhalten und eine durchdachte Rotationsstrategie.

Die wichtigsten Schlussfolgerungen des Artikels:

Proxys aus Rechenzentren funktionieren gegen DataDome nicht — sie werden auf der Ebene der IP-Reputation blockiert
Residential Proxys sind das grundlegende Werkzeug für die meisten Scraping-Aufgaben
Mobile Proxys bieten maximalen Trust und eignen sich für aggressiv geschützte Websites
Gute Proxys sind nur ein Teil der Lösung: Header, Cookies und Verhalten sind ebenso wichtig
Anti-Detect-Browser in Kombination mit hochwertigen Proxys liefern die besten Ergebnisse
Die Rotations- und Verzögerungsstrategie ist entscheidend — selbst mit Residential Proxys kann man bei aggressivem Scraping gesperrt werden

Wenn Sie Preisüberwachungen, das Scraping von Produktkarten oder das Sammeln von Daten von Websites, die durch DataDome geschützt sind, durchführen, empfehlen wir, mit Residential Proxys zu beginnen — sie bieten das optimale Gleichgewicht zwischen der Qualität des Umgehens des Schutzes und den Kosten. Für Aufgaben, bei denen ein maximaler Vertrauensgrad von Anti-Bot-Systemen erforderlich ist, sollten Sie mobile Proxys in Betracht ziehen — insbesondere wenn Sie mit mobilen Versionen von Websites oder mobilen API-Anwendungen arbeiten.