Amazon ist einer der am besten geschützten Marktplätze der Welt. Sein Anti-Bot-System blockiert 90 % der Versuche, automatisierte Daten über Preise, Bestände und Positionen von Produkten zu sammeln. Für Verkäufer und Marketer ist dies ein kritisches Problem: Ohne aktuelle Daten der Wettbewerber ist es unmöglich, die Preisstrategie korrekt anzupassen und profitabel zu bleiben.
In diesem Leitfaden werden wir die technischen Mechanismen des Schutzes von Amazon untersuchen, bewährte Methoden zum Umgehen des Anti-Bots aufzeigen und ein Preismonitoringsystem einrichten, das monatelang stabil ohne Blockierungen funktioniert.
Warum Amazon das Scraping blockiert: Schutzmechanismen
Amazon verliert Millionen von Dollar durch Scraping: Wettbewerber kopieren Produktdaten, Preise, Bewertungen, und unredliche Verkäufer nutzen Automatisierung, um ihre Positionen zu manipulieren. Daher investiert das Unternehmen enorme Mittel in Anti-Bot-Systeme, die gleichzeitig auf mehreren Ebenen arbeiten.
Hauptkomponenten des Schutzes von Amazon:
- AWS WAF (Web Application Firewall) — analysiert den eingehenden Datenverkehr und blockiert verdächtige IP-Adressen auf Netzwerkebene. Überwacht die Anfragefrequenz, Geografie und den Ruf der IP.
- Cloudfront CDN — ein verteiltes Content Delivery Network mit eigenen Algorithmen zur Filterung von Bots. Überprüft die Header von Anfragen, Cookies und TLS-Fingerabdrücke des Browsers.
- Bot Management System — nutzt maschinelles Lernen zur Analyse des Nutzerverhaltens. Überwacht Mausbewegungen, Scrollgeschwindigkeit und Klickmuster.
- CAPTCHA und Challenge-Seiten — werden bei verdächtiger Aktivität angezeigt. Erfordern das Lösen eines Rätsels oder die Eingabe eines CAPTCHA zur Fortsetzung.
- Rate Limiting — strenge Beschränkungen für die Anzahl der Anfragen von einer IP: normalerweise 10-20 Anfragen pro Minute für nicht angemeldete Nutzer.
All diese Systeme arbeiten zusammen und tauschen Daten aus. Wenn auch nur eines von ihnen einen Bot vermutet, wird die IP für 24-48 Stunden, manchmal sogar dauerhaft, auf die schwarze Liste gesetzt.
Wichtig: Amazon zeigt unterschiedliche Preise für verschiedene Regionen und Benutzerarten an. Eine Blockierung bedeutet nicht nur den Verlust des Zugangs, sondern auch den Erhalt veralteter Daten, was für die Überwachung von Wettbewerbern kritisch ist.
Wie Amazon Bots erkennt: 7 Hauptsignale
Das Anti-Bot-System von Amazon analysiert Dutzende von Parametern jeder Anfrage. Hier sind die Schlüsselzeichen, anhand derer es Automatisierung erkennt:
1. Ruf der IP-Adresse
Amazon führt eine Datenbank von IP-Adressen aus Rechenzentren, VPN-Diensten und öffentlichen Proxys. Anfragen von solchen Adressen erhalten erhöhte Aufmerksamkeit oder werden sofort blockiert. Das System verfolgt auch die Aktivitätsgeschichte: Wenn von einer IP zu viele Anfragen an Produktseiten gesendet werden, ist das verdächtig.
Was überprüft wird: Zugehörigkeit zu bekannten Rechenzentren (AWS, Google Cloud, DigitalOcean), Einträge in Datenbanken öffentlicher Proxys, Anzahl der Anfragen in der letzten Stunde, Geografie (Anfragen aus unerwarteten Ländern).
2. User-Agent und HTTP-Header
Viele Scraper verwenden Standard-User-Agent-Bibliotheken: python-requests/2.28.0 oder senden diesen Header überhaupt nicht. Amazon erkennt solche Anfragen sofort.
Verdächtige Anzeichen: Fehlen der Header Accept-Language, Accept-Encoding; Inkonsistenz zwischen User-Agent und anderen Headern (z.B. Chrome User-Agent, aber Header wie bei Firefox); Fehlen von Referer beim Wechsel zwischen Seiten; alte Versionen von Browsern.
3. TLS/SSL-Fingerabdrücke
Bei der Herstellung einer HTTPS-Verbindung sendet der Browser eine Reihe von Verschlüsselungsparametern (Cipher Suites, Extensions, TLS-Version). Diese Reihe ist für jeden Browser einzigartig. Bibliotheken wie requests oder curl haben Fingerabdrücke, die sich von echten Browsern unterscheiden — das sieht Amazon.
4. JavaScript und Canvas-Fingerprinting
Amazon lädt JavaScript-Code, der Informationen über den Browser sammelt: Bildschirmauflösung, installierte Schriftarten, unterstützte WebGL-Funktionen, Canvas-Parameter. Einfache HTTP-Clients führen kein JavaScript aus und geben sich sofort zu erkennen.
5. Cookies und Sitzungen
Amazon setzt viele Cookies beim ersten Besuch: session-id, ubid-main, x-main und andere. Das Fehlen dieser Cookies oder deren inkorrekte Werte sind Anzeichen für einen Bot. Das System überwacht auch die Lebensdauer der Sitzung: Ein echter Benutzer macht nicht 100 Anfragen in 30 Sekunden.
6. Verhaltensmuster
Ein echter Mensch öffnet die Startseite, sucht nach einem Produkt, wechselt zwischen Kategorien, liest Beschreibungen, kehrt zurück. Ein Bot fragt sofort spezifische Produkt-URLs in perfekter Reihenfolge ohne Verzögerungen an.
Verdächtige Muster: Anfragen nur an Produktseiten ohne Besuch der Startseite; perfekte Reihenfolge der URLs (product1, product2, product3...); Fehlen von Anfragen an statische Inhalte (Bilder, CSS, JS); gleiche Intervalle zwischen Anfragen.
7. Anfragefrequenz
Selbst bei perfekter Browseremulation wird eine zu hohe Anfragefrequenz einen Bot verraten. Amazon überwacht die Anzahl der Anfragen von einer IP pro Minute, Stunde und Tag. Überschreitungen der Limits (normalerweise 10-20 Anfragen/Minute für Gäste) führen zu Blockierungen.
Auswahl von Proxys zum Umgehen des Anti-Bots: Residential vs. Rechenzentren
Die richtige Wahl des Proxytyps ist 70 % des Erfolgs beim Umgehen des Schutzes von Amazon. Lassen Sie uns die drei Haupttypen und deren Anwendbarkeit für das Scraping des Marktplatzes untersuchen.
| Proxytyp | Vertrauensniveau bei Amazon | Geschwindigkeit | Anwendung |
|---|---|---|---|
| Residential | Sehr hoch (echte IPs von Heimnutzern) | Mittel (50-150 ms) | Haupt-Scraping, hohe Volumen |
| Mobile | Maximal (IPs von Mobilfunkanbietern) | Niedrig (200-500 ms) | Umgehung strenger Blockierungen, Konten |
| Rechenzentren | Niedrig (Amazon kennt diese IPs) | Sehr hoch (10-30 ms) | Tests, einmalige Aufgaben |
Residential Proxys — die optimale Wahl
Für stabiles Scraping von Amazon werden Residential Proxys empfohlen — sie verwenden IP-Adressen von echten Heimnutzern, die Amazon nicht massenhaft blockieren kann, ohne das Risiko einzugehen, echte Käufer zu blockieren.
Vorteile von Residential Proxys für Amazon:
- IPs gehören Internetanbietern (Comcast, AT&T, Verizon in den USA) und nicht Rechenzentren
- Niedriger Blockierungsanteil: weniger als 2 % bei richtiger Rotationskonfiguration
- Möglichkeit der geografischen Auswahl: USA, UK, Deutschland und andere Länder für lokale Preise
- Unterstützung von Sticky Sessions: eine IP kann 10-30 Minuten verwendet werden, um einen echten Benutzer zu simulieren
Wichtige Parameter bei der Auswahl von Residential Proxys:
- Größe des IP-Pools: mindestens 1 Million Adressen für eine effektive Rotation
- Geografie: Wählen Sie ein Land, in dem Amazon tätig ist (USA, Großbritannien, Deutschland, Japan usw.)
- Rotationsart: Unterstützung von Sticky Sessions mit einer Lebensdauer von 10-30 Minuten
- Protokoll: HTTP/HTTPS und SOCKS5 für die Kompatibilität mit verschiedenen Tools
Wann mobile Proxys verwenden
Mobile Proxys verwenden IPs von Mobilfunkanbietern (4G/5G). Amazon blockiert solche Adressen praktisch nie, da hinter einer IP Tausende von echten Nutzern aufgrund der CGNAT-Technologie stehen können.
Wann mobile Proxys wählen:
- Arbeiten mit Amazon-Verkäuferkonten (Seller Central) — für sie ist die Stabilität der IP entscheidend
- Umgehung strenger Blockierungen nach der Sperrung von Residential IPs
- Scraping mit Authentifizierung (z.B. Preise für Prime-Abonnenten)
- Kleine Datenmengen (bis zu 1000 Produkte pro Tag) — mobile Proxys sind teurer
Der Nachteil mobiler Proxys ist der hohe Preis und die geringere Geschwindigkeit aufgrund der Besonderheiten mobiler Netzwerke. Für das massenhafte Scraping von Tausenden von Produkten sind sie ineffektiv.
Warum Rechenzentren nicht geeignet sind
Rechenzentrumsproxys verwenden IPs von AWS-Servern, Google Cloud, DigitalOcean. Amazon erkennt solche Adressen sofort — sie befinden sich in den Datenbanken der ASN (autonomen Systeme) von Rechenzentren.
Probleme bei der Verwendung von Rechenzentren: Blockierung nach 5-10 Anfragen; ständige CAPTCHAs; Anzeige veralteter Preise oder leerer Seiten; permanente Sperrung der IP nach mehreren Versuchen.
Der einzige Fall, in dem Rechenzentren verwendet werden können, ist das Testen des Scrapers mit einer kleinen Anzahl von Produkten (10-20 Stück) vor dem Start mit Residential Proxys.
IP-Rotationsstrategie: Häufigkeit und Geografie
Selbst mit Residential Proxys führt eine falsche IP-Rotation zu Blockierungen. Amazon überwacht das Verhalten jeder Adresse und sperrt die, die zu viele Anfragen stellen oder sich verdächtig verhalten.
Optimale Rotationsfrequenz
Es gibt zwei Ansätze zur Rotation: nach jeder Anfrage (rotating proxies) und mit fester Lebensdauer (sticky sessions). Für Amazon ist die zweite Option effektiver.
Empfohlene Strategie für Sticky Sessions:
- Lebensdauer der IP: 10-15 Minuten — optimaler Ausgleich zwischen der Simulation eines echten Benutzers und dem Risiko einer Blockierung
- Anzahl der Anfragen pro IP: nicht mehr als 15-20 Anfragen während der Lebensdauer der Sitzung
- Verzögerung zwischen Anfragen: 3-7 Sekunden (zufällig, nicht festgelegt!)
- Simulation des Verhaltens: erste Anfrage — Startseite oder Kategorie, dann — Produktseiten
Beispiel für ein Szenario für eine IP: Öffnen von amazon.com → 5 Sekunden warten → Kategorie Elektronik öffnen → 4 Sekunden warten → Produkt 1 öffnen → 6 Sekunden warten → Produkt 2 öffnen → ... → nach 15 Anfragen IP wechseln.
Tipp für hohe Lasten:
Wenn Sie Tausende von Produkten pro Stunde scrapen müssen, verwenden Sie einen Pool von 50-100 gleichzeitigen Sitzungen mit unterschiedlichen IPs. Jede Sitzung macht 10-15 Anfragen mit Verzögerungen und wechselt dann die IP. Das ergibt 500-1500 Anfragen pro Stunde ohne Blockierungen.
Geografische Verteilung
Amazon zeigt unterschiedliche Preise, Sortimente und Lieferbedingungen je nach Standort des Benutzers an. Für eine korrekte Überwachung müssen Proxys aus dem gleichen Land verwendet werden, in dem der Zielmarktplatz tätig ist.
Übereinstimmung von Marktplätzen und Geolokalisierung von Proxys:
- Amazon.com (USA): Verwenden Sie Proxys aus den USA, vorzugsweise aus verschiedenen Bundesstaaten für Vielfalt
- Amazon.co.uk (Vereinigtes Königreich): Proxys aus dem UK
- Amazon.de (Deutschland): Proxys aus Deutschland
- Amazon.co.jp (Japan): Proxys aus Japan
Wichtig: Verwenden Sie keine Proxys aus anderen Ländern für das Scraping eines bestimmten Marktplatzes. Anfragen an Amazon.com von IPs aus Indien oder Russland erscheinen verdächtig und erhalten häufig CAPTCHAs.
Vermeiden Sie die Wiederverwendung von IPs
Selbst wenn die IP nicht blockiert ist, verwenden Sie sie nicht erneut innerhalb von 2-3 Stunden. Amazon merkt sich die Aktivitätsgeschichte jeder Adresse. Wenn dieselbe IP alle 15 Minuten über den Tag hinweg erscheint — das ist ein eindeutiges Zeichen für Automatisierung.
Rotationsregel: Der minimale Pool für einen stabilen Betrieb beträgt 500-1000 einzigartige IPs. Das sorgt für genügend Vielfalt, damit jede Adresse nicht häufiger als 1-2 Mal pro Tag verwendet wird.
Emulation eines echten Browsers: Header und Fingerabdrücke
Selbst mit Residential Proxys und richtiger Rotation wird der Scraper blockiert, wenn er keinen echten Browser emuliert. Amazon überprüft Dutzende von Parametern der HTTP-Anfragen und der JavaScript-Umgebung.
Korrekte HTTP-Header
Einfache HTTP-Clients (requests, curl, wget) senden einen minimalen Satz von Headern, der sofort einen Bot verrät. Es ist notwendig, die Header eines echten Browsers zu kopieren.
Verpflichtende Header für Amazon:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8 Accept-Language: en-US,en;q=0.9 Accept-Encoding: gzip, deflate, br Connection: keep-alive Upgrade-Insecure-Requests: 1 Sec-Fetch-Dest: document Sec-Fetch-Mode: navigate Sec-Fetch-Site: none Sec-Fetch-User: ?1 Cache-Control: max-age=0
Kritische Punkte:
- User-Agent: Verwenden Sie die aktuelle Version von Chrome oder Firefox (alle 2-3 Monate überprüfen). Alte Versionen von Browsern sind verdächtig.
- Accept-Language: muss zur Geografie des Proxys passen (en-US für die USA, en-GB für das UK, de-DE für Deutschland)
- Sec-Fetch-* Header: sind in modernen Browsern aufgetaucht, ihr Fehlen ist ein Zeichen für einen alten Client
- Referer: Beim Wechsel zwischen Seiten muss immer der Referer der vorherigen Seite gesendet werden
TLS-Fingerprinting und Umgehung
Amazon analysiert die Parameter der TLS-Verbindung: Protokollversion, Cipher-Suite, Erweiterungen. Standardbibliotheken (OpenSSL in Python requests) haben Fingerabdrücke, die sich von Browsern unterscheiden.
Lösung: Verwenden Sie Tools, die das TLS eines Browsers emulieren:
- curl-impersonate: eine Version von curl, die die TLS-Fingerabdrücke von Chrome und Firefox kopiert
- tls-client (Python): eine Bibliothek mit Unterstützung für Browser-Fingerprinting
- Playwright/Puppeteer: echte Browser im Headless-Modus — perfekte Emulation, aber langsamer
JavaScript und Cookies
Amazon führt JavaScript-Code beim Laden der Seite aus, der Cookies setzt und Informationen über den Browser sammelt. Ohne die Ausführung dieses Codes erhalten Sie keine vollständigen Daten und geraten schnell unter Blockierung.
Verpflichtende Maßnahmen:
- Verwenden Sie Tools mit JavaScript-Unterstützung: Selenium, Playwright, Puppeteer
- Speichern Sie alle Cookies zwischen Anfragen innerhalb einer Sitzung
- Warten Sie auf das vollständige Laden der Seite (DOMContentLoaded-Ereignis), bevor Sie Daten extrahieren
- Simulieren Sie Benutzeraktionen: Scrollen, zufällige Pausen
Amazon setzt kritische Cookies: session-id, ubid-main, x-main. Ohne diese erhalten Sie ein CAPTCHA oder eine leere Seite.
Anfragegrenzen und Verzögerungen zwischen ihnen
Selbst die perfekte Emulation eines Browsers schützt nicht vor einer Sperrung, wenn zu viele Anfragen gestellt werden. Amazon begrenzt die Häufigkeit der Anfragen von einer IP streng.
Dokumentierte Limits von Amazon
Offizielle Daten zu den Limits gibt es nicht, aber basierend auf Tests der Community sind ungefähr folgende Werte bekannt:
| Benutzertyp | Limit Anfragen/Minute | Limit Anfragen/Stunde |
|---|---|---|
| Nicht angemeldeter Benutzer | 10-15 | 200-300 |
| Angemeldeter Käufer | 20-30 | 500-800 |
| Amazon API (offiziell) | Ohne Limit | Hängt vom Tarif ab |
Das Überschreiten der Limits führt zu CAPTCHAs, temporären Blockierungen (1-24 Stunden) oder permanenter Sperrung der IP bei systematischen Verstößen.
Optimale Verzögerungen zwischen Anfragen
Feste Intervalle (z.B. genau 5 Sekunden) verraten einen Bot. Ein echter Mensch macht Pausen unterschiedlicher Länge: er liest die Produktbeschreibung, vergleicht Preise, lässt sich ablenken.
Empfohlene Strategie für Verzögerungen:
- Basisverzögerung: 3-7 Sekunden (zufälliger Wert aus dem Bereich)
- Erste Anfrage in der Sitzung: 5-10 Sekunden (Simulation des Ladens der Startseite)
- Nach einem Fehler oder CAPTCHA: 30-60 Sekunden vor dem Wiederholen
- Zwischen IP-Wechsel: 2-3 Sekunden für das "Neuverbinden"
Beispiel für die Implementierung einer zufälligen Verzögerung: sleep(random.uniform(3, 7)) — jede Pause wird einzigartig sein.
Lastverteilung über die Zeit
Starten Sie das Scraping von Tausenden von Produkten nicht gleichzeitig um 00:00 Uhr. Amazon überwacht Aktivitätsspitzen. Verteilen Sie die Aufgabe über mehrere Stunden oder den ganzen Tag.
Beispiel: Sie müssen 5000 Produkte scrapen. Teilen Sie es in 10 Pakete mit je 500 Produkten auf, starten Sie jedes Paket mit einem Intervall von 1-2 Stunden. Das sieht aus wie organische Aktivität verschiedener Benutzer.
Fertige Tools für das Amazon-Scraping
Einen Scraper von Grund auf neu zu schreiben, ist schwierig und langwierig. Es gibt fertige Lösungen, die bereits das Umgehen des Anti-Bots, die Rotation von Proxys und die Emulation von Browsern implementieren.
1. Bright Data Web Scraper IDE
Ein cloudbasiertes Tool mit vorgefertigten Vorlagen für Amazon. Es erfordert keine Programmierung — Sie konfigurieren die Datenselektoren über eine visuelle Schnittstelle. Eingebaute Proxys und Umgehung von CAPTCHAs.
Vorteile: funktioniert sofort, automatische IP-Rotation, Unterstützung für JavaScript. Nachteile: teuer (500 $+ pro Monat), Abhängigkeit von einem externen Dienst.
2. Octoparse
Eine Desktop-Anwendung für Windows mit einem visuellen Parser-Builder. Es gibt eine Cloud-Version für den 24/7-Betrieb von Aufgaben. Unterstützt die Integration mit Proxys.
Proxy-Einstellungen in Octoparse: Einstellungen → Proxy-Einstellungen → Liste von Proxys im Format IP:PORT:USER:PASS hinzufügen → Rotation aktivieren.
Vorteile: kein Code erforderlich, benutzerfreundliche Schnittstelle, es gibt einen kostenlosen Plan. Nachteile: Einschränkungen bei der Anzahl der Seiten in der kostenlosen Version, Schwierigkeiten mit CAPTCHAs.
3. ScrapingBee API
API-Dienst für das Scraping mit automatischer Umgehung von Schutzmaßnahmen. Sie senden die URL und erhalten HTML zurück. Eingebaute Proxy-Rotation und Ausführung von JavaScript.
Beispiel für die Verwendung:
curl "https://app.scrapingbee.com/api/v1/?api_key=YOUR_KEY&url=https://www.amazon.com/dp/B08N5WRWNW&render_js=true&premium_proxy=true&country_code=us"
Vorteile: einfache Integration, keine eigenen Proxys erforderlich. Nachteile: kostenpflichtig (ab 49 $/Monat), Limits für die Anzahl der Anfragen.
4. Playwright + eigene Proxys (für Entwickler)
Wenn Sie programmieren können, ist die beste Option, Playwright (oder Puppeteer) mit Residential Proxys zu verwenden. Vollständige Kontrolle über den Prozess und minimale Kosten.
Beispiel für die Proxy-Einstellung in Playwright (Python):
from playwright.sync_api import sync_playwright
import random
import time
proxy_list = [
{"server": "http://proxy1.example.com:8080", "username": "user", "password": "pass"},
{"server": "http://proxy2.example.com:8080", "username": "user", "password": "pass"},
]
with sync_playwright() as p:
proxy = random.choice(proxy_list)
browser = p.chromium.launch(proxy=proxy, headless=True)
context = browser.new_context(
user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
locale="en-US",
timezone_id="America/New_York"
)
page = context.new_page()
# Erste Anfrage - Startseite
page.goto("https://www.amazon.com")
time.sleep(random.uniform(3, 5))
# Anfrage für Produkt
page.goto("https://www.amazon.com/dp/B08N5WRWNW")
page.wait_for_load_state("networkidle")
# Daten extrahieren
title = page.locator("#productTitle").inner_text()
price = page.locator(".a-price-whole").first.inner_text()
print(f"Title: {title}, Price: ${price}")
browser.close()
Vorteile: volle Kontrolle, günstiger als Cloud-Dienste, skalierbar. Nachteile: erfordert Programmierkenntnisse, CAPTCHAs müssen selbst bearbeitet werden.
Empfehlungen zur Auswahl des Tools
| Ihre Situation | Empfohlenes Tool |
|---|---|
| Ich kann nicht programmieren, brauche 100-500 Produkte pro Tag | Octoparse + Residential Proxys |
| Ich muss eine Idee schnell testen, Budget vorhanden | ScrapingBee API |
| Ich kann programmieren, brauche Tausende von Produkten | Playwright/Puppeteer + Residential Proxys |
| Großes Budget, maximale Zuverlässigkeit erforderlich | Bright Data Web Scraper |
Was tun bei Blockierungen: Diagnose und Lösungen
Selbst bei Einhaltung aller Regeln treten manchmal Blockierungen auf. Es ist wichtig, die Ursache zu verstehen und das Problem schnell zu beheben.
Arten von Blockierungen und deren Anzeichen
1. CAPTCHA (Statuscode 503 oder Weiterleitung auf /errors/validateCaptcha):
- Ursache: Verdächtige Aktivität von der IP, aber keine vollständige Blockierung
- Lösung: IP wechseln, Verzögerungen zwischen Anfragen erhöhen, Benutzeraktionen simulieren
- Automatisierung: Verwenden Sie CAPTCHA-Lösungsdienste (2Captcha, Anti-Captcha) — dies verlangsamt jedoch das Scraping
2. IP-Blockierung (Code 403 oder leere Seite):
- Ursache: IP wurde aufgrund von Überschreitung der Limits oder Verwendung von Rechenzentren auf die schwarze Liste gesetzt
- Lösung: IP sofort wechseln, Proxytyp überprüfen (möglicherweise werden Rechenzentren anstelle von Residential Proxys verwendet)
- Dauer: normalerweise 24-48 Stunden, manchmal dauerhaft
3. "Um automatisierten Zugriff auf Amazon-Daten zu besprechen, kontaktieren Sie bitte api-services-support@amazon.com":
- Ursache: Amazon hat die Automatisierung eindeutig erkannt und bietet an, die offizielle API zu verwenden
- Lösung: Browseremulation verbessern, TLS-Fingerabdruck überprüfen, Anfragefrequenz halbieren
Checkliste zur Diagnose von Problemen
Wenn Sie Blockierungen erhalten, überprüfen Sie der Reihe nach:
- Proxytyp: Stellen Sie sicher, dass Sie Residential Proxys und keine Rechenzentren verwenden. Überprüfen können Sie dies auf whoer.net
- Geografie: IP sollte aus dem gleichen Land stammen wie der Marktplatz (USA für .com, UK für .co.uk)
- User-Agent: aktuelle Version von Chrome/Firefox (nicht älter als 3-4 Monate)
- Cookies: Werden sie zwischen Anfragen innerhalb der Sitzung gespeichert?
- JavaScript: Wird es ausgeführt? (Wenn Sie Playwright/Puppeteer verwenden — sollte es ausgeführt werden)
- Anfragefrequenz: nicht mehr als 10-15 pro Minute von einer IP
- Verzögerungen: zufällig, nicht festgelegt
- IP-Rotation: Jede Adresse wird nicht häufiger als 1 Mal alle 2-3 Stunden verwendet
Notfallmaßnahmen bei massiven Blockierungen
Wenn die meisten Anfragen blockiert werden (mehr als 30 %):
- Stoppen Sie das Scraping für 2-3 Stunden — lassen Sie Amazon "vergessen", dass Sie aktiv waren
- Wechseln Sie den Proxy-Anbieter — möglicherweise ist der IP-Pool bereits kompromittiert
- Reduzieren Sie die Last um das 3-5-fache — anstelle von 100 Anfragen pro Stunde machen Sie 20-30
- Wechseln Sie zu mobilen Proxys — sie werden praktisch nicht blockiert, sind aber teurer
- Fügen Sie mehr menschliche Simulation hinzu: zufällige Wechsel zwischen Kategorien, Produktsuche über die Suchleiste und nicht über direkte URLs
Achtung: Wenn Ihre IP dauerhaft gesperrt ist (Blockierung dauert länger als 72 Stunden), versuchen Sie nicht, sie erneut zu verwenden. Amazon hebt permanente Sperren selten auf. Wechseln Sie zu einem neuen Proxy-Pool.
Fazit
Das Umgehen des Amazon Anti-Bots ist eine komplexe Aufgabe, die die Kombination aus den richtigen Proxys, präziser Browseremulation und vernünftigen Anfragegrenzen erfordert. Die Schlüsselpunkte für erfolgreiches Scraping: Verwendung von Residential Proxys aus dem gleichen Land wie der Marktplatz; IP-Rotation alle 10-15 Minuten mit einem Limit von 15-20 Anfragen pro Sitzung; vollständige Emulation eines modernen Browsers mit korrekten Headern und Ausführung von JavaScript; zufällige Verzögerungen von 3-7 Sekunden zwischen Anfragen.
Bei Einhaltung dieser Regeln erreicht der Prozentsatz erfolgreicher Anfragen 95-98 %, und Blockierungen werden zur Seltenheit. Das Wichtigste ist, sich Zeit zu nehmen und das Verhalten eines echten Benutzers zu simulieren, anstatt zu versuchen, Tausende von Produkten in Minuten zu scrapen.
Für einen stabilen Betrieb mit Amazon empfehlen wir die Verwendung von Residential Proxys.