Wie man den Amazon-Antibot umgeht: Proxys und Methoden zum Scraping

```html

Amazon ist einer der am besten geschützten Marktplätze der Welt. Sein Anti-Bot-System blockiert 90 % der Versuche, automatisierte Daten über Preise, Bestände und Positionen von Produkten zu sammeln. Für Verkäufer und Marketer ist dies ein kritisches Problem: Ohne aktuelle Daten der Wettbewerber ist es unmöglich, die Preisstrategie korrekt anzupassen und profitabel zu bleiben.

In diesem Leitfaden werden wir die technischen Mechanismen des Schutzes von Amazon untersuchen, bewährte Methoden zum Umgehen des Anti-Bots aufzeigen und ein Preismonitoringsystem einrichten, das monatelang stabil ohne Blockierungen funktioniert.

Warum Amazon das Scraping blockiert: Schutzmechanismen

Amazon verliert Millionen von Dollar durch Scraping: Wettbewerber kopieren Produktdaten, Preise, Bewertungen, und unredliche Verkäufer nutzen Automatisierung, um ihre Positionen zu manipulieren. Daher investiert das Unternehmen enorme Mittel in Anti-Bot-Systeme, die gleichzeitig auf mehreren Ebenen arbeiten.

Hauptkomponenten des Schutzes von Amazon:

AWS WAF (Web Application Firewall) — analysiert den eingehenden Datenverkehr und blockiert verdächtige IP-Adressen auf Netzwerkebene. Überwacht die Anfragefrequenz, Geografie und den Ruf der IP.
Cloudfront CDN — ein verteiltes Content Delivery Network mit eigenen Algorithmen zur Filterung von Bots. Überprüft die Header von Anfragen, Cookies und TLS-Fingerabdrücke des Browsers.
Bot Management System — nutzt maschinelles Lernen zur Analyse des Nutzerverhaltens. Überwacht Mausbewegungen, Scrollgeschwindigkeit und Klickmuster.
CAPTCHA und Challenge-Seiten — werden bei verdächtiger Aktivität angezeigt. Erfordern das Lösen eines Rätsels oder die Eingabe eines CAPTCHA zur Fortsetzung.
Rate Limiting — strenge Beschränkungen für die Anzahl der Anfragen von einer IP: normalerweise 10-20 Anfragen pro Minute für nicht angemeldete Nutzer.

All diese Systeme arbeiten zusammen und tauschen Daten aus. Wenn auch nur eines von ihnen einen Bot vermutet, wird die IP für 24-48 Stunden, manchmal sogar dauerhaft, auf die schwarze Liste gesetzt.

Wichtig: Amazon zeigt unterschiedliche Preise für verschiedene Regionen und Benutzerarten an. Eine Blockierung bedeutet nicht nur den Verlust des Zugangs, sondern auch den Erhalt veralteter Daten, was für die Überwachung von Wettbewerbern kritisch ist.

Wie Amazon Bots erkennt: 7 Hauptsignale

Das Anti-Bot-System von Amazon analysiert Dutzende von Parametern jeder Anfrage. Hier sind die Schlüsselzeichen, anhand derer es Automatisierung erkennt:

1. Ruf der IP-Adresse

Amazon führt eine Datenbank von IP-Adressen aus Rechenzentren, VPN-Diensten und öffentlichen Proxys. Anfragen von solchen Adressen erhalten erhöhte Aufmerksamkeit oder werden sofort blockiert. Das System verfolgt auch die Aktivitätsgeschichte: Wenn von einer IP zu viele Anfragen an Produktseiten gesendet werden, ist das verdächtig.

Was überprüft wird: Zugehörigkeit zu bekannten Rechenzentren (AWS, Google Cloud, DigitalOcean), Einträge in Datenbanken öffentlicher Proxys, Anzahl der Anfragen in der letzten Stunde, Geografie (Anfragen aus unerwarteten Ländern).

2. User-Agent und HTTP-Header

Viele Scraper verwenden Standard-User-Agent-Bibliotheken: python-requests/2.28.0 oder senden diesen Header überhaupt nicht. Amazon erkennt solche Anfragen sofort.

Verdächtige Anzeichen: Fehlen der Header Accept-Language, Accept-Encoding; Inkonsistenz zwischen User-Agent und anderen Headern (z.B. Chrome User-Agent, aber Header wie bei Firefox); Fehlen von Referer beim Wechsel zwischen Seiten; alte Versionen von Browsern.

3. TLS/SSL-Fingerabdrücke

Bei der Herstellung einer HTTPS-Verbindung sendet der Browser eine Reihe von Verschlüsselungsparametern (Cipher Suites, Extensions, TLS-Version). Diese Reihe ist für jeden Browser einzigartig. Bibliotheken wie requests oder curl haben Fingerabdrücke, die sich von echten Browsern unterscheiden — das sieht Amazon.

4. JavaScript und Canvas-Fingerprinting

Amazon lädt JavaScript-Code, der Informationen über den Browser sammelt: Bildschirmauflösung, installierte Schriftarten, unterstützte WebGL-Funktionen, Canvas-Parameter. Einfache HTTP-Clients führen kein JavaScript aus und geben sich sofort zu erkennen.

5. Cookies und Sitzungen

Amazon setzt viele Cookies beim ersten Besuch: session-id, ubid-main, x-main und andere. Das Fehlen dieser Cookies oder deren inkorrekte Werte sind Anzeichen für einen Bot. Das System überwacht auch die Lebensdauer der Sitzung: Ein echter Benutzer macht nicht 100 Anfragen in 30 Sekunden.

6. Verhaltensmuster

Ein echter Mensch öffnet die Startseite, sucht nach einem Produkt, wechselt zwischen Kategorien, liest Beschreibungen, kehrt zurück. Ein Bot fragt sofort spezifische Produkt-URLs in perfekter Reihenfolge ohne Verzögerungen an.

Verdächtige Muster: Anfragen nur an Produktseiten ohne Besuch der Startseite; perfekte Reihenfolge der URLs (product1, product2, product3...); Fehlen von Anfragen an statische Inhalte (Bilder, CSS, JS); gleiche Intervalle zwischen Anfragen.

7. Anfragefrequenz

Selbst bei perfekter Browseremulation wird eine zu hohe Anfragefrequenz einen Bot verraten. Amazon überwacht die Anzahl der Anfragen von einer IP pro Minute, Stunde und Tag. Überschreitungen der Limits (normalerweise 10-20 Anfragen/Minute für Gäste) führen zu Blockierungen.

Auswahl von Proxys zum Umgehen des Anti-Bots: Residential vs. Rechenzentren

Die richtige Wahl des Proxytyps ist 70 % des Erfolgs beim Umgehen des Schutzes von Amazon. Lassen Sie uns die drei Haupttypen und deren Anwendbarkeit für das Scraping des Marktplatzes untersuchen.

Proxytyp	Vertrauensniveau bei Amazon	Geschwindigkeit	Anwendung
Residential	Sehr hoch (echte IPs von Heimnutzern)	Mittel (50-150 ms)	Haupt-Scraping, hohe Volumen
Mobile	Maximal (IPs von Mobilfunkanbietern)	Niedrig (200-500 ms)	Umgehung strenger Blockierungen, Konten
Rechenzentren	Niedrig (Amazon kennt diese IPs)	Sehr hoch (10-30 ms)	Tests, einmalige Aufgaben

Residential Proxys — die optimale Wahl

Für stabiles Scraping von Amazon werden Residential Proxys empfohlen — sie verwenden IP-Adressen von echten Heimnutzern, die Amazon nicht massenhaft blockieren kann, ohne das Risiko einzugehen, echte Käufer zu blockieren.

Vorteile von Residential Proxys für Amazon:

IPs gehören Internetanbietern (Comcast, AT&T, Verizon in den USA) und nicht Rechenzentren
Niedriger Blockierungsanteil: weniger als 2 % bei richtiger Rotationskonfiguration
Möglichkeit der geografischen Auswahl: USA, UK, Deutschland und andere Länder für lokale Preise
Unterstützung von Sticky Sessions: eine IP kann 10-30 Minuten verwendet werden, um einen echten Benutzer zu simulieren

Wichtige Parameter bei der Auswahl von Residential Proxys:

Größe des IP-Pools: mindestens 1 Million Adressen für eine effektive Rotation
Geografie: Wählen Sie ein Land, in dem Amazon tätig ist (USA, Großbritannien, Deutschland, Japan usw.)
Rotationsart: Unterstützung von Sticky Sessions mit einer Lebensdauer von 10-30 Minuten
Protokoll: HTTP/HTTPS und SOCKS5 für die Kompatibilität mit verschiedenen Tools

Wann mobile Proxys verwenden

Mobile Proxys verwenden IPs von Mobilfunkanbietern (4G/5G). Amazon blockiert solche Adressen praktisch nie, da hinter einer IP Tausende von echten Nutzern aufgrund der CGNAT-Technologie stehen können.

Wann mobile Proxys wählen:

Arbeiten mit Amazon-Verkäuferkonten (Seller Central) — für sie ist die Stabilität der IP entscheidend
Umgehung strenger Blockierungen nach der Sperrung von Residential IPs
Scraping mit Authentifizierung (z.B. Preise für Prime-Abonnenten)
Kleine Datenmengen (bis zu 1000 Produkte pro Tag) — mobile Proxys sind teurer

Der Nachteil mobiler Proxys ist der hohe Preis und die geringere Geschwindigkeit aufgrund der Besonderheiten mobiler Netzwerke. Für das massenhafte Scraping von Tausenden von Produkten sind sie ineffektiv.

Warum Rechenzentren nicht geeignet sind

Rechenzentrumsproxys verwenden IPs von AWS-Servern, Google Cloud, DigitalOcean. Amazon erkennt solche Adressen sofort — sie befinden sich in den Datenbanken der ASN (autonomen Systeme) von Rechenzentren.

Probleme bei der Verwendung von Rechenzentren: Blockierung nach 5-10 Anfragen; ständige CAPTCHAs; Anzeige veralteter Preise oder leerer Seiten; permanente Sperrung der IP nach mehreren Versuchen.

Der einzige Fall, in dem Rechenzentren verwendet werden können, ist das Testen des Scrapers mit einer kleinen Anzahl von Produkten (10-20 Stück) vor dem Start mit Residential Proxys.

IP-Rotationsstrategie: Häufigkeit und Geografie

Selbst mit Residential Proxys führt eine falsche IP-Rotation zu Blockierungen. Amazon überwacht das Verhalten jeder Adresse und sperrt die, die zu viele Anfragen stellen oder sich verdächtig verhalten.

Optimale Rotationsfrequenz

Es gibt zwei Ansätze zur Rotation: nach jeder Anfrage (rotating proxies) und mit fester Lebensdauer (sticky sessions). Für Amazon ist die zweite Option effektiver.

Empfohlene Strategie für Sticky Sessions:

Lebensdauer der IP: 10-15 Minuten — optimaler Ausgleich zwischen der Simulation eines echten Benutzers und dem Risiko einer Blockierung
Anzahl der Anfragen pro IP: nicht mehr als 15-20 Anfragen während der Lebensdauer der Sitzung
Verzögerung zwischen Anfragen: 3-7 Sekunden (zufällig, nicht festgelegt!)
Simulation des Verhaltens: erste Anfrage — Startseite oder Kategorie, dann — Produktseiten

Beispiel für ein Szenario für eine IP: Öffnen von amazon.com → 5 Sekunden warten → Kategorie Elektronik öffnen → 4 Sekunden warten → Produkt 1 öffnen → 6 Sekunden warten → Produkt 2 öffnen → ... → nach 15 Anfragen IP wechseln.

Tipp für hohe Lasten:

Wenn Sie Tausende von Produkten pro Stunde scrapen müssen, verwenden Sie einen Pool von 50-100 gleichzeitigen Sitzungen mit unterschiedlichen IPs. Jede Sitzung macht 10-15 Anfragen mit Verzögerungen und wechselt dann die IP. Das ergibt 500-1500 Anfragen pro Stunde ohne Blockierungen.

Geografische Verteilung

Amazon zeigt unterschiedliche Preise, Sortimente und Lieferbedingungen je nach Standort des Benutzers an. Für eine korrekte Überwachung müssen Proxys aus dem gleichen Land verwendet werden, in dem der Zielmarktplatz tätig ist.

Übereinstimmung von Marktplätzen und Geolokalisierung von Proxys:

Amazon.com (USA): Verwenden Sie Proxys aus den USA, vorzugsweise aus verschiedenen Bundesstaaten für Vielfalt
Amazon.co.uk (Vereinigtes Königreich): Proxys aus dem UK
Amazon.de (Deutschland): Proxys aus Deutschland
Amazon.co.jp (Japan): Proxys aus Japan

Wichtig: Verwenden Sie keine Proxys aus anderen Ländern für das Scraping eines bestimmten Marktplatzes. Anfragen an Amazon.com von IPs aus Indien oder Russland erscheinen verdächtig und erhalten häufig CAPTCHAs.

Vermeiden Sie die Wiederverwendung von IPs

Selbst wenn die IP nicht blockiert ist, verwenden Sie sie nicht erneut innerhalb von 2-3 Stunden. Amazon merkt sich die Aktivitätsgeschichte jeder Adresse. Wenn dieselbe IP alle 15 Minuten über den Tag hinweg erscheint — das ist ein eindeutiges Zeichen für Automatisierung.

Rotationsregel: Der minimale Pool für einen stabilen Betrieb beträgt 500-1000 einzigartige IPs. Das sorgt für genügend Vielfalt, damit jede Adresse nicht häufiger als 1-2 Mal pro Tag verwendet wird.

Emulation eines echten Browsers: Header und Fingerabdrücke

Selbst mit Residential Proxys und richtiger Rotation wird der Scraper blockiert, wenn er keinen echten Browser emuliert. Amazon überprüft Dutzende von Parametern der HTTP-Anfragen und der JavaScript-Umgebung.

Korrekte HTTP-Header

Einfache HTTP-Clients (requests, curl, wget) senden einen minimalen Satz von Headern, der sofort einen Bot verrät. Es ist notwendig, die Header eines echten Browsers zu kopieren.

Verpflichtende Header für Amazon:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Cache-Control: max-age=0

Kritische Punkte:

User-Agent: Verwenden Sie die aktuelle Version von Chrome oder Firefox (alle 2-3 Monate überprüfen). Alte Versionen von Browsern sind verdächtig.
Accept-Language: muss zur Geografie des Proxys passen (en-US für die USA, en-GB für das UK, de-DE für Deutschland)
Sec-Fetch-* Header: sind in modernen Browsern aufgetaucht, ihr Fehlen ist ein Zeichen für einen alten Client
Referer: Beim Wechsel zwischen Seiten muss immer der Referer der vorherigen Seite gesendet werden

TLS-Fingerprinting und Umgehung

Amazon analysiert die Parameter der TLS-Verbindung: Protokollversion, Cipher-Suite, Erweiterungen. Standardbibliotheken (OpenSSL in Python requests) haben Fingerabdrücke, die sich von Browsern unterscheiden.

Lösung: Verwenden Sie Tools, die das TLS eines Browsers emulieren:

curl-impersonate: eine Version von curl, die die TLS-Fingerabdrücke von Chrome und Firefox kopiert
tls-client (Python): eine Bibliothek mit Unterstützung für Browser-Fingerprinting
Playwright/Puppeteer: echte Browser im Headless-Modus — perfekte Emulation, aber langsamer

JavaScript und Cookies

Amazon führt JavaScript-Code beim Laden der Seite aus, der Cookies setzt und Informationen über den Browser sammelt. Ohne die Ausführung dieses Codes erhalten Sie keine vollständigen Daten und geraten schnell unter Blockierung.

Verpflichtende Maßnahmen:

Verwenden Sie Tools mit JavaScript-Unterstützung: Selenium, Playwright, Puppeteer
Speichern Sie alle Cookies zwischen Anfragen innerhalb einer Sitzung
Warten Sie auf das vollständige Laden der Seite (DOMContentLoaded-Ereignis), bevor Sie Daten extrahieren
Simulieren Sie Benutzeraktionen: Scrollen, zufällige Pausen

Amazon setzt kritische Cookies: session-id, ubid-main, x-main. Ohne diese erhalten Sie ein CAPTCHA oder eine leere Seite.

Anfragegrenzen und Verzögerungen zwischen ihnen

Selbst die perfekte Emulation eines Browsers schützt nicht vor einer Sperrung, wenn zu viele Anfragen gestellt werden. Amazon begrenzt die Häufigkeit der Anfragen von einer IP streng.

Dokumentierte Limits von Amazon

Offizielle Daten zu den Limits gibt es nicht, aber basierend auf Tests der Community sind ungefähr folgende Werte bekannt:

Benutzertyp	Limit Anfragen/Minute	Limit Anfragen/Stunde
Nicht angemeldeter Benutzer	10-15	200-300
Angemeldeter Käufer	20-30	500-800
Amazon API (offiziell)	Ohne Limit	Hängt vom Tarif ab

Das Überschreiten der Limits führt zu CAPTCHAs, temporären Blockierungen (1-24 Stunden) oder permanenter Sperrung der IP bei systematischen Verstößen.

Optimale Verzögerungen zwischen Anfragen

Feste Intervalle (z.B. genau 5 Sekunden) verraten einen Bot. Ein echter Mensch macht Pausen unterschiedlicher Länge: er liest die Produktbeschreibung, vergleicht Preise, lässt sich ablenken.

Empfohlene Strategie für Verzögerungen:

Basisverzögerung: 3-7 Sekunden (zufälliger Wert aus dem Bereich)
Erste Anfrage in der Sitzung: 5-10 Sekunden (Simulation des Ladens der Startseite)
Nach einem Fehler oder CAPTCHA: 30-60 Sekunden vor dem Wiederholen
Zwischen IP-Wechsel: 2-3 Sekunden für das "Neuverbinden"

Beispiel für die Implementierung einer zufälligen Verzögerung: sleep(random.uniform(3, 7)) — jede Pause wird einzigartig sein.

Lastverteilung über die Zeit

Starten Sie das Scraping von Tausenden von Produkten nicht gleichzeitig um 00:00 Uhr. Amazon überwacht Aktivitätsspitzen. Verteilen Sie die Aufgabe über mehrere Stunden oder den ganzen Tag.

Beispiel: Sie müssen 5000 Produkte scrapen. Teilen Sie es in 10 Pakete mit je 500 Produkten auf, starten Sie jedes Paket mit einem Intervall von 1-2 Stunden. Das sieht aus wie organische Aktivität verschiedener Benutzer.

Fertige Tools für das Amazon-Scraping

Einen Scraper von Grund auf neu zu schreiben, ist schwierig und langwierig. Es gibt fertige Lösungen, die bereits das Umgehen des Anti-Bots, die Rotation von Proxys und die Emulation von Browsern implementieren.

1. Bright Data Web Scraper IDE

Ein cloudbasiertes Tool mit vorgefertigten Vorlagen für Amazon. Es erfordert keine Programmierung — Sie konfigurieren die Datenselektoren über eine visuelle Schnittstelle. Eingebaute Proxys und Umgehung von CAPTCHAs.

Vorteile: funktioniert sofort, automatische IP-Rotation, Unterstützung für JavaScript. Nachteile: teuer (500 $+ pro Monat), Abhängigkeit von einem externen Dienst.

2. Octoparse

Eine Desktop-Anwendung für Windows mit einem visuellen Parser-Builder. Es gibt eine Cloud-Version für den 24/7-Betrieb von Aufgaben. Unterstützt die Integration mit Proxys.

Proxy-Einstellungen in Octoparse: Einstellungen → Proxy-Einstellungen → Liste von Proxys im Format IP:PORT:USER:PASS hinzufügen → Rotation aktivieren.

Vorteile: kein Code erforderlich, benutzerfreundliche Schnittstelle, es gibt einen kostenlosen Plan. Nachteile: Einschränkungen bei der Anzahl der Seiten in der kostenlosen Version, Schwierigkeiten mit CAPTCHAs.

3. ScrapingBee API

API-Dienst für das Scraping mit automatischer Umgehung von Schutzmaßnahmen. Sie senden die URL und erhalten HTML zurück. Eingebaute Proxy-Rotation und Ausführung von JavaScript.

Beispiel für die Verwendung:

curl "https://app.scrapingbee.com/api/v1/?api_key=YOUR_KEY&url=https://www.amazon.com/dp/B08N5WRWNW&render_js=true&premium_proxy=true&country_code=us"

Vorteile: einfache Integration, keine eigenen Proxys erforderlich. Nachteile: kostenpflichtig (ab 49 $/Monat), Limits für die Anzahl der Anfragen.

4. Playwright + eigene Proxys (für Entwickler)

Wenn Sie programmieren können, ist die beste Option, Playwright (oder Puppeteer) mit Residential Proxys zu verwenden. Vollständige Kontrolle über den Prozess und minimale Kosten.

Beispiel für die Proxy-Einstellung in Playwright (Python):

from playwright.sync_api import sync_playwright
import random
import time

proxy_list = [
    {"server": "http://proxy1.example.com:8080", "username": "user", "password": "pass"},
    {"server": "http://proxy2.example.com:8080", "username": "user", "password": "pass"},
]

with sync_playwright() as p:
    proxy = random.choice(proxy_list)
    browser = p.chromium.launch(proxy=proxy, headless=True)
    context = browser.new_context(
        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
        locale="en-US",
        timezone_id="America/New_York"
    )
    page = context.new_page()
    
    # Erste Anfrage - Startseite
    page.goto("https://www.amazon.com")
    time.sleep(random.uniform(3, 5))
    
    # Anfrage für Produkt
    page.goto("https://www.amazon.com/dp/B08N5WRWNW")
    page.wait_for_load_state("networkidle")
    
    # Daten extrahieren
    title = page.locator("#productTitle").inner_text()
    price = page.locator(".a-price-whole").first.inner_text()
    
    print(f"Title: {title}, Price: ${price}")
    
    browser.close()

Vorteile: volle Kontrolle, günstiger als Cloud-Dienste, skalierbar. Nachteile: erfordert Programmierkenntnisse, CAPTCHAs müssen selbst bearbeitet werden.

Empfehlungen zur Auswahl des Tools

Ihre Situation	Empfohlenes Tool
Ich kann nicht programmieren, brauche 100-500 Produkte pro Tag	Octoparse + Residential Proxys
Ich muss eine Idee schnell testen, Budget vorhanden	ScrapingBee API
Ich kann programmieren, brauche Tausende von Produkten	Playwright/Puppeteer + Residential Proxys
Großes Budget, maximale Zuverlässigkeit erforderlich	Bright Data Web Scraper

Was tun bei Blockierungen: Diagnose und Lösungen

Selbst bei Einhaltung aller Regeln treten manchmal Blockierungen auf. Es ist wichtig, die Ursache zu verstehen und das Problem schnell zu beheben.

Arten von Blockierungen und deren Anzeichen

1. CAPTCHA (Statuscode 503 oder Weiterleitung auf /errors/validateCaptcha):

Ursache: Verdächtige Aktivität von der IP, aber keine vollständige Blockierung
Lösung: IP wechseln, Verzögerungen zwischen Anfragen erhöhen, Benutzeraktionen simulieren
Automatisierung: Verwenden Sie CAPTCHA-Lösungsdienste (2Captcha, Anti-Captcha) — dies verlangsamt jedoch das Scraping

2. IP-Blockierung (Code 403 oder leere Seite):

Ursache: IP wurde aufgrund von Überschreitung der Limits oder Verwendung von Rechenzentren auf die schwarze Liste gesetzt
Lösung: IP sofort wechseln, Proxytyp überprüfen (möglicherweise werden Rechenzentren anstelle von Residential Proxys verwendet)
Dauer: normalerweise 24-48 Stunden, manchmal dauerhaft

3. "Um automatisierten Zugriff auf Amazon-Daten zu besprechen, kontaktieren Sie bitte [email protected]":

Ursache: Amazon hat die Automatisierung eindeutig erkannt und bietet an, die offizielle API zu verwenden
Lösung: Browseremulation verbessern, TLS-Fingerabdruck überprüfen, Anfragefrequenz halbieren

Checkliste zur Diagnose von Problemen

Wenn Sie Blockierungen erhalten, überprüfen Sie der Reihe nach:

Proxytyp: Stellen Sie sicher, dass Sie Residential Proxys und keine Rechenzentren verwenden. Überprüfen können Sie dies auf whoer.net
Geografie: IP sollte aus dem gleichen Land stammen wie der Marktplatz (USA für .com, UK für .co.uk)
User-Agent: aktuelle Version von Chrome/Firefox (nicht älter als 3-4 Monate)
Cookies: Werden sie zwischen Anfragen innerhalb der Sitzung gespeichert?
JavaScript: Wird es ausgeführt? (Wenn Sie Playwright/Puppeteer verwenden — sollte es ausgeführt werden)
Anfragefrequenz: nicht mehr als 10-15 pro Minute von einer IP
Verzögerungen: zufällig, nicht festgelegt
IP-Rotation: Jede Adresse wird nicht häufiger als 1 Mal alle 2-3 Stunden verwendet

Notfallmaßnahmen bei massiven Blockierungen

Wenn die meisten Anfragen blockiert werden (mehr als 30 %):

Stoppen Sie das Scraping für 2-3 Stunden — lassen Sie Amazon "vergessen", dass Sie aktiv waren
Wechseln Sie den Proxy-Anbieter — möglicherweise ist der IP-Pool bereits kompromittiert
Reduzieren Sie die Last um das 3-5-fache — anstelle von 100 Anfragen pro Stunde machen Sie 20-30
Wechseln Sie zu mobilen Proxys — sie werden praktisch nicht blockiert, sind aber teurer
Fügen Sie mehr menschliche Simulation hinzu: zufällige Wechsel zwischen Kategorien, Produktsuche über die Suchleiste und nicht über direkte URLs

Achtung: Wenn Ihre IP dauerhaft gesperrt ist (Blockierung dauert länger als 72 Stunden), versuchen Sie nicht, sie erneut zu verwenden. Amazon hebt permanente Sperren selten auf. Wechseln Sie zu einem neuen Proxy-Pool.

Fazit

Das Umgehen des Amazon Anti-Bots ist eine komplexe Aufgabe, die die Kombination aus den richtigen Proxys, präziser Browseremulation und vernünftigen Anfragegrenzen erfordert. Die Schlüsselpunkte für erfolgreiches Scraping: Verwendung von Residential Proxys aus dem gleichen Land wie der Marktplatz; IP-Rotation alle 10-15 Minuten mit einem Limit von 15-20 Anfragen pro Sitzung; vollständige Emulation eines modernen Browsers mit korrekten Headern und Ausführung von JavaScript; zufällige Verzögerungen von 3-7 Sekunden zwischen Anfragen.

Bei Einhaltung dieser Regeln erreicht der Prozentsatz erfolgreicher Anfragen 95-98 %, und Blockierungen werden zur Seltenheit. Das Wichtigste ist, sich Zeit zu nehmen und das Verhalten eines echten Benutzers zu simulieren, anstatt zu versuchen, Tausende von Produkten in Minuten zu scrapen.

Für einen stabilen Betrieb mit Amazon empfehlen wir die Verwendung von Residential Proxys.

```

So umgehen Sie den Amazon Anti-Bot und erhalten echte Preise der Wettbewerber: Ein umfassender Leitfaden