Proxys zum Parsen von Produkten: So sammeln Sie Daten ohne Sperrungen.

```html

Das Parsen von Produkteigenschaften von Marktplätzen ist eine kritische Aufgabe für Verkäufer, Analysten und Preisaggregatoren. Wildberries, Ozon, Yandex.Market und andere Plattformen blockieren aktiv das automatische Sammeln von Daten, indem sie fortschrittliche Anti-Bot-Systeme einsetzen. Ohne richtig konfigurierte Proxys wird Ihr Parser bereits nach 50-100 Anfragen gesperrt. In diesem Artikel werden wir besprechen, welche Proxy-Typen sich für das Parsen eignen, wie man die IP-Rotation einrichtet und wie man den Schutz der größten Marktplätze umgeht.

Warum Marktplätze das Parsen blockieren und wie es funktioniert

Moderne Marktplätze verlieren Millionen von Rubel aufgrund des Parsens: Wettbewerber kopieren Produktbeschreibungen, Aggregatoren fangen den Traffic ab, und die Serverlast steigt. Daher haben Wildberries, Ozon, Yandex.Market und andere Plattformen mehrstufigen Schutz gegen das automatische Sammeln von Daten implementiert.

Wie Marktplätze das Parsen erkennen:

Häufigkeit der Anfragen von einer IP — Wenn von einer Adresse 100+ Anfragen pro Minute kommen, ist das ein eindeutiges Zeichen für einen Bot. Ein normaler Benutzer sieht in dieser Zeit 5-10 Produktkarten an.
Fehlender JavaScript — Einfache Parser, die auf requests oder curl basieren, führen keinen JS-Code aus, der Preise und Eigenschaften lädt. Die Website erkennt, dass der Inhalt ohne Rendering angefordert wird.
User-Agent und Header — Standard-Header von Bibliotheken (z.B. "python-requests/2.28.0") verraten sofort den Bot. Das Fehlen der Header Accept-Language, Referer ist ebenfalls verdächtig.
Browser-Fingerabdruck — Fortgeschrittene Systeme (Cloudflare, Kasada, DataDome) analysieren Canvas, WebGL, Schriftarten, Browsererweiterungen. Headless-Browser wie Puppeteer werden leicht durch das Fehlen bestimmter Parameter erkannt.
Verhaltensmuster — Ein Bot öffnet Produktkarten mit konstantem Intervall (z.B. genau alle 2 Sekunden), scrollt nicht auf der Seite und bewegt die Maus nicht. Das unterscheidet ihn von einem lebenden Menschen.

Folgen der Blockierung: Temporäre IP-Sperre von 1-24 Stunden, CAPTCHA bei jeder Anfrage, vollständige Blockierung des IP-Bereichs des Rechenzentrums. Für Unternehmen bedeutet dies einen Stopp des Datensammelns und den Verlust des Wettbewerbsvorteils.

Echter Fall: Ein Preisaggregator hat Wildberries mit 10 IPs aus einem Rechenzentrum geparst und 500 Anfragen pro Stunde von jeder gemacht. Nach 3 Tagen erhielt der gesamte /24-Bereich eine permanente Sperre — es musste ein neuer Proxy-Anbieter gefunden und auf Residential IPs mit Rotation umgestiegen werden.

Vergleich von Proxy-Typen für das Parsen von Produkten

Für das Parsen von Produkteigenschaften werden drei Haupttypen von Proxys verwendet. Jeder hat seine Vorteile und Einschränkungen, abhängig vom Datenvolumen, Budget und Geschwindigkeitsanforderungen.

Proxy-Typ	Geschwindigkeit	Sperrrisiko	Kosten	Wann verwenden
Rechenzentrums-Proxys	Hoch (50-200 ms)	Hoch	Niedrig	Parsen kleiner Volumen (bis zu 10.000 Produkte/Tag), Testen des Parsers
Residential Proxys	Mittel (200-800 ms)	Niedrig	Hoch (nach Traffic)	Parsen von Wildberries, Ozon mit Bot-Schutz, große Datenmengen
Mobile Proxys	Mittel (300-1000 ms)	Sehr niedrig	Sehr hoch	Parsen mit maximalem Schutz, Umgehung strenger Sperren, kritische Projekte

Rechenzentrums-Proxys sind IP-Adressen von Servern in Rechenzentren (AWS, Hetzner, OVH). Sie sind schnell und günstig, aber Marktplätze erkennen sie leicht anhand von ASN-Datenbanken. Sie eignen sich für das Parsen kleiner Kataloge (bis zu 10.000 Produkte pro Tag) oder Plattformen ohne ernsthaften Schutz. Kosten: ab 1-3$ pro IP und Monat.

Residential Proxys sind IP-Adressen von Haushaltsbenutzern, die legal über SDK in Anwendungen erhalten werden. Marktplätze betrachten sie als normale Käufer. Ideal für das Parsen von Wildberries, Ozon, Yandex.Market in großen Mengen. Kosten: ab 5-15$ für 1 GB Traffic (ca. 10.000-30.000 Anfragen).

Mobile Proxys sind IP-Adressen von Mobilfunkanbietern (MTS, Beeline, Megafon). Der zuverlässigste Typ zur Umgehung von Schutzmaßnahmen, aber teuer und langsam. Verwenden Sie sie nur für kritische Aufgaben, bei denen eine Sperrung nicht akzeptabel ist. Kosten: ab 50-150$ pro IP und Monat mit Rotation.

Residential oder Rechenzentren: Was für Ihre Aufgabe wählen?

Die Wahl des Proxy-Typs hängt von drei Faktoren ab: dem Volumen des Parsens, dem Schutzlevel der Plattform und dem Budget. Lassen Sie uns konkrete Nutzungsszenarien untersuchen.

Wann Rechenzentrums-Proxys geeignet sind

Szenario 1: Testen des Parsers
Sie entwickeln einen neuen Parser und überprüfen die Logik der Datenauswertung. Sie müssen 100-500 Produkte zum Debuggen parsen. In diesem Fall sind Residential Proxys eine überflüssige Geldverschwendung. Nehmen Sie 5-10 IPs aus einem Rechenzentrum und machen Sie 50-100 Anfragen pro Stunde von jeder. Das reicht für Tests ohne Sperren.

Szenario 2: Parsen von Plattformen ohne Schutz
Kleine regionale Marktplätze, Kleinanzeigen wie Avito (in einigen Kategorien), Online-Shops auf OpenCart haben oft kein ernsthaftes Anti-Bot-System. Hier funktionieren Rechenzentren stabil bei moderater Last (bis zu 200 Anfragen pro Stunde von einer IP).

Szenario 3: Begrenztes Budget und kleine Volumen
Wenn Sie 5.000-10.000 Produkte pro Tag parsen müssen und das Budget begrenzt ist, versuchen Sie Rechenzentren mit aggressiver Rotation (IP-Wechsel alle 50-100 Anfragen). Ja, es wird mehr Sperren geben, aber bei richtiger Konfiguration der Retry-Logik (Wiederholung der Anfrage mit neuer IP) funktioniert das.

Wann Residential Proxys benötigt werden

Szenario 1: Parsen von Wildberries und Ozon
Diese Plattformen verwenden Cloudflare, DataDome und eigene Anti-Bot-Systeme. Von Rechenzentren erhalten Sie CAPTCHA oder eine Sperre nach 20-50 Anfragen. Residential Proxys mit Rotation alle 5-10 Minuten ermöglichen das Parsen von Hunderttausenden von Produkten ohne Probleme. Ein Kunde hat den gesamten Katalog von Wildberries (20+ Millionen Produkte) in einer Woche geparst, indem er einen Pool von 1.000 Residential IPs verwendet hat.

Szenario 2: Parsen mit Authentifizierung
Einige Produkteigenschaften (Großhandelspreise, Lagerbestände) sind nur für authentifizierte Benutzer verfügbar. Wenn Sie über ein Konto parsen, führt die Verwendung von Rechenzentren zur Sperrung des Kontos. Residential Proxys simulieren die Aktionen eines echten Benutzers und reduzieren das Risiko einer Sperrung.

Szenario 3: Geotargeting
Preise und Verfügbarkeit von Produkten auf Wildberries, Ozon, Yandex.Market hängen von der Region des Benutzers ab. Um Daten für Moskau, St. Petersburg, Jekaterinburg gleichzeitig zu sammeln, sind Residential Proxys mit Stadtauswahl erforderlich. Rechenzentren erlauben keine genaue Kontrolle über die Geolokalisierung.

Formel zur Auswahl des Proxy-Typs:

Volumen < 10.000 Produkte/Tag + kein strenger Schutz = Rechenzentren
Volumen > 10.000 Produkte/Tag + Wildberries/Ozon = Residential
Parsen mit Authentifizierung + Risiko der Kontosperrung = Residential
Geotargeting nach Städten in Russland erforderlich = Residential
Kritisches Projekt + null Toleranz gegenüber Sperren = Mobile

Einrichtung der IP-Rotation: Intervalle und Strategien

Die IP-Rotation ist der automatische Wechsel des Proxy-Servers nach einer bestimmten Anzahl von Anfragen oder Zeit. Die richtige Konfiguration der Rotation ist der Schlüssel zu stabilem Parsen ohne Sperren.

Typen der Proxy-Rotation

1. Zeitbasierte Rotation (Time-based rotation)
Die IP ändert sich nach einem festen Intervall: 5 Minuten, 10 Minuten, 30 Minuten. Dies ist die einfachste Methode, aber nicht die effektivste. Wenn Sie 200 Anfragen in 5 Minuten machen und das Limit der Plattform 100 Anfragen pro IP beträgt, erhalten Sie trotzdem eine Sperre.

Wann verwenden: Für Residential Proxys mit niedriger Last (bis zu 50 Anfragen pro IP). Zum Beispiel, das Parsen von Wildberries mit einem Intervall von 3-5 Sekunden zwischen den Anfragen — eine Rotation alle 10 Minuten wäre optimal.

2. Anfragebasierte Rotation (Request-based rotation)
Die IP ändert sich nach N Anfragen: 50, 100, 200. Dies ist genauer als die zeitbasierte Rotation, erfordert jedoch die Verfolgung des Anfragezählers im Parser-Code.

Wann verwenden: Für Rechenzentren und aggressives Parsen. Wenn Sie wissen, dass Ozon nach 80 Anfragen von einer IP blockiert — stellen Sie die Rotation auf alle 70 Anfragen mit Puffer ein.

3. Rotation pro Anfrage (Per-request rotation)
Jede Anfrage erfolgt über eine neue IP. Maximale Schutzmaßnahme gegen Sperren, aber die teuerste Strategie für Residential Proxys (Trafficverbrauch steigt durch neue Verbindungen).

Wann verwenden: Für die Umgehung der strengsten Schutzmaßnahmen (Cloudflare im "Under Attack"-Modus), Parsen mit hohem Risiko der Kontosperrung, Datensammlung von Wettbewerbern, die das Parsen überwachen.

Empfohlene Rotationsintervalle für beliebte Plattformen

Plattform	Proxy-Typ	Rotationsintervall	Verzögerung zwischen Anfragen
Wildberries	Residential	Alle 5-10 Minuten oder 50 Anfragen	2-4 Sekunden
Ozon	Residential	Alle 7-12 Minuten oder 60 Anfragen	3-5 Sekunden
Yandex.Market	Residential	Alle 10-15 Minuten oder 80 Anfragen	2-3 Sekunden
Avito (Kategorie Produkte)	Rechenzentren	Alle 15-20 Minuten oder 100 Anfragen	1-2 Sekunden
AliExpress	Residential	Alle 3-5 Minuten oder 30 Anfragen	4-6 Sekunden

Wichtiger Punkt: Diese Zahlen sind das Ergebnis von Tests im Jahr 2024. Marktplätze aktualisieren ständig ihren Schutz, daher wird empfohlen, mit konservativen Einstellungen zu beginnen (weniger Anfragen, mehr Verzögerung) und die Last schrittweise zu erhöhen, während der Prozentsatz der Sperren überwacht wird.

Strategie der "intelligenten" Rotation

Verwenden Sie anstelle fester Intervalle eine adaptive Rotation basierend auf den Serverantworten:

HTTP 429 (Zu viele Anfragen) — sofortige IP-Änderung und Hinzufügen dieser IP zur Blacklist für 30-60 Minuten.
HTTP 403 (Verboten) oder CAPTCHA — IP-Änderung und Erhöhung der Verzögerung zwischen Anfragen um 50%.
HTTP 503 (Dienst nicht verfügbar) — möglicherweise liegt das Problem nicht an den Proxys, sondern an einer Überlastung der Website. Pause von 30-60 Sekunden ohne IP-Wechsel.
Erfolgreiche Anfragen hintereinander > 100 — Sie können die Verzögerung etwas verringern oder die Anzahl der Anfragen bis zur Rotation erhöhen.

Diese Logik wird im Parser-Code implementiert und ermöglicht eine Einsparung von bis zu 30-40% des Proxy-Traffics, indem unnötige Rotationen vermieden werden.

Umgehung von Anti-Bot-Systemen von Wildberries, Ozon und Yandex.Market

Moderne Marktplätze verwenden mehrstufigen Schutz: von einfachen User-Agent-Überprüfungen bis hin zu fortgeschrittenem Browser-Fingerprinting. Proxys allein reichen nicht aus — eine umfassende Umgehungsstrategie ist erforderlich.

Ebene 1: Richtige HTTP-Header

Das minimale Set von Headern, das Ihr Parser senden sollte:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: de-DE,de;q=0.9,en;q=0.8
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Cache-Control: max-age=0

Kritische Punkte:

User-Agent sollte mit einem echten Browser übereinstimmen. Verwenden Sie aktuelle Versionen von Chrome 120+, Firefox 121+. Verwenden Sie keine alten Versionen (Chrome 90) — das ist ein rotes Signal.
Accept-Language sollte "de-DE" für deutsche Plattformen sein. Wenn Sie mit dem Header "en-US" parsen, erkennt die Website die Inkonsistenz (IP aus Deutschland, aber Sprache Englisch).
Sec-Fetch-* Header sind in Chrome 76+ erschienen und für moderne Websites obligatorisch. Ihr Fehlen verrät einen alten Parser.

Ebene 2: Ausführung von JavaScript

Wildberries und Ozon laden Preise, Eigenschaften, Bestände über JavaScript nach dem Laden der Seite. Wenn Ihr Parser auf requests/curl basiert und einfach HTML herunterlädt, erhält er eine leere Seite oder einen Platzhalter.

Lösung: Verwenden Sie Headless-Browser — Puppeteer (Node.js), Playwright (Python/Node.js), Selenium. Sie rendern die Seite vollständig, führen JS aus und erhalten das finale HTML.

Problem mit Headless-Browsern: Websites erkennen sie leicht anhand von Parametern navigator.webdriver === true, fehlenden Plugins, spezifischen Canvas-Größen. Der Erkennungsgrad von headless Chrome liegt bei etwa 80-90%.

Lösung des Problems: Verwenden Sie Bibliotheken für den Stealth-Modus:

puppeteer-extra-plugin-stealth (Node.js) — maskiert Puppeteer als normalen Chrome, patcht 30+ Fingerprint-Parameter.
undetected-chromedriver (Python) — gepatchte Version von Selenium ChromeDriver, die von den meisten Anti-Bot-Systemen nicht erkannt wird.
playwright-stealth (Python) — Äquivalent für Playwright mit Unterstützung für Firefox und WebKit.

Ebene 3: Umgehung von Cloudflare und DataDome

Wildberries verwendet Cloudflare Bot Management, Ozon — DataDome. Diese Systeme analysieren nicht nur IPs und Header, sondern auch das Verhalten: Scrollgeschwindigkeit, Mausbewegungen, Ladezeit der Seite.

Hinweise auf die Cloudflare Challenge: Anstelle von Inhalten sehen Sie die Seite "Überprüfen Sie Ihren Browser..." mit einer 5-sekündigen Verzögerung. Im Code handelt es sich um eine JavaScript-Challenge, die den Browser überprüft.

Wie umgehen:

FlareSolverr — Proxy-Service, der die Cloudflare Challenge automatisch löst. Sie senden ihm die URL, er gibt Cookies zur Umgehung zurück. Funktioniert in 70-80% der Fälle.
Playwright mit Wartezeit — laden Sie die Seite in einem Headless-Browser, warten Sie 10-15 Sekunden (bis JS ausgeführt wird), extrahieren Sie Cookies und verwenden Sie diese in normalen HTTP-Anfragen. Spart Ressourcen: Der Browser wird nur für das Abrufen von Cookies benötigt, danach parsen Sie über requests.
Residential Proxys + Stealth-Browser — diese Kombination bietet 95%+ erfolgreiche Umgehungen. Cloudflare sieht die echte IP des Benutzers und den richtigen Fingerprint des Browsers.

Wichtig: Cloudflare aktualisiert ständig den Schutz. Was im Dezember 2024 funktionierte, könnte im März 2025 nicht mehr funktionieren. Haben Sie immer einen Plan B: manuelle Lösung von CAPTCHA über Dienste wie 2Captcha/AntiCaptcha oder Wechsel zu einer API des Marktplatzes (sofern verfügbar).

Ebene 4: Simulation des Benutzerverhaltens

Fortgeschrittene Anti-Bot-Systeme verfolgen Verhaltensmuster. Ein echter Benutzer scrollt die Seite, bewegt die Maus und kehrt manchmal zurück. Ein Bot öffnet Produktkarten mit einem perfekten Intervall von 2.000 Sekunden.

Wie simulieren:

Zufallsverzögerungen — anstelle fester 3 Sekunden verwenden Sie random.uniform(2.5, 5.0). Fügen Sie seltene lange Pausen (15-30 Sekunden) hinzu, um Ablenkungen des Benutzers zu simulieren.
Scrollen der Seite — in Puppeteer/Playwright fügen Sie das Scrollen vor dem Extrahieren von Daten hinzu: await page.evaluate(() => window.scrollBy(0, 500)).
Mausbewegungen — die Bibliothek ghost-cursor für Puppeteer generiert realistische Bewegungsbahnen des Cursors.
Übergänge über die Suche — öffnen Sie Produktkarten nicht direkt über die URL. Gehen Sie zuerst zur Startseite, führen Sie eine Suche durch, klicken Sie auf das Produkt in den Ergebnissen. Das sieht natürlich aus.

Beliebte Tools für das Parsen mit Proxy-Unterstützung

Für das Parsen von Produkteigenschaften ist es nicht notwendig, den Code von Grund auf neu zu schreiben. Es gibt fertige Tools mit einer visuellen Schnittstelle, Proxy-Unterstützung und automatischer Umgehung des Schutzes.

Octoparse — Codefreier Parser

Beschreibung: Desktop-Anwendung für Windows/Mac mit visuellem Parser-Builder. Sie klicken auf die Elemente der Seite (Produktname, Preis, Eigenschaften), das Programm erstellt automatisch Extraktionsregeln.

Proxy-Unterstützung: Eingebaut. In den Einstellungen geben Sie die Liste der Proxys an, das Programm rotiert sie automatisch. Unterstützt HTTP, HTTPS, SOCKS5. Es gibt eine Integration mit Anbietern wie Bright Data, Smartproxy.

Vorteile: Kein Code erforderlich, funktioniert mit JavaScript-Websites, integrierter Task-Planer, Export in Excel/CSV/JSON.
Nachteile: Kostenpflichtiges Abonnement ab 75$/Monat, langsamer als Code in Python, Einschränkungen bei der Anzahl der Seiten in der kostenlosen Version.

Wann verwenden: Für kleine Projekte (bis zu 50.000 Produkte), wenn Sie kein Programmierer sind oder einen schnellen Prototyp benötigen.

ParseHub — Cloud-Parser

Beschreibung: Ähnlich wie Octoparse, aber funktioniert in der Cloud. Sie konfigurieren den Parser in der Desktop-Anwendung, und er wird auf den Servern von ParseHub ausgeführt. Praktisch für lange Aufgaben (Parsen von 100.000+ Produkten).

Proxy-Unterstützung: Nur in kostenpflichtigen Tarifen (ab 149$/Monat). Sie können Ihre eigene Proxy-Liste hochladen oder die integrierten Residential IPs von ParseHub verwenden.

Vorteile: Belastet Ihren Computer nicht, automatische Verarbeitung von Paginierungen, API zur Integration.
Nachteile: Teuer, langsamer Support, Schwierigkeiten bei der Konfiguration für komplexe Websites.

Scrapy (Python) — für Programmierer

Beschreibung: Framework zur Erstellung von Parsern in Python. Die flexibelste und schnellste Option — Sie können Millionen von Produkten pro Tag parsen. Erfordert mittlere Python-Kenntnisse.

Proxy-Unterstützung: Über Middleware. Beliebte Lösungen: scrapy-rotating-proxies (Rotation aus einer Liste), scrapy-proxy-pool (Integration mit API-Anbietern). Die Einrichtung dauert 10-15 Minuten.

Vorteile: Kostenlos, sehr schnell (asynchrone Anfragen), vollständige Kontrolle über die Logik, riesige Community.
Nachteile: Code muss geschrieben werden, Schwierigkeiten mit JavaScript-Websites (Integration mit Splash oder Playwright erforderlich).

Wann verwenden: Für ernsthafte Projekte mit einem Volumen von 100.000+ Produkten pro Tag, wenn Sie einen Programmierer im Team haben.

Apify — Marktplatz für fertige Parser

Beschreibung: Plattform mit Tausenden von fertigen Parsern (genannt "Akteure") für beliebte Websites. Es gibt fertige Lösungen für Amazon, eBay, AliExpress. Für russische Marktplätze ist die Auswahl geringer, aber Sie können eine Entwicklung in Auftrag geben.

Proxy-Unterstützung: In allen Akteuren integriert. Apify bietet eigene Residential Proxys (Zahlung nach Traffic) oder Sie können Ihre eigenen anschließen.

Vorteile: Fertige Lösungen, cloudbasiertes Ausführen, API zur Automatisierung, integrierte Proxys.
Nachteile: Teuer (ab 49$/Monat + Proxy-Kosten), Abhängigkeit von der Plattform, Einschränkungen bei der Anpassung.

Vergleich der Tools

Tool	Code erforderlich?	Preis	Geschwindigkeit	Für wen
Octoparse	Nein	Ab 75$/Monat	Mittel	Marketer, Analysten ohne Programmierung
ParseHub	Nein	Ab 149$/Monat	Mittel	Die gleichen, die cloudbasiertes Ausführen möchten
Scrapy	Ja (Python)	Kostenlos	Sehr hoch	Programmierer, große Datenmengen
Apify	Nein (fertige Akteure)	Ab 49$/Monat + Traffic-Kosten	Hoch	Unternehmen, die fertige Lösungen benötigen
Puppeteer/Playwright	Ja (JS/Python)	Kostenlos	Mittel (schwere Browser)	Programmierer, komplexe JS-Websites

Schritt-für-Schritt-Anleitung zur Proxy-Einrichtung im Parser

Lassen Sie uns die praktische Einrichtung von Proxys anhand beliebter Tools betrachten. Diese Anleitungen eignen sich für das Parsen beliebiger Marktplätze, nicht nur für russische.

Einrichtung in Octoparse

Schritt 1: Öffnen Sie Octoparse und erstellen Sie eine neue Parsing-Aufgabe. Geben Sie die URL der Startseite ein (z.B. Produktkategorie auf Wildberries).

Schritt 2: Gehen Sie zu "Einstellungen" → "Erweiterte Einstellungen" → "Proxy". Wählen Sie "Benutzerdefinierten Proxy verwenden".

Schritt 3: Fügen Sie Proxys im Format hinzu:

http://username:[email protected]:8080
socks5://username:[email protected]:1080

Schritt 4: Aktivieren Sie die Option "Proxy rotieren" und legen Sie das Rotationsintervall fest. Für Wildberries wird "Alle 50 Anfragen rotieren" oder "Alle 10 Minuten rotieren" empfohlen.

Schritt 5: Klicken Sie auf "Proxy testen" — Octoparse überprüft die Erreichbarkeit jedes Proxys. Entfernen Sie nicht funktionierende aus der Liste.

Schritt 6: Stellen Sie im Abschnitt "Geschwindigkeit" die Verzögerung zwischen den Anfragen ein: 2-4 Sekunden für Residential Proxys, 3-5 Sekunden für Rechenzentren.

Einrichtung in Scrapy (Python)

Schritt 1: Installieren Sie die Bibliothek zur Rotation von Proxys:

pip install scrapy-rotating-proxies

Schritt 2: Erstellen Sie eine Datei proxies.txt mit einer Liste von Proxys (jeweils eine pro Zeile):

http://user:[email protected]:8080
http://user:[email protected]:8080
socks5://user:[email protected]:1080

Schritt 3: Fügen Sie in der Datei settings.py Ihres Scrapy-Projekts hinzu:

ROTATING_PROXY_LIST_PATH = 'proxies.txt'

DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

# Verzögerung zwischen Anfragen (in Sekunden)
DOWNLOAD_DELAY = 3

# Randomisierung der Verzögerung (±50%)
RANDOMIZE_DOWNLOAD_DELAY = True

# Parallele Anfragen (nicht mehr als 16 für Residential Proxys)
CONCURRENT_REQUESTS = 8

Schritt 4: Scrapy rotiert automatisch die Proxys bei jeder Anfrage. Wenn ein Proxy einen Fehler zurückgibt (HTTP 403, 429, Timeout), wird er als "schlecht" markiert und vorübergehend von der Rotation ausgeschlossen.

Einrichtung in Puppeteer (Node.js)

Schritt 1: Installieren Sie Puppeteer und das Plugin für den Stealth-Modus:

npm install puppeteer puppeteer-extra puppeteer-extra-plugin-stealth

Schritt 2: Erstellen Sie ein Skript mit Proxy-Unterstützung:

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

const proxyList = [
  'http://user:[email protected]:8080',
  'http://user:[email protected]:8080'
];

let currentProxyIndex = 0;

async function scrapeWithProxy(url) {
  const proxy = proxyList[currentProxyIndex];
  currentProxyIndex = (currentProxyIndex + 1) % proxyList.length;

  const browser = await puppeteer.launch({
    headless: true,
    args: [`--proxy-server=${proxy}`]
  });

  const page = await browser.newPage();
  
  // Proxy-Authentifizierung (falls erforderlich)
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });

  await page.goto(url, { waitUntil: 'networkidle2' });
  
  // Daten extrahieren
  const data = await page.evaluate(() => {
    return {
      title: document.querySelector('.product-title')?.innerText,
      price: document.querySelector('.product-price')?.innerText,
      // Fügen Sie hier weitere Eigenschaften hinzu
    };
  });

  await browser.close();
  return data;
}

Schritt 3: Rufen Sie die Funktion scrapeWithProxy(url) mit der gewünschten URL auf, um die Daten zu extrahieren.

Schritt 4: Überwachen Sie die Leistung und passen Sie die Rotationsstrategie an, um die besten Ergebnisse zu erzielen.

```

Proxys für das Scraping von Produktmerkmalen: So sammeln Sie Daten von Marktplätzen ohne Sperren