AliExpress kämpft aktiv gegen automatisierte Datensammlungen – Parser erhalten Captchas, temporäre IP-Sperren und Autorisierungsanforderungen. Wenn Sie die Preise der Wettbewerber überwachen, nach trendigen Produkten für Dropshipping suchen oder eine Datenbank für einen Marktplatz erstellen, wird die Arbeit ohne richtig konfigurierte Proxys zu einem ständigen Kampf gegen Blockaden.
In diesem Leitfaden werden wir besprechen, wie man Proxys für das Parsen von AliExpress auswählt, die Rotation von IP-Adressen einrichtet, Anti-Bot-Systeme umgeht und die Datensammlung über Produkte, Preise und Bewertungen automatisiert, ohne das Risiko, gesperrt zu werden.
Warum AliExpress das Parsen blockiert und wie es funktioniert
AliExpress verwendet ein mehrschichtiges Schutzsystem gegen automatisierte Datensammlungen. Die Plattform verliert Geld, wenn Wettbewerber massenhaft Kataloge kopieren und die Server durch Bots überlastet werden. Daher wird der Schutz ständig verbessert und aggressiver.
Hauptmethoden zur Erkennung von Parsern:
- Häufigkeit der Anfragen von einer IP – wenn innerhalb einer Minute 50+ Anfragen von einer Adresse kommen, zeigt das System automatisch ein Captcha an oder blockiert die IP vorübergehend für 30-60 Minuten.
- Verhaltensanalyse – Bots öffnen Seiten zu schnell (0,5-1 Sekunde), bewegen die Maus nicht, scrollen nicht und klicken nicht auf Elemente der Benutzeroberfläche.
- Fehlende Cookies – normale Benutzer sammeln Cookies beim Besuch der Website, Parser arbeiten oft mit einer sauberen Sitzung.
- Verdächtiger User-Agent – alte Versionen von Browsern, serverseitige Bibliotheken (Python-requests, curl), keine mobilen Geräte in der Statistik.
- Fingerprint des Browsers – AliExpress sammelt Fingerabdrücke: Bildschirmauflösung, Zeitzone, installierte Schriftarten, WebGL, Canvas. Gleiche Fingerabdrücke von verschiedenen IPs sind ein Zeichen für einen Bot.
Wenn das System verdächtige Aktivitäten erkennt, wendet es eine Graduierung von Blockaden an: Zuerst wird ein Captcha angezeigt, dann eine vorübergehende IP-Sperre für 1-2 Stunden, bei wiederholten Verstößen – eine Sperre für einen Tag oder dauerhaft.
Wichtig: AliExpress verwendet Cloudflare und ein eigenes Anti-Bot-System. Sie analysieren nicht nur die IP, sondern auch den TLS-Fingerprint (Protokollversion, Cipher-Reihenfolge) – selbst mit Proxys kann man gesperrt werden, wenn veraltete HTTP-Clients verwendet werden.
Welche Proxytypen für das Parsen von AliExpress geeignet sind
Die Wahl des Proxytyps hängt vom Umfang des Parsens, dem Budget und den Anforderungen an die Datenqualität ab. Lassen Sie uns jeden Typ mit realen Nutzungsszenarien durchgehen.
| Proxytyp | Geschwindigkeit | Blockierungsrisiko | Wann verwenden |
|---|---|---|---|
| Rechenzentrums-Proxys | Hoch (50-150 ms) | Hoch | Schnelles Parsen öffentlicher Daten mit häufiger IP-Rotation |
| Residential Proxys | Mittel (200-500 ms) | Niedrig | Langfristiges Parsen, Datensammlung mit Autorisierung |
| Mobile Proxys | Mittel (300-700 ms) | Sehr niedrig | Parsen von der mobilen Version, Umgehung strenger Blockaden |
Rechenzentrums-Proxys für schnelles Parsen
Geeignet, wenn große Datenmengen schnell gesammelt werden müssen: Preise für 10.000+ Produkte, Merkmale von Kategorien, Liste von Verkäufern. Eine Antwortzeit von 50-150 ms ermöglicht 5-10 Anfragen pro Sekunde von einer IP.
Nutzungsszenario: Sie haben einen Dropshipping-Shop auf Shopify und müssen täglich die Preise für 5000 Produkte von AliExpress aktualisieren. Sie kaufen einen Pool von 50-100 Rechenzentrums-IP mit Rotation alle 10-15 Anfragen. In 2-3 Stunden sammeln Sie alle Daten, die Kosten für Proxys betragen 50-100$ pro Monat.
Nachteile: AliExpress kennt die IP-Bereiche von Rechenzentren und betrachtet sie misstrauisch. Eine aggressive Rotation ist erforderlich (IP alle 5-10 Anfragen wechseln) und eine Emulation des Verhaltens (zufällige Verzögerungen von 2-5 Sekunden zwischen den Anfragen).
Residential Proxys für stabiles Parsen
Residential Proxys haben IPs von echten Haushaltsnutzern – Anbieter vergeben sie an Privatpersonen. AliExpress kann eine Anfrage über einen solchen Proxy nicht von einer Anfrage eines normalen Käufers unterscheiden. Dies reduziert das Blockierungsrisiko um das 5-10-fache im Vergleich zu Rechenzentren.
Nutzungsszenario: Sie überwachen die Preise der Wettbewerber für Ihren Shop auf Ozon. Sie müssen täglich 200-300 Produkte überprüfen, die Preise auf AliExpress und bei russischen Anbietern vergleichen. Sie verwenden 10-20 Residential IPs mit Rotation alle 50-100 Anfragen. Das Parsen dauert 30-40 Minuten, Blockaden gibt es seit Monaten nicht.
Vorteile: Sie können länger von einer IP arbeiten (100-200 Anfragen statt 10-20), weniger Captchas, Möglichkeit zur Autorisierung und Arbeit mit dem persönlichen Verkäuferkonto.
Mobile Proxys zur Umgehung strenger Blockaden
Mobile IPs (3G/4G/5G-Anbieter) genießen das höchste Vertrauen – AliExpress kann keine ganzen Subnetze von Mobilfunkanbietern blockieren, da dies Millionen von echten Käufern blockieren würde. Eine mobile IP kann von Hunderten von Geräten (NAT) verwendet werden, daher sieht selbst aggressives Parsen wie Aktivitäten verschiedener Benutzer aus.
Nutzungsszenario: Sie sind bereits mit Residential IPs in einer bestimmten Region gesperrt worden und müssen dringend Daten für einen Bericht an den Kunden sammeln. Sie nehmen 2-3 mobile Proxys und parsen über die mobile Version der Website (m.aliexpress.com). Selbst mit aggressivem Parsen (1 Anfrage pro Sekunde) gibt es keine Blockaden.
Nachteile: Teurer als Residential Proxys (2-3 Mal), geringere Geschwindigkeit (300-700 ms Verzögerung), IP kann sich bei einer Neuanmeldung beim Anbieter ändern.
Einrichtung der IP-Rotation: Wechselhäufigkeit und Timeouts
Die richtige IP-Rotation ist der Schlüssel zu langfristigem Parsen ohne Blockaden. Zu häufiges Wechseln sieht verdächtig aus und verbraucht Proxys, zu seltenes Wechseln führt zu Sperren.
Empfohlene Wechselhäufigkeit nach Proxytypen
| Proxytyp | Anfragen pro 1 IP | Verzögerung zwischen Anfragen | Sitzungslebensdauer |
|---|---|---|---|
| Rechenzentren | 5-15 Anfragen | 2-5 Sekunden | 1-3 Minuten |
| Residential | 50-150 Anfragen | 3-8 Sekunden | 10-30 Minuten |
| Mobile | 100-300 Anfragen | 1-3 Sekunden | 30-60 Minuten |
Rotationsstrategien für verschiedene Aufgaben
1. Schnelles Parsen des Katalogs (10000+ Produkte in einer Stunde)
- Verwenden Sie einen Pool von 100-200 Rechenzentrums-IP
- Rotation alle 5-10 Anfragen
- Parallele Streams: 10-20 gleichzeitige Anfragen von verschiedenen IPs
- Verzögerung zwischen Anfragen: 1-2 Sekunden (Simulation eines schnellen Benutzers)
- Wenn Sie ein Captcha auf der IP erhalten haben – schließen Sie sie für 2-3 Stunden aus dem Pool aus.
2. Tägliche Preisüberwachung (500-1000 Produkte)
- Verwenden Sie 10-20 Residential IPs
- Rotation alle 50-100 Anfragen
- Sequenzielle Anfragen mit einer Verzögerung von 3-5 Sekunden
- Cookies zwischen Anfragen von einer IP speichern
- Simulieren Sie das Verhalten: Öffnen Sie gelegentlich die Startseite, Kategorien.
3. Parsen mit Autorisierung (persönliches Verkäuferkonto)
- Eine Residential oder mobile IP pro Konto
- Keine Rotation während der Sitzung (30-60 Minuten)
- Verzögerung von 5-10 Sekunden zwischen Anfragen
- Vollständige Emulation des Browsers: Speicherung von Cookies, localStorage, Fingerprint.
Tipp: Fügen Sie Zufälligkeit in die Verzögerungen ein. Verwenden Sie anstelle fester 3 Sekunden einen Bereich von 2-5 Sekunden. Dies macht das Anfrage-Muster weniger vorhersehbar für Anti-Bot-Systeme.
Umgehung von Anti-Bot-Systemen: User-Agent, Cookies und Fingerprint
Der Wechsel der IP löst nur einen Teil des Problems. AliExpress analysiert Dutzende von Parametern der Anfragen und des Verhaltens, um Bots von Menschen zu unterscheiden. Lassen Sie uns besprechen, was neben Proxys konfiguriert werden muss.
User-Agent und HTTP-Header
Der User-Agent teilt dem Server mit, welcher Browser und welches Betriebssystem die Anfrage stellen. Parser verwenden oft die Standardwerte von Bibliotheken (Python-requests/2.28.0), die sofort erkannt werden.
Richtige Konfiguration des User-Agent:
- Verwenden Sie aktuelle Versionen beliebter Browser: Chrome 120+, Firefox 121+, Safari 17+
- Ändern Sie den User-Agent bei der Rotation der IP – eine IP sollte nicht verschiedene Browser anzeigen.
- Fügen Sie mobile User-Agents im Verhältnis von 40-50% hinzu (die Hälfte des Traffics von AliExpress stammt von mobilen Geräten).
- Kopieren Sie das vollständige Set von Headern aus einem echten Browser: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests.
Beispiel für korrekte Header für Desktop:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Beispiel für mobile Geräte:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Arbeiten mit Cookies und Sitzungen
AliExpress setzt Cookies beim ersten Besuch: Sitzungs-ID, Spracheinstellungen und Währungsinformationen, Tracking-Tokens. Parser ohne Cookies sehen verdächtig aus – ein normaler Benutzer sammelt sie beim Navigieren auf der Website.
Richtige Arbeit mit Cookies:
- Öffnen Sie vor dem Parsen die Startseite und speichern Sie alle Cookies.
- Verwenden Sie diese Cookies für alle nachfolgenden Anfragen von derselben IP.
- Bei einem IP-Wechsel – starten Sie eine neue Sitzung mit neuen Cookies.
- Speichern Sie Cookies zwischen den Starts des Parsers – das simuliert einen zurückkehrenden Benutzer.
- Aktualisieren Sie Cookies alle 1-2 Stunden (öffnen Sie die Startseite erneut).
Browser-Fingerprint und TLS-Fingerprint
Moderne Anti-Bot-Systeme sammeln einen digitalen Fingerabdruck des Browsers – eine Kombination von Dutzenden von Parametern, die das Gerät eindeutig identifizieren. Selbst von verschiedenen IPs kann ein identischer Fingerabdruck einen Bot verraten.
Was in den Browser-Fingerprint eingeht:
- Bildschirmauflösung und Farbtiefe
- Zeitzone und Sprache des Systems
- Liste der installierten Schriftarten
- WebGL- und Canvas-Fingerprint (einzigartiger Grafikrendering-Ansatz)
- Audio-Kontext (AudioContext-Fingerprint)
- Liste der Browser-Plugins
- Unterstützung für WebRTC, Battery API und andere moderne APIs
Einfache HTTP-Bibliotheken (requests, axios, curl) haben diese Parameter nicht – sie arbeiten auf Protokollebene ohne Rendering. Für ernsthaftes Parsen sind Werkzeuge mit einem vollwertigen Browser erforderlich.
Lösungen zur Emulation eines Browsers:
- Selenium + undetected-chromedriver – startet ein echtes Chrome mit Modifikationen zur Umgehung der Erkennung.
- Puppeteer + puppeteer-extra-plugin-stealth – Node.js-Bibliothek mit Plugins zur Maskierung der Automatisierung.
- Playwright – moderne Alternative zu Selenium mit besserer Leistung.
- Anti-Detect-Browser – Dolphin Anty, AdsPower, Multilogin (für die Arbeit über die Benutzeroberfläche).
Wichtig: Der TLS-Fingerprint (Fingerprint der SSL-Verbindung) wird ebenfalls analysiert. Alte Versionen von Python und Node.js verwenden veraltete Cipher-Sets, die einen Bot verraten. Verwenden Sie aktuelle Versionen von Bibliotheken oder curl_cffi, um moderne Browser zu simulieren.
Fertige Tools für das Parsen von AliExpress
Einen Parser von Grund auf zu schreiben, macht nur für spezifische Aufgaben Sinn. Für die standardisierte Datensammlung (Produkte, Preise, Bewertungen) gibt es fertige Lösungen, die Wochen der Entwicklung sparen.
Kommerzielle Dienste mit API
1. ScraperAPI (scrape.do, scrapingbee.com)
Cloud-Dienste, die die gesamte Arbeit mit Proxys und dem Umgehen von Schutzmaßnahmen übernehmen. Sie senden ihnen die URL des AliExpress-Produkts, und sie liefern HTML oder JSON mit den Daten zurück.
- Vorteile: keine eigenen Proxys erforderlich, automatisches Umgehen von Captchas, fertige Parser für beliebte Websites.
- Nachteile: teuer bei großen Volumina (ab 50$ für 100K Anfragen), Abhängigkeit von einem Drittanbieter.
- Wann verwenden: einmalige Aufgaben, Prototyping, kleine Volumina (bis 10K Produkte pro Monat).
2. Bright Data (luminati.io)
Größter Anbieter von Proxys mit eigenen Tools zum Parsen. Sie bieten nicht nur Proxys, sondern auch fertige Datensätze von AliExpress (aktualisierte Produktdatenbanken).
- Vorteile: riesiger Pool von IPs (72+ Millionen Residential), Infrastruktur für Enterprise-Kunden.
- Nachteile: sehr teuer (ab 500$ pro Monat), komplizierte Preisgestaltung.
- Wann verwenden: großes Geschäft mit Budget, ständiges Parsen großer Volumina.
Open-Source-Lösungen
1. Scrapy + scrapy-rotating-proxies
Beliebtes Framework zum Parsen in Python. Unterstützt asynchrone Anfragen, automatische Proxy-Rotation, Export in CSV/JSON/Datenbanken.
Beispiel für die Proxy-Konfiguration in Scrapy:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# Einstellungen zur Umgehung von Sperren
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # Zeit der Proxy-Sperre in Sekunden
2. Puppeteer + puppeteer-extra-plugin-stealth
Für Websites mit aggressivem Schutz (wie AliExpress) ist ein vollwertiger Browser erforderlich. Puppeteer steuert Chrome über das DevTools-Protokoll, das Stealth-Plugin maskiert die Anzeichen von Automatisierung.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// Proxy-Autorisierung
await page.authenticate({
username: 'user',
password: 'pass'
});
// Realistisches Viewport einstellen
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// Produkt parsen
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
Desktop-Anwendungen für nicht-technische Benutzer
1. Octoparse
Visueller Parser ohne Code – Sie klicken auf die Elemente der Seite, das Programm merkt sich die Struktur und sammelt die Daten. Eingebaute Unterstützung für Proxys und einen Aufgabenplaner.
- Vorteile: keine Programmierung erforderlich, funktioniert mit dynamischen Inhalten, Cloud-Version für Hintergrundarbeiten.
- Nachteile: Einschränkungen in der kostenlosen Version (10K Zeilen pro Monat), manchmal Schwierigkeiten mit komplexem Schutz.
- Preis: ab 75$ pro Monat für den Standardplan.
2. ParseHub
Analog zu Octoparse mit einer einfacheren Benutzeroberfläche. Funktioniert gut mit AliExpress dank integrierter Vorlagen für beliebte Websites.
- Vorteile: kostenloser Tarif für 200 Seiten, einfache Proxy-Einstellung.
- Nachteile: langsame Leistung in der kostenlosen Version, keine erweiterten Funktionen (API, Webhooks).
Geo-Targeting: wie man Preise für verschiedene Länder parst
AliExpress zeigt unterschiedliche Preise, Sortimente und Lieferbedingungen je nach Land des Benutzers an. Wenn Sie im internationalen Dropshipping arbeiten oder Preise für verschiedene Märkte vergleichen, benötigen Sie Proxys aus bestimmten Regionen.
Wie AliExpress das Land des Benutzers bestimmt
Die Plattform verwendet mehrere Datenquellen:
- IP-Adresse – die Hauptmethode, die das Land anhand der Geolokalisierung der IP bestimmt.
- Cookies – speichert das ausgewählte Land in aep_usuc_f (kann ersetzt werden).
- Accept-Language-Header – Sprache des Browsers, aber kein bestimmender Faktor.
- Währung in der URL – Parameter ?currency=USD oder Subdomains (ru.aliexpress.com).
Für zuverlässiges Parsen von Preisen eines bestimmten Landes sollten Sie Proxys aus dieser Region verwenden. Nur Cookies zu ersetzen funktioniert nicht immer – AliExpress priorisiert die IP-Geolokalisierung.
Beliebte Regionen für das Parsen und ihre Besonderheiten
| Land | Preiseigenschaften | Warum parsen |
|---|---|---|
| USA | Preise in USD, oft niedriger als in Europa. | Dropshipping in den USA, Vergleich mit Amazon. |
| Russland | Preise in RUB, Berücksichtigung von Zöllen und Mehrwertsteuer. | Vergleich mit Wildberries, Ozon. |
| Deutschland | Preise in EUR, schnelle Lieferung aus EU-Lagern. | Dropshipping in Europa, eBay.de. |
| Brasilien | Hohe Preise aufgrund von Zöllen, aber große Nachfrage. | Lokaler E-Commerce (Mercado Livre). |
Einrichtung des Geo-Targetings über Proxys
Die meisten Anbieter von Residential und mobilen Proxys ermöglichen es, das Land (und sogar die Stadt) über Verbindungsparameter oder APIs auszuwählen.
Beispiel für die Auswahl des Landes über den Benutzernamen des Proxys:
# Format: username-country-Ländercode
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# Preis für die USA parsen
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# Preis für Deutschland parsen
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
Zusätzlich die Header an die Region anpassen:
- Accept-Language: en-US für die USA, de-DE für Deutschland, pt-BR für Brasilien.
- Verwenden Sie die entsprechende Subdomain: ru.aliexpress.com für Russland, de.aliexpress.com für Deutschland.
- Überprüfen Sie die Währung in der Antwort – wenn Sie nicht die richtige Währung sehen, hat das Geo-Targeting nicht funktioniert.
Typische Fehler beim Parsen und wie man sie vermeidet
Selbst mit den richtigen Proxys und Einstellungen können Blockaden aufgrund von Fehlern in der Parsing-Logik auftreten. Lassen Sie uns häufige Probleme und Lösungen durchgehen.
Fehler 1: Zu aggressives Parsen
Problem: Der Parser macht 100 Anfragen pro Minute von einer IP, um Daten schneller zu sammeln. AliExpress erkennt dies als DDoS-Angriff und blockiert die IP.
Lösung: Fügen Sie Verzögerungen und eine Begrenzung der Anzahl der Anfragen hinzu. Für Residential Proxys ist eine sichere Geschwindigkeit – 10-20 Anfragen pro Minute von einer IP (1 Anfrage alle 3-6 Sekunden). Es ist besser, länger zu parsen, als Proxys zu verlieren.
Fehler 2: Ignorieren von Captchas und Fehlern
Problem: Der Parser erhält eine Seite mit Captcha, fährt aber fort, sie wie normalen Inhalt zu parsen. Infolgedessen – Tausende von leeren Einträgen in der Datenbank.
Lösung: Überprüfen Sie die Serverantwort vor dem Parsen. Wenn im HTML die Wörter "captcha", "Access Denied" oder der Antwortcode 403/429 vorhanden sind – hören Sie auf, diese IP für 1-2 Stunden zu verwenden.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"Proxy {proxy} is blocked, switching...")
# Schließen Sie den Proxy für 2 Stunden aus dem Pool aus
blocked_proxies[proxy] = time.time() + 7200
continue
Fehler 3: Parsen von veralteten Daten
Problem: AliExpress cached Seiten über CDN (Cloudflare). Der Parser erhält Daten, die 2-3 Stunden alt sind, anstelle der aktuellen Preise.
Lösung: Fügen Sie einen zufälligen Parameter zur URL hinzu, um den Cache zu umgehen, oder verwenden Sie den Header Cache-Control: no-cache.
import random
import time
# Fügen Sie einen Zeitstempel zur URL hinzu, um den Cache zu umgehen
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# Oder verwenden Sie den Header
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
Fehler 4: Falsche Verarbeitung von dynamischen Inhalten
Problem: Preise und Merkmale von Produkten auf AliExpress werden über JavaScript nach dem Laden der Seite geladen. Eine einfache HTTP-Anfrage erhält ein leeres HTML-Template ohne Daten.
Lösung: Verwenden Sie einen Headless-Browser (Selenium, Puppeteer, Playwright), der JavaScript ausführt und auf das vollständige Laden des Inhalts wartet. Oder finden Sie einen API-Endpunkt, der Daten im JSON-Format zurückgibt – oft ist dieser über DevTools im Netzwerk verfügbar.
Fehler 5: Fehlende Protokollierung und Überwachung
Problem: Der Parser läuft eine Woche, sammelt Daten, aber niemand überprüft die Qualität. Es stellt sich heraus, dass 30% der Einträge leer sind aufgrund von Änderungen in der Struktur der Website.
Lösung: Protokollieren Sie alle wichtigen Ereignisse – erfolgreiche Anfragen, Fehler, Blockierungen von Proxys, Änderungen in der Datenstruktur. Richten Sie Alarme ein, wenn die Anzahl der Fehler über 10% steigt.
Checkliste vor dem Start des Parsers:
✅ Verzögerungen zwischen Anfragen sind eingestellt (3-8 Sekunden für Residential Proxys)
✅ IP-Rotation funktioniert (nicht mehr als 50-100 Anfragen pro IP)
✅ User-Agent ist aktuell und ändert sich zusammen mit der IP
✅ Cookies werden gespeichert und wiederverwendet
✅ Es gibt eine Überprüfung auf Captchas und Blockierungen
✅ Protokollierung und Überwachung sind eingerichtet
✅ Testlauf mit 100 Produkten war erfolgreich
Fazit
Das Parsen von AliExpress erfordert einen ganzheitlichen Ansatz: die richtigen Proxys sind nur ein Teil der Lösung. Es bedarf einer kompetenten IP-Rotation, der Emulation eines echten Browsers, der Arbeit mit Cookies und Fingerprints sowie einer ständigen Überwachung der Datenqualität. Zu aggressives Parsen führt selbst mit teuren Proxys zu Blockaden, während die richtige Konfiguration es ermöglicht, Daten monatelang ohne Probleme zu sammeln.
Für die meisten Aufgaben (Überwachung der Preise der Wettbewerber, Sammlung von Katalogen für Dropshipping, Trendanalyse) ist die optimale Wahl – Residential Proxys mit Rotation alle 50-100 Anfragen. Sie bieten ein Gleichgewicht zwischen Arbeitsgeschwindigkeit und Vertrauensniveau seitens AliExpress. Wenn das Budget begrenzt ist und hohe Geschwindigkeit erforderlich ist – beginnen Sie mit Rechenzentrums-Proxys, seien Sie jedoch auf häufigere Blockaden und die Notwendigkeit aggressiver Rotation vorbereitet.
Denken Sie daran: Die Qualität der Proxys ist wichtiger als ihre Anzahl. 10 qualitativ hochwertige Residential IPs mit der richtigen Konfiguration liefern bessere Ergebnisse als 100 billige Rechenzentrums-Proxys mit einer hohen Blockierungsrate. Investieren Sie Zeit in die Einrichtung der Browseremulation, Protokollierung und Überwachung – dies wird sich durch einen stabilen Betrieb des Parsers ohne ständige Probleme mit Captchas und Sperren auszahlen.