Flugbuchungsseiten gehören zu den am stärksten geschützten Ressourcen im Internet. Veraltete Preise, Captchas, sofortige IP-Sperren – all dies macht das Sammeln von Tarifdaten zu einer echten Herausforderung. Wenn Sie einen Aggregator aufbauen, Preise für Kunden überwachen oder automatisch nach günstigen Routen suchen, werden Sie ohne richtig konfigurierte Proxys nicht einmal eine Stunde durchhalten. In diesem Artikel werden wir untersuchen, welche Proxys funktionieren, wie man sie einrichtet und warum einige Typen dort versagen, wo andere erfolgreich sind.
Warum Flugwebsites das Scraping so schnell blockieren
Die Luftfahrtindustrie arbeitet mit dynamischer Preisgestaltung: Die Tarife ändern sich Dutzende Male am Tag, abhängig von der Nachfrage, der Tageszeit, dem Browserverlauf und sogar dem Standort des Nutzers. Aus diesem Grund investieren große Aggregatoren – Aviasales, Skyscanner, Kayak, Google Flights – enorme Ressourcen in den Schutz vor automatisierten Anfragen.
Folgendes passiert, wenn Sie versuchen, Daten ohne Proxys oder mit günstigen Rechenzentrums-IP-Adressen zu sammeln:
- Sofortige IP-Sperre – die meisten Flugwebsites führen Datenbanken über ASN (autonome Systeme) von Rechenzentren. Anfragen von Hosting-IP-Adressen werden noch vor dem Laden der Seite blockiert.
- Captchas und Cloudflare – selbst wenn die erste Anfrage erfolgreich war, erscheint nach 5–10 Anfragen von einer Adresse ein Captcha oder eine Umleitung zur Überprüfung.
- Fake-Preise – einige Websites (insbesondere OTA-Aggregatoren) zeigen Bots absichtlich überhöhte oder veraltete Tarife, um den Wettbewerbern die Daten zu verderben.
- Fingerprinting – neben der IP analysieren Systeme HTTP-Header, die Reihenfolge der TLS-Erweiterungen, das Mausverhalten und die Scrollgeschwindigkeit.
- Rate Limiting – Begrenzung der Anzahl von Anfragen von einer IP in einem bestimmten Zeitraum. Normalerweise liegt die Schwelle bei 20–50 Anfragen pro Minute, nach der die Verbindung getrennt wird.
Fazit: Ohne qualitativ hochwertige Proxys mit echten IPs werden Sie keine aktuellen Daten sammeln. Rechenzentrums-Proxys funktionieren hier schlecht – Flugwebsites erkennen sie in den ersten Sekunden. Sie benötigen entweder Residential- oder mobile IPs.
Welche Proxy-Typen für Flugpreise geeignet sind
Lassen Sie uns drei Haupttypen von Proxys und deren Anwendbarkeit für das Sammeln von Flugpreisen untersuchen:
| Proxy-Typ | IP-Quelle | Umgehung des Schutzes von Flugwebsites | Geschwindigkeit | Kosten |
|---|---|---|---|---|
| Residential Proxys | Heimprovider (Rostelecom, Beeline, AT&T) | ⭐⭐⭐⭐⭐ Ausgezeichnet | Mittel | Mittel |
| Mobile Proxys | Netze von Mobilfunkanbietern (MTS, MegaFon, T-Mobile) | ⭐⭐⭐⭐⭐ Ausgezeichnet | Hoch | Hoch |
| Rechenzentrums-Proxys | Serverfarmen (AWS, OVH, Hetzner) | ⭐⭐ Schlecht | Sehr hoch | Niedrig |
Die Schlussfolgerung ist offensichtlich: Für Flugwebsites sind Rechenzentrums-Proxys nahezu nutzlos. Aviasales, Skyscanner und Google Flights erkennen sofort IPs von Hosting-Anbietern und blockieren sie oder zeigen ein Captcha an. Die echte Wahl liegt zwischen Residential- und mobilen Proxys – und jeder hat seine Nische.
Residential vs. mobile Proxys: Was wählen für Flugpreise
Beide Typen funktionieren, aber in verschiedenen Szenarien gewinnt der eine über den anderen. Lassen Sie uns das konkret untersuchen.
Residential Proxys – für großflächiges Datensammeln
Residential Proxys verwenden IP-Adressen echter Haushaltsnutzer weltweit. Für das Scraping von Flugpreisen bedeutet dies:
- Die Möglichkeit, ein bestimmtes Land und sogar eine Stadt auszuwählen – entscheidend, wenn Sie Preise für verschiedene Märkte überprüfen (z.B. Preis von Moskau vs. von London für denselben Flug).
- Ein großer Pool an IPs – Tausende von Adressen zur Rotation, was es ermöglicht, Hunderte von Anfragen ohne Wiederholungen zu stellen.
- Ein gutes Preis-Leistungs-Verhältnis bei hohen Datenmengen.
- Unterstützung für Sitzungs- und Rotationsmodi – Sie können eine Sitzung aufrechterhalten, um einen echten Nutzer zu simulieren.
Ideales Szenario: Sie bauen einen Aggregator oder einen Überwachungsdienst und müssen Preise von 10–20 Websites gleichzeitig sammeln, wobei Sie Tausende von Anfragen pro Stunde stellen. Residential Proxys mit Rotation sind Ihre Wahl.
Mobile Proxys – für die am stärksten geschützten Websites
Mobile Proxys arbeiten über echte SIM-Karten von Mobilfunkanbietern. Ihr Merkmal sind IP-Adressen aus Mobilfunknetzen (3G/4G/5G), die Flugwebsites praktisch nie blockieren. Der Grund ist einfach: Hinter einer mobilen IP kann ein NAT-Netzwerk stehen, in dem Tausende von echten Nutzern sitzen. Eine solche Adresse zu blockieren, bedeutet, Tausende von lebenden Kunden zu verlieren.
- Maximales Vertrauen seitens der Anti-Bot-Systeme.
- Fast kein Risiko einer Sperre, selbst bei aggressivem Scraping.
- Möglichkeit des IP-Wechsels durch Sitzungswechsel (ohne physische Geräteänderung).
- Höhere Kosten – gerechtfertigt für kritische Daten oder komplexe Websites.
Ideales Szenario: Sie müssen Daten von einer bestimmten komplexen Website sammeln (z.B. die direkte Website einer Fluggesellschaft mit Cloudflare Enterprise), wo Residential Proxys gelegentlich Captchas auslösen. Mobile Proxys lösen dieses Problem.
💡 Praktischer Rat
Für die meisten Aufgaben zur Überwachung von Flugpreisen ist die optimale Strategie – Residential Proxys für massenhaftes Sammeln + mobile Proxys für komplexe Websites. Dies ermöglicht es, das Budget zu optimieren, ohne die Datenqualität zu beeinträchtigen.
Besonderheiten des Schutzes von Aviasales, Skyscanner, Google Flights und Kayak
Jede Plattform hat ihre eigenen Schutzmerkmale. Das Verständnis dieser Unterschiede hilft, Proxys und das Verhalten der Anfragen richtig einzustellen.
Aviasales
Der russische Aggregator verwendet eine Kombination aus Rate Limiting und Verhaltensanalyse. Die Begrenzung liegt bei etwa 30–40 Anfragen pro Minute von einer IP. Bei Überschreitung – Umleitung zu einem Captcha von Yandex SmartCaptcha. Die Website ist relativ loyal gegenüber Residential Proxys mit russischen IPs. Wichtig: Die Preise auf Aviasales hängen von der Geolokalisierung ab, daher sollten Sie für das korrekte Sammeln von Daten Proxys mit IPs des Landes verwenden, für das Sie Tarife benötigen.
Skyscanner
Einer der am stärksten geschützten Aggregatoren. Verwendet Cloudflare mit der Einstellung „Under Attack Mode“ für verdächtige IPs sowie ein eigenes Anti-Bot-System. Rechenzentrums-Proxys funktionieren hier überhaupt nicht. Residential Proxys funktionieren, erfordern jedoch ein langsames Anfragetempo (nicht mehr als 15–20 pro Minute) und korrekte Browser-Header. Für Skyscanner wird empfohlen, eine echte Browsersitzung über Playwright oder Puppeteer mit angeschlossenem Proxy zu simulieren.
Google Flights
Google verwendet eigene Algorithmen zur Bot-Erkennung – reCAPTCHA v3 und Verhaltensmusteranalyse. Direktes Scraping von HTML funktioniert hier nicht, da die Daten über JavaScript geladen werden. Ein Headless-Browser (Playwright/Puppeteer) mit Residential oder mobilen Proxys ist erforderlich. Google ist auch empfindlich gegenüber der Übereinstimmung von Geolokalisierung der IP und der Sprache des Browsers – eine Diskrepanz erhöht das Risiko einer Sperre.
Kayak
Amerikanischer Aggregator mit aggressivem Bot-Schutz auf Basis von PerimeterX (jetzt HUMAN Security). Erkennt nicht nur IPs, sondern auch TLS-Fingerabdrücke, die Reihenfolge der HTTP/2-Header und die Zeit zwischen Anfragen. Für Kayak sind erforderlich: Residential oder mobile Proxys, Simulation eines echten Browsers und zufällige Verzögerungen zwischen Anfragen (2–8 Sekunden).
| Plattform | Schutzsystem | Funktionieren Rechenzentrums-Proxys? | Ist ein Headless erforderlich? | Empfohlener Proxy-Typ |
|---|---|---|---|---|
| Aviasales | Rate Limiting + Yandex Captcha | ❌ Nein | Wünschenswert | Residential (RU) |
| Skyscanner | Cloudflare + eigenes System | ❌ Nein | ✅ Ja | Residential / Mobile |
| Google Flights | reCAPTCHA v3 + Verhaltensanalyse | ❌ Nein | ✅ Unbedingt | Residential / Mobile |
| Kayak | HUMAN Security (PerimeterX) | ❌ Nein | ✅ Ja | Mobile |
Wie man Proxys für das Sammeln von Preisdaten einrichtet
Die Einrichtung hängt von dem Tool ab, das Sie verwenden. Lassen Sie uns die häufigsten Szenarien betrachten.
Option 1: Fertige Scraper und No-Code-Tools
Wenn Sie keinen Code schreiben, verwenden Sie fertige Lösungen: Octoparse, ParseHub, Apify. Alle unterstützen die Verbindung externer Proxys. Vorgehensweise:
- Erhalten Sie die Proxy-Daten: Host (IP oder Domain), Port, Benutzername, Passwort.
- Öffnen Sie die Einstellungen Ihres Tools → Abschnitt „Proxy“ oder „Netzwerk“.
- Wählen Sie den Protokolltyp: HTTPS (für die meisten Aufgaben) oder SOCKS5 (wenn eine niedrigere Ebene benötigt wird).
- Fügen Sie die Verbindungsdaten ein. Das Format ist normalerweise:
login:password@host:port - Aktivieren Sie die Proxy-Rotation – die meisten Tools tun dies automatisch, wenn ein Pool von Adressen vorhanden ist.
- Starten Sie eine Testanfrage an die Zielwebsite und überprüfen Sie, ob sich die IP geändert hat.
Option 2: Playwright / Puppeteer mit Proxys
Für komplexe Websites (Google Flights, Skyscanner) ist ein Headless-Browser erforderlich. So verbinden Sie Proxys in Playwright:
const { chromium } = require('playwright');
const browser = await chromium.launch({
proxy: {
server: 'http://your-proxy-host:port',
username: 'your_login',
password: 'your_password'
}
});
const page = await browser.newPage();
await page.goto('https://www.skyscanner.com/...');
// Weiter Ihre Logik zum Extrahieren von Daten
await browser.close();
Um Proxys bei jeder neuen Anfrage zu rotieren, erstellen Sie einen neuen Browser-Kontext mit einem neuen Proxy aus Ihrem Pool. Dies simuliert das Verhalten verschiedener Nutzer.
Option 3: Python + requests/httpx
Für Websites ohne JavaScript-Rendering (oder für die Arbeit mit APIs von Flugwebsites) eignet sich Python:
import requests
import random
proxies_pool = [
"http://login:[email protected]:port",
"http://login:[email protected]:port",
"http://login:[email protected]:port",
]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "de-DE,de;q=0.9",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
}
proxy = {"http": random.choice(proxies_pool), "https": random.choice(proxies_pool)}
response = requests.get(
"https://www.aviasales.ru/search/...",
proxies=proxy,
headers=headers,
timeout=15
)
print(response.status_code)
IP-Rotation und Sitzungsmanagement: Schlüsselregeln
Die richtige Rotation von IPs ist die halbe Miete beim Scraping von Flugpreisen. Es reicht nicht aus, einfach die IP zu wechseln: Man muss es intelligent tun.
Regel 1: Eine IP – eine Sitzung
Verwenden Sie nicht eine IP für mehrere parallele Anfragen. Anti-Bot-Systeme erkennen eine abnormal hohe Last von einer Adresse und blockieren sie. Jeder Anfrage-Stream sollte über einen separaten Proxy laufen.
Regel 2: Zufällige Verzögerungen zwischen Anfragen
Ein echter Nutzer macht keine Anfragen in gleichmäßigen Zeitabständen. Fügen Sie eine zufällige Verzögerung von 2 bis 8 Sekunden zwischen den Anfragen hinzu. Dies reduziert die Wahrscheinlichkeit, von einem Bot erkannt zu werden, um das 3–4-fache im Vergleich zu gleichmäßigen Anfragen.
Regel 3: Übereinstimmung von Geolokalisierung und Sprache
Wenn Sie Proxys mit deutscher IP verwenden, sollte in den Browser-Headern die deutsche Sprache angegeben sein (Accept-Language: de-DE). Eine Diskrepanz ist ein eindeutiges Signal für Anti-Bot-Systeme. Dies ist besonders wichtig für Google Flights.
Regel 4: Sitzungsproxies für mehrstufige Anfragen
Einige Flugwebsites erfordern mehrere Schritte: Suche → Auswahl des Flugs → Anzeige der Details. Alle diese Schritte sollten von einer IP aus durchgeführt werden. Verwenden Sie Sticky-Sitzungen – einen Modus, bei dem eine IP für Ihren Stream für eine bestimmte Zeit (normalerweise 10–30 Minuten) zugewiesen wird.
Regel 5: Überwachung der Proxy-Qualität
Überprüfen Sie regelmäßig, welche IPs aus dem Pool blockiert sind. Schließen Sie automatisch Adressen aus, die den Code 403, 429 oder eine Umleitung zu einem Captcha zurückgeben. Die meisten professionellen Scraping-Frameworks (Scrapy, Apify) erledigen dies automatisch.
Fertige Tools für das Scraping von Flugpreisen
Wenn Sie keinen Scraper von Grund auf neu schreiben möchten, hier sind Tools, die bereits die Arbeit mit Proxys unterstützen und sich für die Überwachung von Flugpreisen eignen:
Apify
Cloud-Plattform für Web-Scraping. Hat fertige Akteure (Bots) für Skyscanner und Google Flights. Unterstützt die Verbindung externer Proxys über die Einstellungen. Um Ihre Proxys zu verbinden: Gehen Sie zu den Einstellungen des Akteurs → Registerkarte „Proxy und Browserkonfiguration“ → wählen Sie „Benutzerdefinierte Proxys“ → fügen Sie die URL Ihrer Proxys im Format http://user:pass@host:port ein.
Octoparse
No-Code-Scraper mit einer visuellen Oberfläche. Geeignet für diejenigen, die keinen Code schreiben. Unterstützt die Proxy-Rotation: Einstellungen → Cloud-Extraktion → Proxy-Einstellungen → Benutzerdefinierten Proxy hinzufügen. Sie können eine Liste von Proxys hinzufügen, und Octoparse wird sie automatisch abwechseln.
Scrapy + Scrapy-Rotating-Proxies
Python-Framework für professionelles Scraping. Das Plugin scrapy-rotating-proxies rotiert automatisch IPs aus Ihrer Liste und schließt blockierte Adressen aus. Geeignet für hochbelastete Aufgaben – Hunderttausende von Anfragen pro Tag.
ParseHub
Ein weiteres No-Code-Tool mit Unterstützung für JavaScript-Rendering. Funktioniert gut mit Aviasales. Proxys werden im Abschnitt Einstellungen → Erweitert → Proxy angeschlossen.
⚠️ Wichtig zu Geotargeting von Preisen
Flugwebsites zeigen unterschiedliche Preise je nach Land des Nutzers an. Dies ist nicht nur eine Marketingstrategie – es ist eine technische Realität. Wenn Sie Preise für den russischen Markt überwachen, verwenden Sie Proxys mit russischen IPs. Für den Preisvergleich zwischen Märkten (z.B. wie viel der gleiche Flug für einen Nutzer aus Deutschland kostet) sind Proxys mit IPs der entsprechenden Länder erforderlich.
Checkliste: So vermeiden Sie eine Sperre beim Sammeln von Preisen für Flugtickets
Speichern Sie diese Liste – sie hilft, die meisten Probleme bei der Einrichtung des Scrapings zu vermeiden:
✅ Vor dem Start des Scrapers
- Residential oder mobile Proxys ausgewählt (keine Rechenzentrums-Proxys)
- IP des Proxys entspricht dem Zielmarkt (Land/Stadt)
- Die Sprache des Browsers stimmt mit der Geolokalisierung des Proxys überein
- IP-Rotation eingerichtet (mindestens 1 IP pro Stream)
- User-Agent-Header simulieren einen echten Browser
- Für JS-Websites wird ein Headless-Browser verwendet (Playwright/Puppeteer)
✅ Während der Arbeit des Scrapers
- Verzögerungen zwischen Anfragen: 2–8 Sekunden (zufällig)
- Nicht mehr als 20–30 Anfragen pro Minute von einer IP
- Mehrstufige Sitzungen verwenden eine IP (Sticky Session)
- Codes 403/429 schließen automatisch IPs aus dem Pool aus
- Protokollierung aller Fehler zur Analyse
✅ Zusätzlich für komplexe Websites
- Korrekte Referer- und Accept-Header
- Simulation von Mausbewegungen und Scrollen (für Playwright)
- Zufällige Änderung des User-Agent aus einem realen Pool von Browsern
- Verwendung von Cookie-Sitzungen zur Simulation eines erneuten Besuchs
Typische Fehler, die zu Sperren führen
- Verwendung von kostenlosen Proxys. Ihre IPs sind längst auf die schwarzen Listen aller großen Flugwebsites gesetzt. Sie erhalten eine Sperre bei der ersten Anfrage.
- Zu hohe Anfragefrequenz. Selbst mit guten Proxys sind 100 Anfragen pro Minute von einer IP der sichere Weg zur Sperre.
- Gleicher User-Agent für alle Anfragen. Echte Nutzer verwenden verschiedene Browser und Versionen – Ihr Scraper sollte dies simulieren.
- Ignorieren von Cookies. Viele Websites verfolgen die Sitzung über Cookies. Wenn Sie Cookies nicht speichern und zwischen Anfragen nicht übergeben, sieht das Verhalten abnormal aus.
- Diskrepanz zwischen Geolokalisierung und Anfrageinhalt. Die russischsprachige Version der Website über eine amerikanische IP anzufordern – ein rotes Signal für Anti-Bot-Systeme.
Fazit
Das Sammeln von Daten über Flugpreise ist eine der technisch anspruchsvollsten Aufgaben im Scraping. Flugwebsites investieren erhebliche Ressourcen in den Schutz vor Bots, und es ist unmöglich, dies ohne die richtigen Tools zu umgehen. Die wichtigsten Schlussfolgerungen aus diesem Artikel:
- Rechenzentrums-Proxys funktionieren nicht für Flugwebsites – sie werden sofort blockiert.
- Residential Proxys sind die optimale Wahl für die großflächige Überwachung von Preisen aus verschiedenen Märkten.
- Mobile Proxys sind für die am stärksten geschützten Plattformen (Kayak, Skyscanner) und kritische Daten erforderlich.
- IP-Rotation, zufällige Verzögerungen und die Simulation eines echten Browsers sind zwingende Voraussetzungen für einen stabilen Betrieb.
- Die Geolokalisierung des Proxys muss mit dem Zielmarkt übereinstimmen, sonst sind die Preise inkorrekt.
Wenn Sie planen, ein System zur Überwachung von Flugpreisen aufzubauen oder Daten für einen Aggregator zu sammeln, beginnen Sie mit Residential Proxys – sie bieten das richtige Gleichgewicht zwischen Qualität des Schutzumgehung, geografischer Abdeckung und Kosten. Für die komplexesten Websites mit aggressivem Anti-Bot-Schutz sollten Sie mobile Proxys in Betracht ziehen – sie bieten das maximale Vertrauen seitens der Anti-Bot-Systeme und schließen Blockierungen bei richtiger Konfiguration praktisch aus.