Wenn Sie im Recruiting oder in der HR-Analyse tätig sind, sind Sie sicherlich schon einmal in die Situation geraten: Sie müssen schnell 500+ Stellenangebote von Wettbewerbern sammeln, den Gehaltsmarkt verfolgen oder die Kontaktdaten von Arbeitgebern extrahieren – und die Plattformen sperren Sie bereits nach 20-30 Anfragen. LinkedIn und HeadHunter schützen aktiv ihre Daten, und ohne den richtigen Ansatz wird das Parsen zu einem endlosen Kampf gegen Captchas und Sperren.
In diesem Leitfaden werden wir untersuchen, welche Tools im Jahr 2024 tatsächlich funktionieren, wie man Proxys für eine stabile Datensammlung einrichtet und welche Fehler zu vermeiden sind, um das Konto nicht zu verlieren.
Warum LinkedIn und HeadHunter das Parsen blockieren
Beide Plattformen verdienen Geld mit Daten. LinkedIn verkauft den Zugang zur Datenbank über kostenpflichtige Tarife wie Recruiter und Recruiter Lite, HeadHunter über API und kostenpflichtige Anzeigen. Wenn jemand beginnt, diese Daten massenhaft kostenlos zu sammeln, reagieren die Plattformen hart. Hier sind die konkreten Schutzmechanismen, mit denen Sie konfrontiert werden:
Rate Limiting – Begrenzung der Anfragefrequenz
LinkedIn verfolgt die Anzahl der Profil- und Stellenanzeigenaufrufe pro Zeiteinheit. Ein kostenloses Konto kann etwa 300 Profile pro Monat ansehen – danach erhalten Sie eine Warnung oder eine vorübergehende Sperre. Bei automatisiertem Parsen ohne Verzögerungen zwischen den Anfragen wird dieses Limit in wenigen Minuten erschöpft. HeadHunter begrenzt die Anzahl der Suchanfragen von einer IP-Adresse – bei Überschreitung wird ein Captcha angezeigt oder der Zugang vorübergehend gesperrt.
Verhaltensanalyse und User-Agent
Die Plattformen analysieren Verhaltensmuster: Ein echter Benutzer scrollt durch die Seite, verweilt bei Inhalten und klickt inkonsistent. Ein Bot sendet Anfragen mit identischen Intervallen, scrollt nicht und sendet untypische Header. LinkedIn überprüft zusätzlich das Vorhandensein einer autorisierten Sitzung – ohne Anmeldung sehen Sie eingeschränkte Daten und erhalten sehr schnell eine IP-Sperre.
IP-Adresssperre
Dies ist der häufigste Schutz. Wenn von einer IP zu viele Anfragen gesendet werden, wird die IP auf die schwarze Liste gesetzt. Besonders schnell werden IPs von Rechenzentren (AWS, Google Cloud, Hetzner) gesperrt: Die Plattformen kennen diese Adressbereiche und betrachten sie mit erhöhtem Misstrauen. Heim- und Mobil-IP-Adressen werden seltener gesperrt, da sie von echten Benutzern stammen können.
⚠️ Wichtig zu wissen
LinkedIn hat im Jahr 2023 den Schutz erheblich verschärft: Selbst bei manuellem Durchsehen von Profilen mit VPN oder Rechenzentrums-Proxys kann das Konto gesperrt werden. Für die Arbeit mit LinkedIn sind residentielle oder mobile Proxys von entscheidender Bedeutung.
Was genau parsen Recruiter und HR-Analysten
Bevor Sie die Tools einrichten, definieren Sie die Aufgabe – davon hängt die Wahl des Ansatzes und des Proxytyps ab. Hier sind die Hauptszenarien, mit denen HR-Profis und Recruiting-Agenturen arbeiten:
| Aufgabe | Plattform | Datenvolumen |
|---|---|---|
| Marktgehaltsüberwachung | HeadHunter, LinkedIn | 500–5000 Stellenangebote/Tag |
| Sammlung von Kontakten von Arbeitgebern | 100–1000 Profile/Tag | |
| Analyse der Anforderungen an Kandidaten | HeadHunter, LinkedIn | 1000–10 000 Stellenangebote |
| Überwachung neuer Stellenangebote von Wettbewerbern | HeadHunter | Tägliche Überwachung |
| Suche nach passiven Kandidaten | 50–500 Profile/Tag |
Der Schlüsselpunkt: Aufgaben mit hohem Datenvolumen (Tausende von Stellenangeboten pro Tag) erfordern einen Pool von Proxys mit Rotation. Aufgaben mit geringem Volumen (Überwachung von 50-100 Positionen täglich) können mit 1-2 statischen Proxys unter Einhaltung von Verzögerungen zwischen den Anfragen gelöst werden.
Fertige Tools zum Parsen von Stellenangeboten
Gute Nachrichten: Sie müssen keinen Code von Grund auf neu schreiben. Es gibt fertige Lösungen für verschiedene Aufgaben und technische Niveaus. Lassen Sie uns die Hauptkategorien untersuchen.
No-Code-Tools (ohne Programmierung)
Apify – eine Cloud-Plattform mit fertigen "Schauspielern" für LinkedIn und HeadHunter. Es gibt einen fertigen LinkedIn Jobs Scraper und HH.ru Scraper. Sie geben einfach die Suchparameter an, die Plattform erledigt den Rest. Unterstützt die Verbindung eigener Proxys. Tarife ab 49 $/Monat, es gibt ein kostenloses Limit.
Phantombuster – spezialisiert auf LinkedIn. Kann Stellenangebote, Profile und Kontaktdaten von Unternehmen sammeln. Funktioniert über ein autorisiertes LinkedIn-Konto. Unterstützt Proxys. Wichtig: Ein LinkedIn-Konto = ein Proxy-Profil, sonst erhalten Sie eine Sperre wegen IP-Wechsel.
Octoparse – ein visueller Parser-Builder. Ermöglicht das Einrichten der Datensammlung von jeder Website ohne Code, indem die benötigten Elemente mit der Maus angegeben werden. Unterstützt Proxy-Rotation. Geeignet für HeadHunter – die Benutzeroberfläche ist einfach und verständlich.
Tools für technische Benutzer
ParseHub – eine Desktop-Anwendung mit einer visuellen Benutzeroberfläche, aber flexibler als Octoparse. Kann mit dynamischen Inhalten (JavaScript-Seiten) arbeiten. Für LinkedIn ist dies entscheidend – die meisten Daten werden dynamisch geladen.
Bright Data (Web Scraper IDE) – eine professionelle Plattform mit integrierten Proxys. Es gibt fertige Vorlagen für LinkedIn. Teuer, aber zuverlässig für industrielle Volumen.
HH.ru API – offizielle API von HeadHunter. Kostenlos für nicht-kommerzielle Nutzung, kostenpflichtig für Unternehmen. Wenn Ihre Aufgabe die Überwachung von Stellenangeboten und nicht das massenhafte Sammeln von Kontakten ist, ist die offizielle API die stabilste Option. Limits: 50 Anfragen pro Sekunde für autorisierte Anwendungen.
💡 Tipp
Für HeadHunter beginnen Sie mit der offiziellen API – das ist legal, stabil und kostenlos bis zu bestimmten Limits. Für LinkedIn sind Sie ohne Drittanbieter-Tools und Proxys aufgeschmissen, da es keine offizielle öffentliche API für Stellenangebote gibt.
Warum Proxys benötigt werden und welchen Typ wählen
Proxys sind Zwischenserver, über die Ihre Anfragen laufen. Die Plattform sieht die IP des Proxys und nicht Ihre echte Adresse. Bei der Rotation von Proxys (automatischer IP-Wechsel) sieht jede Anfrage wie eine Anfrage von einem neuen Benutzer aus – dies ermöglicht es, Limits und Sperren zu umgehen.
Aber nicht alle Proxys sind gleich effektiv für LinkedIn und HeadHunter. Die Wahl des Proxytyps hat entscheidenden Einfluss auf das Ergebnis:
| Proxytyp | HeadHunter | Geschwindigkeit | Preis | |
|---|---|---|---|---|
| Residentielle | ✅ Ausgezeichnet | ✅ Ausgezeichnet | Durchschnittlich | $$ |
| Mobile | ✅ Ausgezeichnet | ✅ Gut | Durchschnittlich | $$$ |
| Rechenzentren | ❌ Werden oft blockiert | ⚠️ Mäßig | Hoch | $ |
Residentielle Proxys – die optimale Wahl für LinkedIn
Residentielle Proxys verwenden echte IP-Adressen von Heimnutzern. Aus Sicht von LinkedIn ist dies eine gewöhnliche Person, die zu Hause sitzt. Solche IPs landen äußerst selten auf Blacklists, und die Plattform kann sie nicht von echten Benutzern unterscheiden. Für das Parsen von LinkedIn ist dies der Branchenstandard.
Wichtige Parameter bei der Auswahl residentieller Proxys für das Parsen von Stellenangeboten:
- Geolokalisierung: Wählen Sie IPs aus dem Land, dessen Stellenangebote Sie parsen (für HeadHunter – Russland, für LinkedIn – das benötigte Land)
- Rotation: automatischer IP-Wechsel nach jeder Anfrage oder nach Timer
- IP-Pool: je größer, desto besser, verringert das Risiko der Wiederverwendung einer blockierten IP
- Unterstützung von HTTP/HTTPS und SOCKS5 – die meisten Parsing-Tools benötigen diese Protokolle
Mobile Proxys – für die Arbeit mit LinkedIn-Konten
Wenn Sie LinkedIn über ein autorisiertes Konto parsen (wie es bei Phantombuster der Fall ist), bieten mobile Proxys einen zusätzlichen Vorteil: LinkedIn sieht den Mobilfunkanbieter als Quelle und vertraut solchen IPs noch mehr. Eine mobile IP kann Tausende von echten Benutzern bedienen (hinter NAT des Anbieters), daher ruft selbst eine hohe Aktivität von ihr keine Verdachtsmomente hervor.
Rechenzentrums-Proxys – nur für HeadHunter
Rechenzentrums-Proxys sind schnell und günstig, aber LinkedIn blockiert sie aggressiv. Für HeadHunter funktionieren sie besser: Die Plattform ist weniger paranoid gegenüber Rechenzentrums-IP, insbesondere wenn man Verzögerungen zwischen den Anfragen einhält. Sie eignen sich für kostengünstige Überwachung von Stellenangeboten bei geringen Volumina.
LinkedIn-Parsing: Schritt-für-Schritt-Anleitung
LinkedIn ist die schwierigste Plattform zum Parsen. Hier ist es wichtig, vorsichtig zu handeln, um das Konto nicht zu verlieren. Lassen Sie uns ein funktionierendes Schema am Beispiel von Phantombuster untersuchen – einem der beliebtesten Tools unter Recruitern.
Schritt 1: Bereiten Sie Ihr LinkedIn-Konto vor
Verwenden Sie niemals Ihr Hauptarbeitskonto zum Parsen. Erstellen Sie ein separates Konto oder verwenden Sie ein sekundäres. Wenn es gesperrt wird, verlieren Sie keine wertvollen Verbindungen und Historie. Das Konto sollte "aufgewärmt" sein: ausgefülltes Profil, mehrere Kontakte, mindestens eine Woche Aktivität vor Beginn des Parsens.
Schritt 2: Binden Sie Proxys an das Konto
Kritische Regel: Ein LinkedIn-Konto = eine IP-Adresse. Wenn Sie heute mit IP 1 und morgen mit IP 2 zugreifen, ist das ein rotes Signal für das Sicherheitssystem von LinkedIn. Verwenden Sie einen statischen residential Proxy (sticky session) für jedes Konto.
In Phantombuster sieht die Proxy-Einrichtung so aus:
- Gehen Sie zu Settings → Proxies in Ihrem Phantombuster-Konto
- Klicken Sie auf Add Proxy
- Geben Sie die Proxy-Daten ein: Host, Port, Benutzername, Passwort
- Wählen Sie den Typ: HTTP oder SOCKS5 (abhängig von Ihrem Proxy-Anbieter)
- Klicken Sie auf Test Proxy – stellen Sie sicher, dass der Proxy funktioniert
- Weisen Sie diesen Proxy einem bestimmten "Phantom" (Aufgabe) zu, das mit Ihrem Konto arbeitet
Schritt 3: Richten Sie den LinkedIn Jobs Export ein
Suchen Sie in Phantombuster nach dem Phantom "LinkedIn Jobs Search Export". Einstellungen:
- Search URL: Fügen Sie die URL der LinkedIn-Stellenangebotssuche mit den gewünschten Filtern (Position, Stadt, Beschäftigungsart) ein
- Number of jobs per launch: Beginnen Sie mit 25-50. Setzen Sie nicht gleich 500 am ersten Tag
- Launch frequency: 1 Mal alle 2-3 Stunden. Starten Sie nicht kontinuierlich
- Session cookie: Kopieren Sie das Cookie li_at aus dem Browser (Anleitung in Phantombuster vorhanden)
Schritt 4: Richten Sie sichere Limits ein
LinkedIn blockiert wegen Aggressivität, nicht wegen des Parsens selbst. Sichere Limits für ein Konto:
- Nicht mehr als 80-100 Stellenanzeigenaufrufe pro Tag
- Verzögerung zwischen Anfragen: mindestens 3-5 Sekunden
- Machen Sie Pausen in der Nacht (imitieren Sie menschliches Verhalten)
- Starten Sie das Parsen nicht an Wochenenden – das sieht verdächtig für eine B2B-Plattform aus
⚠️ Wenn Sie ein großes Datenvolumen von LinkedIn benötigen
Wenn Sie Tausende von Stellenangeboten pro Tag parsen müssen – verwenden Sie mehrere Konten, jedes mit seinem eigenen residentiellen Proxy. Ein Konto + eine IP = maximal 100 Stellenangebote pro Tag ohne Risiko einer Sperre. 10 Konten × 100 = 1000 Stellenangebote pro Tag.
HeadHunter-Parsing: Besonderheiten und Einrichtung
HeadHunter ist einfacher als LinkedIn in Bezug auf das Parsen aus zwei Gründen: Es gibt eine offizielle API und der Schutz ist weniger aggressiv. Aber bei massenhaften Datensammlungen ohne die richtige Einrichtung werden Sie trotzdem eine Sperre erhalten.
Option 1: Offizielle HeadHunter API (empfohlen)
Wenn Ihre Aufgabe die Überwachung von Stellenangeboten und die Marktanalyse ist (ohne das Sammeln von Kontakten), verwenden Sie die offizielle API von hh.ru. Das ist völlig legal und bietet stabilen Zugang zu Daten.
- Registrieren Sie eine Anwendung auf dev.hh.ru
- Erhalten Sie client_id und client_secret
- Verwenden Sie den Endpoint GET /vacancies zur Suche nach Stellenangeboten
- Filterparameter: text, area (Region), salary, experience, schedule
- Limit: 50 Anfragen pro Sekunde für autorisierte Anwendungen
Das Ergebnis wird im JSON-Format geliefert – es lässt sich leicht in Excel oder Google Sheets über Tools wie Zapier oder Make (ehemals Integromat) ohne Programmierung hochladen.
Option 2: Parsing über Apify (ohne Code)
Wenn Sie Daten benötigen, die in der offiziellen API nicht verfügbar sind (z.B. Kontaktdaten von Arbeitgebern oder Daten in nicht standardisiertem Format), verwenden Sie Apify mit einem fertigen Schauspieler für HH.ru:
- Gehen Sie zu apify.com und suchen Sie nach dem Schauspieler "HH.ru Scraper"
- Klicken Sie auf Try for free
- Geben Sie in den Einstellungen die Suchanfrage an (Position, Stadt)
- Wählen Sie im Abschnitt Proxy configuration "Custom proxies" und fügen Sie die Daten Ihrer Proxys ein
- Für HeadHunter sind residentielle Proxys mit russischen IPs geeignet – die Plattform ist regional
- Klicken Sie auf Start und warten Sie auf die Ergebnisse
- Exportieren Sie die Daten in CSV, JSON oder Excel
Option 3: Octoparse für fortgeschrittene Aufgaben
Octoparse ermöglicht es, das Parsen beliebiger Elemente auf der HH.ru-Seite einzurichten – einschließlich derer, die in der API nicht verfügbar sind. Zum Beispiel können vollständige Stellenbeschreibungen, Kontaktdaten (wenn sichtbar) und Links zu Unternehmen gesammelt werden.
- Laden Sie Octoparse herunter und installieren Sie es
- Erstellen Sie eine neue Aufgabe, fügen Sie die URL der Stellenangebotssuche auf hh.ru ein
- Verwenden Sie den Auto-detect-Modus – Octoparse erkennt selbst die Struktur der Liste
- Überprüfen Sie, ob alle benötigten Felder hervorgehoben sind (Titel, Unternehmen, Gehalt, Stadt)
- Aktivieren Sie in den Aufgabeneinstellungen IP Rotation und fügen Sie Ihre Proxys hinzu
- Stellen Sie eine Verzögerung zwischen den Anfragen ein: 2-4 Sekunden
- Starten Sie in der Cloud (Cloud Extraction) für kontinuierliches Sammeln
💡 Geolokalisierung von Proxys für HeadHunter
HeadHunter bestimmt die Region des Benutzers anhand der IP und zeigt regionale Stellenangebote an. Wenn Sie Stellenangebote aus einer bestimmten Stadt (z.B. nur Moskau oder St. Petersburg) parsen möchten, verwenden Sie Proxys mit IPs aus dieser Region. Für eine landesweite Überwachung genügt jede russische IP.
Häufige Fehler und wie man sie vermeiden kann
Die meisten Probleme beim Parsen von LinkedIn und HeadHunter entstehen durch die gleichen Fehler. Hier ist eine Checkliste, was man nicht tun sollte:
❌ Fehler 1: Verwendung einer IP für alles
Der häufigste Fehler von Anfängern ist, das Parsen von ihrer Heim-IP oder von einem Proxy aus zu starten. Sobald die Plattform anomale Aktivitäten feststellt, wird die IP dauerhaft gesperrt. Lösung: Rotierende Proxys mit automatischem IP-Wechsel oder ein Pool aus mehreren statischen Proxys.
❌ Fehler 2: Zu hohe Anfragegeschwindigkeit
Das Parsen von 1000 Seiten in 10 Minuten ist der sichere Weg zur Sperre. Ein echter Benutzer kann physisch keine Seiten mit dieser Geschwindigkeit durchsehen. Stellen Sie Verzögerungen ein: mindestens 2-3 Sekunden zwischen Anfragen für HeadHunter, 5-10 Sekunden für LinkedIn. Fügen Sie eine zufällige Variation der Verzögerung hinzu (nicht genau 3 Sekunden, sondern von 2 bis 5 – das imitiert einen Menschen).
❌ Fehler 3: IP-Wechsel für LinkedIn-Konto
Wenn Sie rotierende Proxys für die Arbeit mit einem autorisierten LinkedIn-Konto verwenden – jede Anfrage erfolgt von einer neuen IP. LinkedIn sieht das als Konto-Hacking (jemand verbindet sich von verschiedenen Orten) und sperrt es. Verwenden Sie für autorisierte Sitzungen nur Sticky-Proxys (feste IP für längere Zeit) oder statische residentielle Proxys.
❌ Fehler 4: Ignorieren des User-Agent
Der User-Agent ist die Zeichenfolge, die der Browser an den Server sendet, um sich zu identifizieren. Viele Parsing-Tools senden standardmäßig einen User-Agent wie "python-requests/2.28.0" – das verrät sofort den Bot. Stellen Sie einen realistischen User-Agent eines modernen Browsers ein. In Apify und Phantombuster geschieht dies automatisch, in Octoparse – in den Aufgabeneinstellungen.
❌ Fehler 5: Parsen ohne Überprüfung von robots.txt
LinkedIn verbietet das Parsen in seiner robots.txt und verklagt aktiv Unternehmen, die dies in industriellem Maßstab tun. Das bedeutet nicht, dass man keine Daten für persönliche Analysen sammeln kann – aber es ist wichtig, die rechtlichen Risiken bei kommerzieller Nutzung zu verstehen. HeadHunter ist toleranter, insbesondere wenn die offizielle API verwendet wird.
❌ Fehler 6: Günstige öffentliche Proxys
Kostenlose oder sehr günstige Proxys aus öffentlichen Listen sind eine Falle. Sie sind bereits von den meisten Plattformen blockiert, arbeiten instabil und erfassen oft Daten. Für ernsthafte Arbeiten sind kostenpflichtige Proxys von vertrauenswürdigen Anbietern mit echten residentiellen oder mobilen IPs erforderlich.
Checkliste vor dem Start des Parsens
- ✅ Es wird ein separates Konto verwendet (nicht das Hauptarbeitskonto)
- ✅ Residentielle oder mobile Proxys sind angeschlossen
- ✅ Für LinkedIn: ein Konto = eine feste IP
- ✅ Verzögerungen zwischen Anfragen sind eingestellt (mindestens 3 Sek)
- ✅ User-Agent ist wie bei einem echten Browser eingestellt
- ✅ Tägliches Anfrage-Limit ist auf angemessene Werte begrenzt
- ✅ Proxys sind vor dem Start getestet
- ✅ Geolokalisierung der Proxys entspricht der Zielregion
Fazit
Das Parsen von Stellenangeboten von LinkedIn und HeadHunter ist ein funktionierendes Werkzeug für Recruiter, HR-Analysten und Arbeitsmarktforscher. Das Wichtigste ist, den richtigen Ansatz zu wählen: Für HeadHunter beginnen Sie mit der offiziellen API, für LinkedIn verwenden Sie spezialisierte Tools wie Phantombuster oder Apify mit richtig konfigurierten Proxys.
Wichtige Erkenntnisse aus dem Leitfaden: LinkedIn erfordert residentielle oder mobile Proxys mit fester IP pro Konto, HeadHunter ist weniger streng, benötigt aber ebenfalls Proxys bei großen Volumina. Halten Sie sich an die Anfrage-Limits, imitieren Sie menschliches Verhalten und verwenden Sie niemals Ihr Hauptkonto für die Automatisierung.
Wenn Sie eine regelmäßige Überwachung von Stellenangeboten oder eine umfangreiche Datensammlung von LinkedIn planen, empfehlen wir die Verwendung von residentiellen Proxys – sie bieten maximale Kompatibilität mit beiden Plattformen und minimales Risiko von Sperren, selbst bei längerer Nutzung.