Parsing von Foren und Avito: Wie man Daten ohne Blockierungen sammelt.

```html

Das Sammeln von Daten aus Foren und Kleinanzeigen ist eine kritische Aufgabe für Marketer, Marktanalysten und Geschäftsinhaber. Das Parsen von Avito zur Überwachung der Preise von Wettbewerbern, das Sammeln von Kontakten aus branchenspezifischen Foren, die Analyse von Bewertungen auf spezialisierten Plattformen – all diese Aufgaben stoßen auf ein Problem: Websites blockieren aktiv das automatische Sammeln von Daten. In diesem Artikel werden wir besprechen, wie man ein stabiles Parsen über Proxys einrichtet und Sperren vermeidet.

Warum Foren und Kleinanzeigen das Parsen blockieren

Die Betreiber der Plattformen schützen ihre Daten aus mehreren Gründen. Erstens erzeugt massives Parsen eine Belastung für die Server – ein Parser kann Tausende von Anfragen pro Stunde generieren, was dem Besuch der Website durch Hunderte von Benutzern gleichzeitig entspricht. Zweitens werden die gesammelten Daten oft von Wettbewerbern genutzt: Preise von Avito gelangen in Überwachungssysteme, Kontakte aus Foren in Datenbanken für Kaltakquise.

Moderne Schutzsysteme analysieren viele Parameter: die Häufigkeit von Anfragen von einer IP, Verhaltensmuster (der Parser öffnet Seiten zu schnell und nacheinander), Browser-Header, das Vorhandensein von JavaScript. Zum Beispiel verwendet Avito einen mehrstufigen Schutz: Überprüfung des User-Agent, Analyse von Cookies, Fingerprinting des Browsers, Captchas bei verdächtiger Aktivität.

Typische Anzeichen, an denen Sie erkannt werden:

Eine IP-Adresse – wenn alle Anfragen von einer IP kommen, ist das ein sofortiger Bann
Hohe Anfragefrequenz – ein normaler Benutzer kann nicht 10 Seiten pro Sekunde öffnen
Fehlende Cookies und JavaScript – einfache Skripte führen kein JS aus und speichern keine Cookies
Verdächtiger User-Agent – alte Versionen von Browsern oder Inkonsistenzen in den Headern
Sequenzielles Durchblättern von Seiten – das Parsen erfolgt strikt in der Reihenfolge (Seite 1, 2, 3...) sieht unnatürlich aus

Welche Proxys für das Parsen von Foren geeignet sind

Die Wahl des Proxytyps hängt vom Datenvolumen, dem Budget und dem Schutzlevel der Zielwebsite ab. Lassen Sie uns drei Hauptvarianten und deren Anwendung für das Parsen betrachten.

Proxytyp	Geschwindigkeit	Vertrauen der Websites	Am besten geeignet für
Rechenzentrums-Proxys	Sehr hoch (100+ Mbit/s)	Niedrig (einfach zu erkennen)	Kleine Foren ohne Schutz, Parsen von Archiven
Residential Proxys	Mittel (10-50 Mbit/s)	Hoch (echte IPs von Heimnetzwerken)	Avito, große Foren, Websites mit Schutz
Mobile Proxys	Mittel (5-30 Mbit/s)	Maximal (IP von Mobilfunkanbietern)	Plattformen mit strengen Schutzmaßnahmen, Kontaktdatensammlung

Rechenzentrums-Proxys – die günstigste Option, geeignet für einfache Aufgaben. Wenn Sie ein kleines thematisches Forum oder eine Kleinanzeige ohne ernsthaften Schutz parsen müssen, reicht das aus. Die Geschwindigkeit ermöglicht es, Zehntausende von Seiten pro Stunde zu verarbeiten. Aber Avito, YouDo, forum.ru und andere große Plattformen werden solche IPs schnell erkennen und blockieren.

Residential Proxys – das optimale Preis-Leistungs-Verhältnis für die meisten Aufgaben. Dies sind echte IPs von Heimnutzern, die von Websites nicht von normalen Besuchern unterschieden werden können. Für das Parsen von Avito, Yandex.Dienste, großen Foren ist dies die Standardwahl. Ein wichtiger Punkt: Residential Proxys werden normalerweise mit einer Abrechnung nach Traffic verkauft, daher optimieren Sie die Anfragen – laden Sie keine unnötigen Bilder und Skripte.

Mobile Proxys – maximale Zuverlässigkeit für schwierige Fälle. IPs von Mobilfunkanbietern (MTS, Beeline, Megafon) haben das höchste Vertrauensniveau, da hinter einer IP Tausende von echten Nutzern stehen können (CGNAT-Technologie). Verwenden Sie sie für Plattformen mit strengen Schutzmaßnahmen oder wenn Sie kritische Daten ohne Risiko eines Banns sammeln müssen.

Paresn von Avito: Besonderheiten und Einstellungen

Avito ist eine der am stärksten geschützten Plattformen im russischen Internet. Das Antiparsing-System umfasst die Überprüfung von JavaScript, Fingerprinting des Browsers, Verhaltensanalyse, Captchas bei geringstem Verdacht. Ein einfaches Skript mit requests wird nicht funktionieren – Sie erhalten eine leere Seite oder ein Captcha bereits bei der dritten Anfrage.

Was für ein stabiles Parsen von Avito benötigt wird:

Obligatorische Komponenten:
1. Residential oder mobile Proxys mit Rotation alle 5-10 Minuten
2. Headless-Browser (Selenium, Puppeteer, Playwright) zur Ausführung von JavaScript
3. Realistische Browser-Header und User-Agent der aktuellen Chrome-Version
4. Verzögerungen zwischen Anfragen: 3-7 Sekunden pro Seite
5. Speicherung von Cookies zwischen den Sitzungen

Eine typische Aufgabe ist die Überwachung der Preise von Wettbewerbern. Sie müssen jeden Tag Anzeigen in Ihrer Kategorie sammeln und Änderungen verfolgen. Für eine Kategorie mit 500-1000 Anzeigen werden etwa 50-100 Anfragen benötigt (unter Berücksichtigung der Paginierung und Produktkarten). Bei richtiger Einstellung dauert dies 10-15 Minuten und 1-2 GB Traffic von Residential Proxys.

Schritt-für-Schritt-Anleitung zur Einrichtung des Parsers für Avito:

Erhalten Sie Proxys – bestellen Sie einen Pool von Residential IPs mit Rotation. Für die tägliche Überwachung einer Kategorie reichen 10-20 GB Traffic pro Monat.
Richten Sie den Headless-Browser ein – verwenden Sie Selenium oder Puppeteer. Wichtig: Aktivieren Sie den Headless-Modus, fügen Sie jedoch Parameter hinzu, um die Erkennung zu umgehen (window.navigator.webdriver = false).
Richten Sie Proxys im Browser ein – übergeben Sie die Proxy-Daten beim Start des Browsers. Für Selenium sind dies die Parameter --proxy-server, für Puppeteer – args in puppeteer.launch().
Fügen Sie realistisches Verhalten hinzu – zufällige Verzögerungen von 3-7 Sekunden, Scrollen der Seite vor dem Sammeln von Daten, Mausbewegungen (für Selenium).
Speichern Sie Cookies – speichern Sie nach dem ersten Besuch die Cookies und verwenden Sie sie in den folgenden Sitzungen. Dies verringert die Verdächtigkeit.
Ändern Sie regelmäßig die IP – Rotation alle 5-10 Minuten oder alle 20-30 Anfragen. Verwenden Sie nicht eine IP für das gesamte Parsen.

Ein kritischer Fehler von Anfängern ist, zu schnell zu parsen. Selbst mit Proxys, wenn Sie Seiten jede Sekunde öffnen, wird das System den Bot anhand des Verhaltensmusters erkennen. Ein normaler Benutzer liest eine Anzeige 10-30 Sekunden, scrollt nach unten, kehrt zur Suche zurück. Ihr Parser sollte dies imitieren: Verzögerungen, Scrollen, manchmal Wechsel zu benachbarten Kategorien.

Datensammlung aus Foren: Strategien und Werkzeuge

Foren unterscheiden sich im Schutzlevel. Alte Foren auf phpBB oder vBulletin haben normalerweise keinen ernsthaften Antibot-Schutz – Rechenzentrums-Proxys und ein einfacher Parser sind ausreichend. Moderne Plattformen (forum.ru, spezialisierte branchenspezifische Foren) verwenden Cloudflare oder eigene Schutzsysteme.

Typische Aufgaben beim Parsen von Foren:

Kontaktsammlung – E-Mail, Telefonnummern, Telegram aus Signaturen und Nachrichten der Benutzer
Überwachung von Markenmentions – Verfolgung von Bewertungen über Ihr Unternehmen oder Wettbewerber
Stimmungsanalyse – Sammlung von Meinungen zu Produkten, Dienstleistungen, Trends in der Branche
Lead-Generierung – Personen, die nach einer Lösung für Ihr Problem suchen (zum Beispiel suchen auf Bauforen nach Auftragnehmern)

Für kleine Foren (bis zu 10.000 Seiten) sind fertige Tools geeignet: Octoparse, ParseHub, WebHarvy. Sie haben eine visuelle Schnittstelle – Sie klicken einfach auf die Elemente, die Sie sammeln möchten, und das Tool erstellt den Parser. In den Einstellungen geben Sie Proxys, Verzögerungen an und starten die Sammlung.

Für große Projekte (Hunderte von Tausenden von Seiten) ist ein benutzerdefinierter Parser erforderlich. Beliebte Frameworks: Scrapy (Python), Puppeteer (JavaScript), Playwright (unterstützt alle Sprachen). Sie ermöglichen eine flexible Anpassung der Crawling-Logik, Fehlerbehandlung und verteiltes Parsen über einen Proxy-Pool.

Beispielstrategie für das Parsen eines branchenspezifischen Forums:

Aufgabe: Kontakte von Fachleuten aus einem Bauforum sammeln (50.000 Benutzer, 500.000 Nachrichten).

1. Verwenden Sie Residential Proxys mit einem Pool von 50-100 IPs
2. Parsen Sie die Benutzerliste (50.000 Profile) mit einer Geschwindigkeit von 500 Profilen/Stunde (Verzögerung 7 Sekunden)
3. Ändern Sie die IP alle 100 Profile (alle 12 Minuten)
4. Extrahieren Sie E-Mail, Website, Signatur mit Kontakten aus den Profilen
5. Gesamtdauer: 100 Stunden (4 Tage ununterbrochene Arbeit)
6. Traffic: etwa 20-30 GB Residential Proxys

Ein wichtiger Punkt: Viele Foren erfordern eine Registrierung, um Kontakte oder versteckte Abschnitte anzuzeigen. Erstellen Sie im Voraus mehrere Konten (manuell, von verschiedenen IPs), halten Sie sie 1-2 Wochen und machen Sie einige Nachrichten. Verwenden Sie diese Konten für das Parsen – ein autorisierter Benutzer erweckt weniger Verdacht.

IP-Rotation und Sitzungsmanagement

Die richtige IP-Rotation ist der Schlüssel zu langfristigem, stabilem Parsen. Es gibt zwei Hauptansätze: Zeitrotation und Anfrage-Rotation.

Zeitrotation: Ändern Sie die IP alle N Minuten. Geeignet für Aufgaben, bei denen Vorhersehbarkeit wichtig ist. Zum Beispiel parsen Sie Avito alle 5 Minuten und ändern die IP – so überschreiten Sie garantiert nicht das Anfrage-Limit von einer Adresse. Nachteil: Wenn der Parser abstürzt oder langsamer wird, verlieren Sie die IP umsonst.

Anfrage-Rotation: Ändern Sie die IP alle N Anfragen (zum Beispiel alle 20-50 Seiten). Effektiverer Verbrauch von Proxys, erfordert jedoch eine genaue Zählung. Wenn die Website 100 Anfragen pro IP pro Stunde limitiert, setzen Sie die Rotation auf 80 Anfragen – so haben Sie einen Puffer für Fehler.

Plattform	Empfohlene Rotation	Verzögerung zwischen Anfragen
Avito	Alle 5-10 Minuten oder 20-30 Anfragen	3-7 Sekunden
YouDo, Profi.ru	Alle 10-15 Minuten oder 40-50 Anfragen	4-8 Sekunden
Foren mit Cloudflare	Alle 15-20 Minuten oder 60-80 Anfragen	5-10 Sekunden
Einfache Foren (phpBB, vBulletin)	Alle 30-60 Minuten oder 200-300 Anfragen	2-5 Sekunden

Sitzungsmanagement: Wenn Sie die IP ändern, entscheiden Sie, ob Sie die Sitzung (Cookies, localStorage) zurücksetzen oder beibehalten möchten. Für autorisiertes Parsen (Foren, persönliche Konten) speichern Sie die Sitzung, ändern jedoch die IP seltener – andernfalls wird die Website vermuten, dass das Konto gehackt wurde (Anmeldungen aus verschiedenen Städten). Für öffentliche Daten (Avito ohne Autorisierung) setzen Sie alles zurück, wenn Sie die IP ändern – jede IP sieht aus wie ein neuer Benutzer.

Eine fortgeschrittene Technik sind Sticky Sessions (klebrige Sitzungen). Einige Proxy-Anbieter ermöglichen es, die IP für 10-30 Minuten "festzulegen". Sie erhalten eine IP, machen alle Anfragen im Rahmen einer logischen Aufgabe (zum Beispiel das Parsen einer Kategorie von Avito) und wechseln dann zu einer neuen IP für die nächste Kategorie. Das ist natürlicher, als die IP mitten im Browsen zu ändern.

Einrichtung beliebter Parser für Proxys

Lassen Sie uns die Einrichtung von Proxys in beliebten Parsing-Tools betrachten. Beispiele für technische Spezialisten, die eigene Parser schreiben.

Scrapy (Python): Fügen Sie Middleware für die Proxy-Rotation hinzu. Erstellen Sie eine Liste von Proxys in settings.py und verwenden Sie die RandomProxy-Middleware für die automatische Rotation bei jeder Anfrage.

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:[email protected]:8000',
    'http://user:[email protected]:8000',
    'http://user:[email protected]:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

Puppeteer (JavaScript): Übergeben Sie den Proxy beim Start des Browsers. Für die Rotation erstellen Sie einen Proxy-Pool und wählen bei jedem neuen Start des Browsers einen zufälligen aus.

const puppeteer = require('puppeteer');

const proxyList = [
  'proxy1.example.com:8000',
  'proxy2.example.com:8000'
];

const proxy = proxyList[Math.floor(Math.random() * proxyList.length)];

const browser = await puppeteer.launch({
  args: [
    `--proxy-server=${proxy}`,
    '--no-sandbox'
  ]
});

// Proxy-Authentifizierung
const page = await browser.newPage();
await page.authenticate({
  username: 'user',
  password: 'pass'
});

Selenium (Python): Richten Sie den Proxy über die Chrome-Optionen ein. Für die HTTP-Authentifizierung verwenden Sie eine Erweiterung oder übergeben Sie die Anmeldedaten in der URL.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://user:[email protected]:8000')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-blink-features=AutomationControlled')

driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.avito.ru/moskva/kvartiry')

Fertige Parser (Octoparse, ParseHub): Suchen Sie im Einstellungsbereich der Aufgabe nach dem Abschnitt "Proxy" oder "IP-Rotation". Fügen Sie die Liste der Proxys im Format host:port:user:pass hinzu oder geben Sie die API-URL für die Rotation an. Aktivieren Sie die Option "Rotate on each request" oder "Rotate every N minutes".

Techniken zur Umgehung von Antibot-Schutz

Proxys lösen das Problem der IP-Blockierung, aber moderne Schutzsysteme analysieren Dutzende anderer Parameter. Hier ist ein Maßnahmenpaket zur Umgehung von Antibot-Systemen.

1. Realistische User-Agent und Header: Verwenden Sie aktuelle Versionen von Browsern. Setzen Sie nicht den User-Agent von Chrome 90 ein, wenn jetzt Chrome 120 veröffentlicht wurde. Überprüfen Sie die Übereinstimmung der Header: Wenn der User-Agent "Windows" sagt, der Header sec-ch-ua-platform jedoch "Linux" sagt – werden Sie erkannt.

# Gutes Header-Set für 2024
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
    'Accept-Encoding': 'gzip, deflate, br',
    'DNT': '1',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}

2. Umgehung der Erkennung von Headless-Browsern: Selenium und Puppeteer haben standardmäßig Anzeichen von Automatisierung (Eigenschaft navigator.webdriver = true). Verwenden Sie Stealth-Plugins oder Patches, um diese Anzeichen zu verbergen.

// Puppeteer Stealth Plugin
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

const browser = await puppeteer.launch({headless: true});

3. JavaScript Fingerprinting: Websites sammeln einen Fingerabdruck des Browsers (Canvas-Fingerabdruck, WebGL, Schriftarten, Bildschirmauflösung). Verwenden Sie zur Umgehung eine Randomisierung dieser Parameter oder echte Browserprofile. Werkzeuge: FingerprintJS Randomizer, Multilogin (Plattform mit vorgefertigten Profilen).

4. Captcha-Verarbeitung: Wenn dennoch ein Captcha erscheint, verwenden Sie Erkennungsdienste: 2Captcha, Anti-Captcha, CapMonster. Sie kosten $1-3 für 1000 Captchas. Die Integration über die API dauert 10-15 Minuten. Für reCAPTCHA v2/v3 gibt es fertige Bibliotheken.

5. Verhaltensmuster: Fügen Sie Zufälligkeit in die Aktionen ein. Öffnen Sie Seiten nicht strikt alle 5 Sekunden – variieren Sie zwischen 3 und 8 Sekunden. Machen Sie manchmal Pausen von 30-60 Sekunden, um das Lesen einer langen Seite zu simulieren. Wechseln Sie in Foren manchmal zu Benutzerprofilen und sammeln Sie nicht nur Themen.

Wichtig: Je komplexer der Schutz der Website, desto langsamer sollte der Parser arbeiten. Für Avito sind optimal 500-1000 Seiten pro Stunde von einem Thread. Wenn mehr benötigt wird – starten Sie mehrere parallele Parser mit unterschiedlichen Proxy-Pools, aber jeder sollte langsam und natürlich arbeiten.

Fazit

Das Parsen von Foren und Kleinanzeigen ist eine Aufgabe, die einen umfassenden Ansatz erfordert. Proxys lösen das Problem der IP-Blockierung, aber für eine stabile Funktion sind die richtigen Header, realistisches Verhalten, Umgehung von Fingerprinting und eine kluge Rotation erforderlich. Die Wahl des Proxytyps hängt vom Schutzlevel der Zielwebsite ab: Für einfache Foren sind Rechenzentrums-Proxys ausreichend, für Avito und große Plattformen sind Residential oder mobile IPs erforderlich.

Die Schlüsselprinzipien für erfolgreiches Parsen: langsam und natürlich, regelmäßige IP-Rotation, Verwendung von Headless-Browsern für komplexe Websites, Verarbeitung von Captchas bei Bedarf. Streben Sie nicht nach Geschwindigkeit – es ist besser, stabil 500 Seiten pro Stunde über Monate zu sammeln, als 5000 pro Stunde und nach zwei Tagen einen Bann zu erhalten.

Wenn Sie planen, Avito, YouDo, große Foren oder Plattformen mit ernsthaftem Schutz zu parsen, empfehlen wir die Verwendung von Residential Proxys – sie bieten das optimale Gleichgewicht zwischen Zuverlässigkeit und Kosten. Für besonders geschützte Plattformen oder das Sammeln kritischer Daten sind mobile Proxys mit dem höchsten Vertrauensniveau geeignet.

```

Foren- und Kleinanzeigen-Parsing: Daten ohne Blockierungen über Proxys sammeln