Proxys zum Sammeln von Daten für ML-Datensätze: vollständiger Leitfaden

```html

Die Qualität des ML-Modells hängt direkt von der Qualität und dem Umfang der Trainingsdaten ab. Doch sobald Sie beginnen, Tausende von Seiten zu sammeln, beginnen die Websites, Anfragen zu blockieren, zeigen Captchas an und sperren IPs. In diesem Artikel werden wir erörtern, wie man eine zuverlässige Pipeline zur Datensammlung für Datensätze aufbaut: welche Werkzeuge zu verwenden sind, wie man Schutzmaßnahmen umgeht und welcher Proxy-Typ für jede Aufgabe geeignet ist.

Warum Websites das Scraping von Daten blockieren und was man dagegen tun kann

Wenn Sie mit dem automatischen Datensammeln beginnen, sieht die Website keinen normalen Benutzer, sondern einen Strom von Anfragen von einer einzigen IP-Adresse. Dies löst sofort rote Fahnen bei den Schutzsystemen aus – Cloudflare, DataDome, PerimeterX und anderen Anti-Bot-Lösungen. Das Ergebnis: Captcha, temporäre Sperrung oder vollständige Sperrung der IP.

Das Problem ist besonders akut für ML-Projekte, da der Datensatz nicht 100 Seiten, sondern Zehntausende benötigt. Um selbst ein einfaches Textklassifizierungsmodell zu trainieren, sind mindestens 5.000–10.000 Beispiele erforderlich. Für Computer Vision sind es Hunderttausende von Bildern. Solch ein Volumen von einer IP zu sammeln, ist physisch unmöglich.

Die Schutzsysteme analysieren folgende Parameter:

Anfragefrequenz – mehr als 10–20 Anfragen pro Minute von einer IP ist bereits verdächtig.
User-Agent und Header – Standard-Header von Parsern sind leicht zu erkennen.
Fehlende Cookies und Sitzungsdaten – ein echter Browser hat immer eine Historie.
Geolokalisierung der IP – eine IP-Adresse aus einem Rechenzentrum in den Niederlanden auf einer russischsprachigen Website sieht verdächtig aus.
Verhaltensmuster – ein Mensch liest eine Seite 30–60 Sekunden, ein Bot – 0,3 Sekunden.

Die Lösung ist eine Kombination aus den richtigen Proxys, IP-Rotation und der Simulation des Verhaltens eines echten Benutzers. Lassen Sie uns jedes Element näher betrachten.

Woher Daten für ML-Datensätze stammen: die Hauptquellen

Bevor wir über Werkzeuge sprechen, ist es wichtig zu verstehen, woher die Daten für das Training von Modellen kommen. Die Quellen lassen sich in mehrere Kategorien einteilen, und für jede ist ein eigener Ansatz erforderlich.

Öffentliche Datensätze (ohne Scraping)

Das erste, was Sie überprüfen sollten, sind bereits vorhandene öffentliche Datensätze. Kaggle, Hugging Face Datasets, Google Dataset Search, UCI Machine Learning Repository enthalten Tausende von fertigen Datensätzen. Wenn Ihre Aufgabe standardmäßig ist (Textklassifizierung, Objekterkennung, Sentiment-Analyse), gibt es möglicherweise bereits einen Datensatz. Das spart Wochen an Arbeit.

Web-Scraping (benötigt Proxys)

Wenn es keine fertigen Daten gibt oder diese nicht zu Ihrer Spezifikation passen, ist Scraping erforderlich. Typische Aufgaben:

Sammlung von Bewertungen von Wildberries, Ozon, Yandex.Market zur Sentiment-Analyse
Scraping von Nachrichtenwebsites zum Training von Sprachmodellen
Sammlung von Produktbildern für Computer Vision-Modelle
Scraping von Stellenangeboten von hh.ru, SuperJob für HR-Modelle
Sammlung von Preisdaten von Marktplätzen für Prognosemodelle
Scraping von sozialen Netzwerken (VKontakte, Twitter/X) für NLP-Aufgaben

API-Plattformen (teilweise geschlossen)

Einige Plattformen bieten offizielle APIs an – Twitter/X API, Reddit API, Google Places API. Das Problem: Sie sind teuer, haben Limits und bieten oft nicht die benötigte Datenmenge kostenlos an. Daher kombinieren viele ML-Teams APIs mit Scraping.

Synthesedaten

Ein separater Ansatz ist die Generierung von synthetischen Daten mit Hilfe von GPT-4 oder anderen LLM. Aber dafür sind immer noch reale Daten als Grundlage erforderlich (Few-Shot-Beispiele). Daher bleibt Scraping das grundlegende Werkzeug zur Datensammlung für die meisten ML-Projekte.

Werkzeuge zur Datensammlung ohne Programmierung

Die gute Nachricht: Für die Datensammlung von ML-Datensätzen muss man kein Entwickler sein. Es gibt fertige No-Code- und Low-Code-Tools, die mit Proxys arbeiten und grundlegende Schutzmaßnahmen umgehen können.

No-Code-Scraper

Werkzeug	Wofür geeignet	Proxy-Unterstützung	Schwierigkeitsgrad
Octoparse	Websites, Tabellen, Paginierung	✅ Ja	Niedrig
ParseHub	Dynamische Websites (JS)	✅ Ja	Niedrig
Apify	Fertige Aktoren für 100+ Websites	✅ Eingebaut	Mittel
Bright Data IDE	Komplexe geschützte Websites	✅ Eingebaut	Mittel
Scrapy Cloud	Skalierbares Scraping	✅ Über Middleware	Hoch

Für die meisten Aufgaben der ML-Datensammlung sind Octoparse oder Apify ausreichend. Octoparse ermöglicht es, den Scraper visuell in 20–30 Minuten einzurichten: Sie geben die Elemente auf der Seite an, konfigurieren die Paginierung, fügen Proxys hinzu – und starten das Sammeln. Das Ergebnis wird in CSV oder JSON exportiert, das sofort für das Training verwendet werden kann.

Apify ist besonders praktisch, wenn Sie beliebte Plattformen scrapen müssen: Sie haben fertige "Aktoren" für Instagram, Twitter/X, Amazon, Google Maps, LinkedIn und Dutzende anderer Websites. Sie geben einfach die Parameter an – und erhalten strukturierte Daten.

Welcher Proxy-Typ für ML-Datensätze geeignet ist

Die Wahl des Proxy-Typs ist einer der Schlüsselfaktoren für den Erfolg beim Datensammeln. Ein Fehler hier kann teuer werden: entweder werden Sie auf halbem Weg blockiert oder zahlen zu viel für unnötige Kapazität. Lassen Sie uns die drei Haupttypen betrachten.

Residential Proxys – für geschützte Websites

Residential Proxys sind IP-Adressen echter Haushaltsbenutzer. Für Anti-Bot-Systeme sind sie nicht von einem normalen Besucher zu unterscheiden. Das macht sie ideal für das Scraping von Websites mit ernsthaften Schutzmaßnahmen: Marktplätzen (Wildberries, Ozon), sozialen Netzwerken, Nachrichtenaggregatoren.

Der Hauptvorteil für ML-Aufgaben: Daten können mit geografischer Zuordnung gesammelt werden. Wenn Sie ein Modell auf regionalem Inhalt trainieren – wählen Sie Proxys aus der gewünschten Region Russlands oder eines anderen Landes. Dies ist besonders wichtig für Aufgaben der geolokalen Klassifizierung oder der Analyse regionaler Dialekte.

Mobile Proxys – für soziale Netzwerke und mobile Plattformen

Mobile Proxys verwenden IPs von Mobilfunkanbietern (4G/5G). Sie haben das höchste Vertrauensniveau bei Plattformen – weil eine mobile IP tatsächlich von Hunderten von Menschen gleichzeitig genutzt wird (alle Abonnenten eines Sendemasts gehen über eine IP). Das bedeutet, dass selbst das aktive Sammeln von Daten mit einer mobilen IP normal aussieht.

Mobile Proxys sind besonders wichtig, wenn Sie Daten von VKontakte, TikTok oder Instagram sammeln – Plattformen, die aggressiv IPs von Rechenzentren blockieren.

Datacenter Proxys – für offene Quellen und Geschwindigkeit

Datacenter Proxys sind schnell und günstig. Sie sind nicht an echte Benutzer gebunden, weshalb sie leichter von Schutzsystemen erkannt werden. Aber für viele ML-Aufgaben reicht das aus: Wenn Sie Wikipedia, offene Archive, GitHub, öffentliche APIs oder Websites ohne ernsthaften Schutz scrapen – Datacenter Proxys sind hervorragend geeignet und kosten deutlich weniger.

So wählen Sie den Proxy-Typ für Ihre ML-Aufgabe:

Marktplätze (Wildberries, Ozon, Avito): Residential Proxys mit Rotation
Soziale Netzwerke (VKontakte, Instagram, TikTok): Mobile Proxys
Nachrichtenseiten, Foren, Wikipedia: Datacenter Proxys
Google-Suche, Yandex: Residential oder Mobile Proxys
Offene Archive, Common Crawl: Datacenter Proxys

Praktische Szenarien: Texte, Bilder, Preise, Bewertungen

Lassen Sie uns konkrete Szenarien zur Datensammlung für beliebte ML-Aufgaben erörtern – mit Angabe von Quellen, Werkzeugen und benötigtem Proxy-Typ.

Szenario 1: Datensatz von Bewertungen zur Sentiment-Analyse (NLP)

Aufgabe: 50.000 Bewertungen mit Bewertungen von Wildberries für das Training eines Modells zur Sentiment-Klassifizierung sammeln.

Quelle: Wildberries – Bewertungen zu Produkten mit Bewertungen von 1–5 Sternen (ideale Annotation ist bereits vorhanden).
Werkzeug: Octoparse oder ein fertiges Skript in Python mit der Bibliothek requests.
Proxy: Residential Proxys mit Rotation – Wildberries blockiert aktiv Datacenter IPs.
Sammlungsrate: 1 Anfrage alle 3–5 Sekunden mit Pausen – 50.000 Bewertungen in 2–3 Tagen.

Was Sie erhalten: CSV-Datei mit Spalten: Text der Bewertung, Bewertung (1–5), Produktkategorie, Datum. Dies ist ein fertiger Datensatz für das Training – die Annotation ist bereits in den Daten integriert.

Szenario 2: Datensatz von Bildern für Computer Vision

Aufgabe: 100.000 Bilder von Produkten aus mehreren Kategorien für das Training eines Klassifizierungsmodells sammeln.

Quelle: Ozon, Yandex.Market – Produktfotos mit Kategorien.
Werkzeug: Apify (es gibt fertige Aktoren für E-Commerce) oder ParseHub.
Proxy: Residential Proxys mit geografischer Rotation in Russland.
Wichtig: Laden Sie Bilder über Proxys herunter, nicht direkt – CDN-Server können auch massenhafte Downloads blockieren.

Was Sie erhalten: Ordner mit Bildern, die nach Kategorien sortiert sind – eine Struktur, die direkt von ImageDataGenerator in Keras oder DataLoader in PyTorch akzeptiert wird.

Szenario 3: Textkorpus für ein Sprachmodell

Aufgabe: Einen großen Korpus russischsprachiger Texte für das Fine-Tuning eines Sprachmodells zu einem bestimmten Thema sammeln – zum Beispiel juristische Texte oder medizinische Artikel.

Quelle: Thematische Foren, Nachrichtenwebsites, Habr, professionelle Portale.
Werkzeug: Scrapy Cloud oder Octoparse für die strukturierte Sammlung.
Proxy: Datacenter Proxys mit Rotation – die meisten Textwebsites haben keinen strengen Schutz, und Geschwindigkeit ist wichtiger als Anonymität.
Sammlungsrate: Mit Datacenter Proxys können Sie 50–100 Anfragen pro Minute durchführen und eine Million Dokumente in wenigen Tagen sammeln.

Szenario 4: Datensatz von Stellenangeboten für ein HR-Modell

Aufgabe: 200.000 Stellenangebote von hh.ru für das Training eines Empfehlungs- oder Klassifizierungsmodells sammeln.

Quelle: hh.ru – sie haben eine offizielle API, aber mit Limits. Für große Volumina ist Scraping erforderlich.
Werkzeug: Apify (es gibt einen Aktor für hh.ru) oder Octoparse.
Proxy: Residential Proxys – hh.ru ist gut geschützt und blockiert Datacenter IPs.
Was Sie erhalten: Strukturierte Daten: Stellenbezeichnung, Beschreibung, Gehalt, Anforderungen, Region, Branche – ein ausgezeichneter Datensatz für NLP und Empfehlungssysteme.

Wie man Blockierungen beim massenhaften Datensammeln vermeidet

Selbst mit guten Proxys kann man eine Sperrung erhalten, wenn man sich nicht an grundlegende Regeln hält. Hier sind bewährte Methoden, die helfen, Daten stabil und ohne Verluste zu sammeln.

IP- und Sitzungsrotation

Die wichtigste Regel: Verwenden Sie nicht eine IP für Tausende von Anfragen. Richten Sie die Rotation so ein, dass alle 10–50 Anfragen die IP gewechselt wird. Die meisten Werkzeuge (Octoparse, Apify, Scrapy) unterstützen dies standardmäßig, wenn Sie einen Proxy-Pool anschließen.

Ändern Sie zusätzlich die Sitzungs-Cookies zusammen mit der IP – das simuliert einen neuen Benutzer und nicht nur einen Adresswechsel.

Richtige Verzögerungen zwischen Anfragen

Fügen Sie zufällige Verzögerungen zwischen den Anfragen hinzu – nicht feste 2 Sekunden, sondern zufällige von 1 bis 5 Sekunden. Ein fester Intervall wird leicht als Bot-Muster erkannt. Zufällige Verzögerungen simulieren das Verhalten eines Menschen.

Für besonders geschützte Websites sollten Sie längere Pausen einfügen: nach jeweils 100 Anfragen eine Pause von 30–60 Sekunden einlegen. Das reduziert die Geschwindigkeit, verringert aber radikal das Risiko einer Blockierung.

Korrekte Anfrage-Header

Stellen Sie den User-Agent auf einen aktuellen Browser (Chrome, Firefox der neuesten Version) ein. Fügen Sie Standard-HTTP-Header hinzu: Accept-Language, Accept-Encoding, Referer. Das Fehlen dieser Header ist ein eindeutiges Zeichen für Bots für die meisten Schutzsysteme.

Sammlung außerhalb der Arbeitszeiten

Starten Sie die massenhafte Sammlung nachts (von 2:00 bis 6:00 Moskauer Zeit). Zu dieser Zeit ist der Verkehr auf den Websites minimal, die Anti-Bot-Systeme sind weniger aggressiv, und Ihre Anfragen stellen einen größeren Teil der Last dar – was paradoxerweise die Verdächtigungen verringert, da weniger konkurrierender Verkehr vorhanden ist.

Fehlerbehandlung und Wiederholungsversuche

Richten Sie die automatische Verarbeitung von Antwortcodes ein:

429 (Too Many Requests) – erhöhen Sie die Verzögerung, wechseln Sie die IP, warten Sie 5–10 Minuten.
403 (Forbidden) – IP ist blockiert, wechseln Sie unbedingt den Proxy.
503 (Service Unavailable) – vorübergehende Serverüberlastung, wiederholen Sie es in 1–2 Minuten.
200 mit Captcha – ein qualitativ hochwertigerer Proxy ist erforderlich (Residential anstelle von Datacenter).

Geografische Übereinstimmung von Proxy und Website

Verwenden Sie Proxys aus demselben Land wie die Zielwebsite. Wenn Sie Wildberries scrapen – wählen Sie russische IPs. Wenn Sie Daten von einer deutschen Website sammeln – benötigen Sie deutsche Proxys. Eine Nichtübereinstimmung der Geolokalisierung ist einer der häufigsten Auslöser für Blockierungen.

Checkliste: Einrichtung der Datensammlungspipeline für ML

Verwenden Sie diese Checkliste vor dem Start jeder großangelegten Datensammlung für einen Datensatz:

📋 Vorbereitung

☐ Überprüfen Sie, ob ein fertiger Datensatz auf Kaggle / Hugging Face vorhanden ist
☐ Überprüfen Sie die robots.txt der Zielwebsite
☐ Bestimmen Sie das Datenvolumen und die Struktur des Datensatzes
☐ Wählen Sie das Scraping-Werkzeug (Octoparse, Apify, Scrapy)
☐ Wählen Sie den Proxy-Typ für die Aufgabe (Residential / Mobile / Datacenter)

⚙️ Einrichtung

☐ Proxy-Pool mit IP-Rotation anschließen
☐ User-Agent einrichten (aktueller Chrome/Firefox)
☐ Standard-HTTP-Header hinzufügen
☐ Zufällige Verzögerungen einrichten (1–5 Sekunden)
☐ Fehlerbehandlung einrichten (429, 403, 503)
☐ Format für den Datenauszug angeben (CSV, JSON, JSONL)

🧪 Testen

☐ Test mit 100–500 Einträgen durchführen
☐ Qualität und Vollständigkeit der Daten überprüfen
☐ Sicherstellen, dass es keine Blockierungen im Testvolumen gibt
☐ Geschwindigkeit der Sammlung überprüfen und Zeit für den vollständigen Datensatz berechnen

🚀 Start und Überwachung

☐ Nachts starten (02:00–06:00 MSK)
☐ Fehlerbenachrichtigungen einrichten
☐ Regelmäßig die Qualität der gesammelten Daten überprüfen
☐ Zwischenresultate speichern (Checkpoint alle 10.000 Einträge)

🧹 Nachbearbeitung

☐ Duplikate entfernen
☐ HTML-Tags und spezielle Zeichen aus Texten entfernen
☐ Klassenbalance überprüfen (für Klassifizierungsaufgaben)
☐ In Trainings-/Validierungs-/Testdatensätze aufteilen
☐ Im Format speichern, das mit Ihrem ML-Framework kompatibel ist

Fazit

Die Datensammlung für ML-Datensätze ist keine einmalige Aufgabe, sondern ein systematischer Prozess. Die wichtigsten Erkenntnisse aus diesem Artikel: Die richtige Wahl des Proxys bestimmt, ob Sie ans Ziel kommen oder bei Blockierungen stecken bleiben. Residential Proxys sind für geschützte Marktplätze und Aggregatoren erforderlich, mobile für soziale Netzwerke, Datacenter Proxys für offene Textquellen. Werkzeuge wie Octoparse und Apify ermöglichen es, eine Pipeline ohne Programmierung aufzubauen. Und die Einhaltung grundlegender Regeln (IP-Rotation, zufällige Verzögerungen, korrekte Header) ermöglicht es, Hunderttausende von Einträgen ohne Verluste zu sammeln.

Wenn Sie planen, Daten von Marktplätzen, Nachrichtenwebsites oder thematischen Portalen für das Training von ML-Modellen zu sammeln, empfehlen wir, mit Residential Proxys zu beginnen – sie bieten das höchste Vertrauensniveau seitens der Schutzsysteme und das geringste Risiko von Blockierungen, selbst bei großangelegter Datensammlung.

```

Datensammlung für Machine Learning-Datensätze: So parsen Sie Tausende von Seiten ohne Sperren und Captchas