Das Sammeln von Daten über Proxys ist eine gängige Praxis für Marketer, Analysten und Geschäftsinhaber. Aber wo verläuft die Grenze zwischen legalem Parsing und Gesetzesverstoß? In diesem Artikel betrachten wir die rechtlichen Aspekte der Datenverarbeitung: was gesammelt werden darf, welche Methoden erlaubt sind, wie man die DSGVO und das russische Datenschutzgesetz nicht verletzt.
Rechtliche Grundlagen des Datensammelns: Was das Gesetz sagt
Das Sammeln von Daten über Proxys wird durch mehrere rechtliche Normen geregelt, abhängig von der Jurisdiktion. In Russland ist das Hauptdokument das Bundesgesetz Nr. 152-FZ „Über personenbezogene Daten“, in Europa die DSGVO (Allgemeine Datenschutzverordnung), in den USA verschiedene branchenspezifische Gesetze und das Präzedenzrecht.
Der Schlüsselgrundsatz: Das Sammeln von Daten ist an sich nicht illegal. Illegal kann die Art und Weise der Datenerhebung, deren Nutzung oder die Verletzung der Rechte des Website-Besitzers sein. Proxys sind in diesem Kontext einfach ein technisches Werkzeug, wie ein Browser oder eine Internetverbindung.
Wichtig zu verstehen: Die Verwendung von Proxys macht das Datensammeln nicht automatisch illegal. Proxys sind ein Mittel zur Gewährleistung der Privatsphäre und zum Umgehen technischer Einschränkungen (Geoblockaden, Rate Limits), nicht ein Werkzeug für illegale Aktivitäten.
Das russische Recht unterscheidet mehrere Kategorien von Daten:
- Öffentliche Daten — Informationen, die ohne Einschränkungen öffentlich zugänglich sind (Preise in Geschäften, Nachrichten, öffentliche Profile)
- Personenbezogene Daten — Informationen, die sich auf eine bestimmte natürliche Person beziehen (Name, Telefonnummer, E-Mail, Adresse)
- Geschäftsgeheimnisse — Daten, die einen kommerziellen Wert haben und vom Eigentümer geschützt sind
- Technische Daten — Protokolle, Metriken, Analysen, die keine personenbezogenen Informationen enthalten
Für jede Kategorie gelten eigene Regeln für das Sammeln und die Nutzung. Zum Beispiel ist das Parsen von Preisen von Wettbewerbern auf Wildberries oder Ozon das Sammeln öffentlicher Daten, das das Gesetz über personenbezogene Daten nicht verletzt. Das Sammeln von E-Mail-Adressen von Kunden aus einer fremden Datenbank ist jedoch bereits ein Verstoß.
Öffentliche Daten: Was ohne Einschränkungen geparst werden kann
Öffentliche Daten sind Informationen, die der Website-Besitzer absichtlich ohne Authentifizierungs- oder Zahlungsanforderung veröffentlicht hat. Das Sammeln solcher Daten über Proxys ist vollständig legal, wenn die technischen und ethischen Normen eingehalten werden.
| Datentyp | Beispiele | Rechtsstatus |
|---|---|---|
| Produktpreise | Wildberries, Ozon, Yandex.Market | Legal |
| Produktbeschreibungen | Eigenschaften, Fotos, Bewertungen | Legal (unter Berücksichtigung des Urheberrechts) |
| Nachrichten und Artikel | Mediensites, Blogs | Legal (für Analyse, nicht zur Veröffentlichung) |
| Stellenangebote | hh.ru, Avito Arbeit | Legal |
| Anzeigen | Avito, Youla (ohne Kontakte) | Legal |
| Wetter- und Geodaten | Offene APIs, Wetterdienste | Legal |
Typische Szenarien für die legale Nutzung von Proxys zum Sammeln öffentlicher Daten:
- Überwachung von Wettbewerberpreisen — Verkäufer auf Marktplätzen überwachen täglich die Preise über Parser, um wettbewerbsfähig zu bleiben
- Analyse des Immobilienmarktes — Agenturen sammeln Daten über Anzeigen auf Avito und CIAN zur Erstellung von Analysen
- Überwachung von Stellenangeboten — HR-Agenturen parsen hh.ru zur Analyse von Gehältern und Marktanforderungen
- Nachrichtensammlung — Medienmonitoring sammelt Veröffentlichungen für Kunden (PR-Agenturen, Analysten)
Für solche Aufgaben werden in der Regel Rechenzentrums-Proxys verwendet — sie bieten hohe Geschwindigkeit und Stabilität beim Parsen großer Datenmengen. Wichtig ist, angemessene Intervalle zwischen den Anfragen einzuhalten, um keine übermäßige Belastung der Server zu verursachen.
Personenbezogene Daten: Wo die rote Linie verläuft
Personenbezogene Daten sind Informationen, die sich direkt oder indirekt auf eine bestimmte Person beziehen. Das Sammeln solcher Daten ist am strengsten geregelt, und hier ist es wichtig, die Grenzen des Erlaubten klar zu verstehen.
Laut 152-FZ gelten folgende Informationen als personenbezogene Daten:
- Name
- Geburtsdatum und -ort
- Wohnadresse
- Telefonnummer
- E-Mail-Adresse
- Passdaten
- Fotos (wenn die Person identifiziert werden kann)
- IP-Adressen (in einigen Jurisdiktionen)
Verboten: Das Sammeln personenbezogener Daten ohne Zustimmung der betroffenen Person oder ohne rechtliche Grundlage. Zum Beispiel ist das Parsen von Telefonnummern und E-Mails aus sozialen Medien für den Versand von Mails ein direkter Verstoß gegen 152-FZ mit Strafen von bis zu 500.000 Rubel.
Es gibt jedoch Ausnahmen, bei denen das Sammeln personenbezogener Daten legal ist:
- Daten wurden öffentlich vom Betroffenen veröffentlicht — wenn eine Person ihre Telefonnummer in einer Anzeige auf Avito selbst veröffentlicht hat, können Sie sie sehen und für die Kontaktaufnahme nutzen
- Verarbeitung zu journalistischen Zwecken — Medien dürfen öffentliche Daten zur Erstellung von Materialien sammeln
- Statistische und Forschungszwecke — wenn die Daten anonymisiert sind und nicht zur Identifizierung einer bestimmten Person führen
- Es liegt eine ausdrückliche Zustimmung vor — die Person hat schriftlich zugestimmt, dass ihre Daten verarbeitet werden
Ein praktisches Beispiel für Marketer: Sie können eine Liste von Unternehmen und deren Telefonnummern aus öffentlichen Quellen (Unternehmenswebsites, Verzeichnisse 2GIS) sammeln. Aber Sie dürfen keine persönlichen Telefonnummern von Mitarbeitern aus ihren VK- oder Instagram-Profilen für Kaltakquise parsen — das ist ein Verstoß.
| Szenario | Legalität | Kommentar |
|---|---|---|
| Parsen von Telefonnummern aus Avito-Anzeigen | Legal | Daten wurden öffentlich zur Kontaktaufnahme veröffentlicht |
| Parsen von E-Mails aus LinkedIn-Profilen | Grauzone | Verstößt gegen die ToS von LinkedIn, ist aber nicht immer illegal |
| Sammeln von Namen und Telefonnummern aus geschlossenen VK-Gruppen | Verboten | Verstoß gegen 152-FZ und ToS |
| Parsen von Kontakten von Unternehmen aus 2GIS | Legal | Öffentliches Verzeichnis |
| Sammeln von E-Mails von Unternehmenswebsites für B2B-Mailings | Legal | Kontakte wurden zur Kontaktaufnahme veröffentlicht |
DSGVO und internationale Anforderungen bei der Arbeit mit Proxys
Wenn Sie Daten von Websites sammeln, die auf ein europäisches Publikum ausgerichtet sind, oder wenn Ihr Unternehmen mit Kunden aus der EU arbeitet, müssen Sie die Anforderungen der DSGVO (Allgemeine Datenschutzverordnung) einhalten. Die Strafen für Verstöße können bis zu 20 Millionen Euro oder 4 % des Jahresumsatzes des Unternehmens betragen.
Die wichtigsten Prinzipien der DSGVO, die beim Datensammeln wichtig sind:
- Rechtmäßigkeit, Fairness und Transparenz — das Sammeln von Daten muss eine rechtliche Grundlage haben (Zustimmung, Vertrag, rechtliches Interesse)
- Zweckbindung — Daten dürfen nur für einen bestimmten, angegebenen Zweck gesammelt werden
- Datenminimierung — sammeln Sie nur die Daten, die wirklich notwendig sind
- Genauigkeit — die Daten müssen aktuell und korrekt sein
- Speicherbegrenzung — speichern Sie Daten nicht länger als nötig
- Integrität und Vertraulichkeit — schützen Sie die Daten vor Lecks
Die Verwendung von Proxys bei der Arbeit mit europäischen Websites entbindet nicht von der Einhaltung der DSGVO. Wenn Sie Daten von EU-Bürgern parsen, sind Sie verpflichtet:
- Eine rechtliche Grundlage für die Verarbeitung zu haben (z. B. rechtliches Interesse für Marktanalysen)
- Die Möglichkeit zu gewährleisten, Daten auf Anfrage der betroffenen Person zu löschen ("Recht auf Vergessenwerden")
- Daten nicht ohne Zustimmung an Dritte weiterzugeben
- Daten vor Lecks zu schützen (Verschlüsselung, Zugangskontrolle)
Praktischer Rat: Wenn Sie Daten für Marktanalysen (Preise, Sortiment, Trends) sammeln, gilt dies als "rechtliches Interesse" gemäß der DSGVO. Wenn Sie jedoch E-Mails für Mailings sammeln, benötigen Sie die ausdrückliche Zustimmung jedes Empfängers.
Bei der Verwendung von residential Proxys für den Zugriff auf europäische Websites stellen Sie sicher, dass der Proxy-Anbieter ebenfalls die DSGVO einhält — dies ist wichtig für die Datenverarbeitungskette.
Robots.txt und Nutzungsbedingungen: Juristische Kraft der Einschränkungen
Eine der umstrittensten Fragen im Web-Scraping ist, ob die Dateien robots.txt und die Nutzungsbedingungen (Terms of Service, ToS), die das automatische Sammeln von Daten verbieten, rechtliche Gültigkeit haben?
Robots.txt
Die Datei robots.txt ist eine technische Empfehlung für Suchroboter und kein juristisches Dokument. In den meisten Jurisdiktionen ist ein Verstoß gegen robots.txt an sich kein Verbrechen. Es gibt jedoch Nuancen:
- USA — Es gibt Präzedenzfälle, in denen Gerichte einen Verstoß gegen robots.txt als "nicht autorisierten Zugriff" (CFAA) anerkannt haben, aber dies ist eine umstrittene Praxis
- Europa — robots.txt hat in der Regel keine rechtliche Gültigkeit, kann aber als Beweis für einen Verstoß gegen die ToS verwendet werden
- Russland — Es gibt keine klare Rechtsprechung, aber das Ignorieren von robots.txt kann als übermäßige Belastung des Servers angesehen werden
Praktische Empfehlung: Halten Sie sich an robots.txt, wenn Sie kein Risiko eingehen möchten. Wenn Sie Daten aus geschlossenen Bereichen benötigen, wenden Sie sich an den Website-Besitzer, um eine API oder eine offizielle Genehmigung zu erhalten.
Nutzungsbedingungen (ToS)
Die Nutzungsbedingungen sind ein Vertrag zwischen Ihnen und dem Website-Besitzer. Viele große Plattformen (Facebook, LinkedIn, Amazon) verbieten das automatische Sammeln von Daten ausdrücklich in ihren ToS.
Die rechtliche Gültigkeit der ToS hängt von mehreren Faktoren ab:
| Faktor | Einfluss auf die rechtliche Gültigkeit |
|---|---|
| Sie sind auf der Website registriert | ToS hat die volle Kraft eines Vertrages — ein Verstoß kann zur Sperrung und Klage führen |
| Sie sind nicht registriert | ToS hat eine eingeschränkte Gültigkeit — Sie haben die Bedingungen nicht ausdrücklich akzeptiert |
| Daten sind öffentlich | ToS kann die kommerzielle Nutzung verbieten, nicht jedoch die persönliche Nutzung |
| Sie erzeugen eine Serverlast | Verstoß gegen die ToS + mögliche Verantwortung für DDoS |
Bekannte Gerichtsverfahren:
- hiQ Labs vs LinkedIn (2019, USA) — Das Gericht entschied, dass das Parsen öffentlicher Daten nicht gegen den CFAA verstößt, auch wenn es in den ToS verboten ist
- Ryanair vs PR Aviation (2015, EU) — Das EU-Gericht entschied, dass das Sammeln öffentlicher Daten über Flüge nicht gegen das Gesetz verstößt, trotz der ToS
- eBay vs Bidder's Edge (2000, USA) — Das Gericht verbot das Parsen aufgrund übermäßiger Serverlast auf eBay
Fazit: ToS kann Ihnen die Nutzung der Website verbieten, aber nicht immer das Sammeln öffentlicher Daten. Ein Verstoß gegen die ToS birgt jedoch immer das Risiko einer Kontosperrung und möglicher Klage.
Legale Methoden zum Datensammeln für Unternehmen
Es gibt viele völlig legale Möglichkeiten, Daten für Geschäftszwecke zu sammeln. Wichtig ist, die richtigen Werkzeuge zu verwenden und ethische Normen einzuhalten.
1. Verwendung offizieller APIs
Viele Plattformen bieten offizielle APIs für den Zugriff auf Daten an. Dies ist der sicherste Weg:
- Google Maps API — für Geodaten und Informationen über Orte
- Twitter API — für die Analyse von Erwähnungen und Trends
- Wildberries API — für Verkäufer (Zugriff auf eigene Daten)
- OpenWeatherMap API — für Wetterdaten
APIs haben in der Regel Einschränkungen hinsichtlich der Anzahl der Anfragen (Rate Limits), aber Sie erhalten strukturierte Daten und rechtlichen Schutz.
2. Parsen öffentlicher Daten unter Beachtung der Ethik
Wenn keine API verfügbar ist, können Sie öffentliche Seiten parsen, indem Sie die Regeln einhalten:
- Halten Sie Intervalle ein — machen Sie Pausen zwischen den Anfragen (1-3 Sekunden), um keine Belastung zu erzeugen
- Respektieren Sie robots.txt — auch wenn dies rechtlich nicht erforderlich ist
- Verwenden Sie User-Agent — identifizieren Sie Ihren Bot ehrlich
- Parsen Sie zu nicht-spitzen Zeiten — nachts ist die Serverlast geringer
Für solche Aufgaben eignen sich residential Proxys — sie simulieren normale Benutzer und werden seltener von Anti-Bot-Systemen blockiert.
3. Kauf fertiger Datensätze
Viele Unternehmen verkaufen legal gesammelte Daten:
- Statistische Daten — Rosstat, Weltbank, UN
- Marktforschungsdaten — Nielsen, GfK, Kantar
- Unternehmensdatenbanken — SPARK, Kontur.Fokus (legale B2B-Datenbanken)
- Branchendaten — spezialisierte Anbieter für Immobilien, Finanzen, Einzelhandel
4. Crowdsourcing und Umfragen
Sammeln Sie Daten direkt von Benutzern mit deren Zustimmung:
- Online-Umfragen (Google Forms, SurveyMonkey)
- Treueprogramme mit Datenaustausch gegen Boni
- Benutzergenerierte Inhalte (Bewertungen, Kommentare auf Ihrer Website)
- Partnerprogramme mit Datenaustausch
Was verboten ist: Handlungen mit hohem rechtlichen Risiko
Einige Methoden des Datensammelns sind eindeutig illegal oder bergen ein hohes Risiko für Rechtsstreitigkeiten. Vermeiden Sie die folgenden Praktiken:
Kategorisch verboten:
- Hacking und Umgehung von Schutzmaßnahmen — Umgehung von CAPTCHA, Passwort-Hacking, Ausnutzung von Schwachstellen (Artikel 272 StGB RF — bis zu 7 Jahre)
- Sammeln von Daten aus geschlossenen Konten — Parsen von geschlossenen Profilen in sozialen Netzwerken, privaten Gruppen
- DDoS-Angriffe — übermäßige Serverlast, die zu einem Dienstverweigerung führt (Artikel 273 StGB RF)
- Sammeln von Finanzdaten — Kartennummern, CVV, Bankdaten (Artikel 159.6 StGB RF — Betrug)
- Parsen von Datenbanken von Wettbewerbern — Diebstahl von Geschäftsgeheimnissen (Artikel 183 StGB RF)
- Sammeln von Gesundheitsdaten — Diagnosen, Krankengeschichte ohne Zustimmung (besondere Kategorie von PII)
Grauzone — hohes Risiko:
- Parsen von E-Mails für Spam — selbst wenn die E-Mail öffentlich ist, verstößt massenhaftes Versenden ohne Zustimmung gegen 152-FZ und das Werbegesetz
- Aggressives Parsen — Tausende von Anfragen pro Sekunde können als Angriff angesehen werden
- Umgehung von Blockierungen über Proxys — wenn die Website Sie blockiert hat, kann das Fortsetzen des Parsens als unautorisierter Zugriff angesehen werden
- Parsen von kostenpflichtigen Inhalten — Umgehung von kostenpflichtigen Abonnements, geschlossenen Materialien
Reale Beispiele für Gerichtsverfahren:
- Facebook vs Power Ventures (2016) — Das Gericht sprach Facebook 3 Millionen Dollar für das Parsen von Benutzerdaten zu
- LinkedIn vs hiQ Labs (2022) — Nach langen Rechtsstreitigkeiten wurde der Fall zurück vor Gericht gebracht, das Ergebnis ist noch unklar
- Clearview AI (2021) — Das Unternehmen wurde in Europa für das Sammeln von Fotos aus sozialen Netzwerken zur Gesichtserkennung bestraft
Sichere Praktiken: Wie man das Geschäft vor Ansprüchen schützt
Um rechtliche Risiken beim Datensammeln über Proxys zu minimieren, befolgen Sie diese Empfehlungen:
1. Dokumentieren Sie die rechtlichen Grundlagen
Erstellen Sie ein internes Dokument, das erklärt:
- Welche Daten Sie sammeln
- Aus welchen Quellen (nur öffentliche)
- Für welche Zwecke (Marktanalyse, Preisüberwachung)
- Wie Sie die Daten vor Lecks schützen
- Wie lange Sie die Daten speichern
Dies wird helfen, die Goodwill im Falle von Ansprüchen nachzuweisen.
2. Verwenden Sie technische Schutzmaßnahmen
- Rate Limiting — Begrenzen Sie die Anfragespeed (nicht mehr als 1-2 pro Sekunde)
- Ehrlicher User-Agent — Tarnen Sie sich nicht als Browser, geben Sie den Namen Ihres Bots an
- Kontakt-E-Mail — Fügen Sie im User-Agent eine E-Mail für Kontaktzwecke hinzu
- Proxy-Rotation — Verwenden Sie mobile Proxys oder residential Proxys zur Lastverteilung
3. Anonymisieren Sie personenbezogene Daten
Wenn Sie Daten mit personenbezogenen Informationen gesammelt haben:
- Löschen Sie Namen, Telefonnummern, E-Mails sofort nach der Verarbeitung
- Aggregieren Sie Daten (anstatt "Ivan, 35 Jahre, Moskau" → "Männer 30-40 Jahre, Moskau")
- Verwenden Sie Hashing für Identifikatoren
- Speichern Sie nicht mehr Daten, als für die Aufgabe erforderlich ist
4. Holen Sie Zustimmung ein, wenn möglich
Wenn Sie planen, die Daten für Marketing oder Mailings zu verwenden:
- Fügen Sie ein Kontrollkästchen für die Zustimmung zur Verarbeitung von PII hinzu
- Erklären Sie, wie die Daten verwendet werden
- Geben Sie die Möglichkeit, sich abzumelden (unsubscribe)
- Bewahren Sie die Zustimmungsbestätigungen auf
5. Konsultieren Sie Anwälte
Wenn Ihr Geschäft kritisch vom Datensammeln abhängt, engagieren Sie einen Anwalt, der auf IT-Recht spezialisiert ist. Er kann helfen:
- Eine Datenschutzrichtlinie und Nutzungsbedingungen zu erstellen
- Eine Prüfung der Einhaltung der DSGVO und 152-FZ durchzuführen
- Antworten auf Ansprüche von Website-Besitzern vorzubereiten
- Die Verarbeitung von PII bei Roskomnadzor zu registrieren (falls erforderlich)
Checkliste für die legale Datensammlung:
✅ Sammeln Sie nur öffentliche Daten
✅ Erzeugen Sie keine übermäßige Belastung der Server
✅ Halten Sie sich an robots.txt (sofern möglich)
✅ Sammeln Sie keine personenbezogenen Daten ohne Zustimmung
✅ Anonymisieren Sie Daten vor der Speicherung
✅ Verwenden Sie Daten nur für die angegebenen Zwecke
✅ Schützen Sie Daten vor Lecks
✅ Seien Sie bereit, Daten auf Anfrage der betroffenen Person zu löschen
Fazit
Das Sammeln von Daten über Proxys ist eine legale und verbreitete Praxis, wenn rechtliche und ethische Normen eingehalten werden. Die Schlüsselprinzipien: Sammeln Sie nur öffentliche Daten, verletzen Sie nicht die Rechte von Personen, erzeugen Sie keine übermäßige Serverlast und verwenden Sie Daten in gutem Glauben.
Die meisten Geschäftsanliegen — Preisüberwachung auf Marktplätzen, Wettbewerbsanalyse, Nachrichtensammlung, Marktuntersuchung — fallen vollständig in die rechtlichen Rahmenbedingungen. Wichtig ist, die Grenzen zu verstehen und sie nicht zu überschreiten.
Wenn Sie planen, Daten für Analysen oder Monitoring zu sammeln, empfehlen wir die Verwendung von residential Proxys — sie bieten ein hohes Maß an Anonymität und minimales Risiko von Blockierungen, was eine legale und effektive Arbeit mit Daten ermöglicht. Für Aufgaben mit hoher Verarbeitungsgeschwindigkeit sind Rechenzentrums-Proxys geeignet, und für die Arbeit mit mobilen Plattformen mobile Proxys.
Denken Sie daran: Technologien sind neutral, wichtig ist, wie Sie sie nutzen. Proxys sind ein Werkzeug für die legale Arbeit mit Daten und kein Mittel, um das Gesetz zu umgehen. Halten Sie sich an die Regeln, respektieren Sie die Rechte anderer, und Ihr Geschäft wird vor rechtlichen Risiken geschützt sein.