Zurück zum Blog

Wie man den Proxy-Datenverbrauch um 70% durch Caching reduziert: Ein Leitfaden für Webscraping und Automatisierung

Erfahren Sie, wie Sie das Caching von Daten richtig einrichten, um die Kosten für Proxys beim Scraping von Marktplätzen, der Preisüberwachung und der Automatisierung von Routineaufgaben zu senken.

📅8. Februar 2026
```html

Wenn Sie regelmäßig Wildberries scrapen, die Preise von Wettbewerbern auf Ozon überwachen oder das Sammeln von Daten automatisieren – wissen Sie, dass die Kosten für Proxys das Budget erheblich belasten können. Anfragen an dieselben Seiten, das wiederholte Laden statischer Daten, das Aktualisieren unveränderter Informationen – all dies frisst Verkehr und Geld. Die Lösung ist einfach: richtig konfiguriertes Daten-Caching kann die Belastung der Proxys um 50-70% reduzieren, ohne die Aktualität der Informationen zu verlieren.

In diesem Leitfaden werden wir praktische Möglichkeiten des Cachings für verschiedene Aufgaben untersuchen: vom Scraping von Marktplätzen bis zur Überwachung von Wettbewerbern. Sie erfahren, welche Daten sicher gecached werden können, wie Sie die Speicherzeit einstellen und welche Tools Sie ohne Programmierkenntnisse verwenden können.

Warum Caching für die Arbeit mit Proxys entscheidend ist

Stellen Sie sich vor: Sie überwachen die Preise von 500 Produkten auf Wildberries jede Stunde. Ohne Caching sendet Ihr Scraper jede Stunde 500 Anfragen über Proxys – das sind 12.000 Anfragen pro Tag. Bei den durchschnittlichen Kosten von residential Proxys summiert sich das zu erheblichen Ausgaben, insbesondere wenn ein großer Teil der Daten sich überhaupt nicht ändert.

Statistiken zeigen, dass beim Scraping von Marktplätzen bis zu 60-70% der Anfragen identische Daten zurückgeben: Produktbeschreibungen ändern sich nicht, Eigenschaften bleiben gleich, Bilder sind statisch. Nur die Preise, Bestände und Positionen in den Suchergebnissen ändern sich. Wenn Sie statische Daten cachen und nur dynamische aktualisieren – erreichen Sie eine Einsparung des Traffics von 50-70%.

Reales Beispiel: Ein Online-Shop überwachte die Preise von 1200 Wettbewerbsprodukten auf Ozon ohne Caching – Verbrauch von 28.800 Anfragen pro Tag. Nach der Implementierung des Cachings statischer Daten (Beschreibungen, Eigenschaften) mit einer Aktualisierung alle 7 Tage und einem Preis-Cache von 1 Stunde – reduzierte sich der Verbrauch auf 9.600 Anfragen. Die Einsparung des Proxy-Traffics betrug 67%.

Caching löst drei zentrale Probleme:

  • Reduzierung der Ausgaben für Proxy-Traffic – weniger Anfragen = weniger Kosten pro Gigabyte
  • Verringerung des Risikos von Sperren – weniger Anfragen an die Zielseite = geringere Wahrscheinlichkeit, aufgrund der Häufigkeit gesperrt zu werden
  • Beschleunigung der Arbeit des Scrapers – Daten aus dem Cache werden sofort bereitgestellt, ohne Verzögerungen durch Netzwerk-Anfragen

Welche Daten beim Scraping gecached werden können

Nicht alle Daten eignen sich gleich gut für das Caching. Es ist wichtig, Informationen in statische (selten ändernde) und dynamische (häufig aktualisierte) zu unterteilen. Eine falsche Caching-Strategie führt entweder zu veralteten Daten oder zu keiner Einsparung.

Datentyp Aktualisierungsfrequenz Cache-Zeit Traffic-Einsparung
Produktbeschreibungen Einmal im Monat 7-14 Tage Bis zu 80%
Eigenschaften und Parameter Einmal im Monat 7-14 Tage Bis zu 75%
Produktbilder Alle 2-4 Wochen 14-30 Tage Bis zu 90%
Kundenbewertungen Täglich 12-24 Stunden Bis zu 50%
Produktpreise Mehrmals täglich 1-3 Stunden Bis zu 40%
Lagerbestände Jede Stunde 30-60 Minuten Bis zu 30%
Positionen in den Suchergebnissen Ständig Nicht cachen 0%

Die goldene Regel: Je seltener sich die Daten ändern, desto länger können sie im Cache gespeichert werden. Produktbeschreibungen auf Wildberries oder Ozon ändern sich äußerst selten – sie können bedenkenlos eine Woche oder zwei im Cache bleiben. Preise ändern sich häufiger, aber selbst hier wird eine Cache-Zeit von 1-3 Stunden erhebliche Einsparungen bringen, wenn Sie keine Echtzeitüberwachung benötigen.

Caching-Strategien für verschiedene Aufgaben

Effektives Caching bedeutet nicht einfach "Daten für einen Tag speichern". Für jede Aufgabe ist eine eigene Strategie erforderlich, die das Gleichgewicht zwischen der Aktualität der Daten und der Einsparung des Traffics berücksichtigt. Lassen Sie uns bewährte Ansätze für typische Szenarien untersuchen.

Mehrstufiges Caching

Die effektivste Strategie besteht darin, Daten in mehrere Ebenen mit unterschiedlichen Speicherzeiten zu unterteilen. Dies ermöglicht es, die Belastung der Proxys maximal zu reduzieren und gleichzeitig die Aktualität kritischer Daten zu bewahren.

Beispiel für mehrstufiges Caching beim Scraping von Wildberries:

  • Ebene 1 (30 Tage): Produktbilder, Marken, Kategorien
  • Ebene 2 (7 Tage): Beschreibungen, Eigenschaften, Zusammensetzung
  • Ebene 3 (24 Stunden): Bewertungen, Anzahl der Bewertungen
  • Ebene 4 (2 Stunden): Preise, Rabatte, Aktionen
  • Ohne Cache: Lagerbestände, Positionen in den Suchergebnissen

Bei dieser Strategie machen Sie für 1000 Produkte anstelle von 1000 Anfragen alle 2 Stunden etwa 300-350 Anfragen: Der Großteil der Daten stammt aus dem Cache, über Proxys gehen nur Anfragen nach aktuellen Preisen und Beständen.

Caching mit Änderungsprüfung

Ein fortgeschrittenerer Ansatz ist die Verwendung von bedingten Anfragen. Anstatt die gesamte Seite vollständig zu laden, senden Sie eine leichte Anfrage zur Überprüfung: Haben sich die Daten seit dem letzten Mal geändert? Wenn nicht – verwenden Sie den Cache, wenn ja – laden Sie das Update.

Viele Websites unterstützen HTTP-Header für bedingte Anfragen: If-Modified-Since oder ETag. Wenn sich die Seite nicht geändert hat, gibt der Server den Code 304 (Not Modified) ohne Antwortkörper zurück – Sie sparen 95% des Traffics für diese Anfrage.

Intelligente Cache-Aktualisierung

Anstatt alle Daten nach einem Zeitplan zu aktualisieren, aktualisieren Sie nur die, die mit hoher Wahrscheinlichkeit geändert wurden. Wenn ein Produkt an einer Aktion teilnimmt – überprüfen Sie den Preis jede Stunde. Wenn ein reguläres Produkt in den letzten 2 Wochen keine Änderungen aufweist – überprüfen Sie einmal täglich.

Tipp: Verfolgen Sie die Änderungsverläufe. Wenn sich der Preis eines Produkts jeden Tag ändert – reduzieren Sie die Cache-Zeit auf 1 Stunde. Wenn der Preis einen Monat stabil bleibt – erhöhen Sie auf 6-12 Stunden. Adaptives Caching kann zusätzliche 20-30% Einsparungen bringen.

Caching-Tools ohne Programmierung

Für die Einrichtung des Cachings ist es nicht erforderlich, ein Programmierer zu sein. Moderne Scraping- und Automatisierungstools verfügen über integrierte Caching-Funktionen, die über eine grafische Benutzeroberfläche konfiguriert werden können.

Octoparse – Scraper mit visuellem Builder

Octoparse ist ein beliebtes Tool zum Scraping von Websites ohne Code. In den Aufgabeneinstellungen gibt es den Abschnitt "Erweiterte Einstellungen" → "Cache-Verwaltung", wo Sie angeben können:

  • Welche Elemente der Seite gecached werden sollen (Bilder, Textblöcke, Tabellen)
  • Cache-Speicherzeit (von 1 Stunde bis 30 Tagen)
  • Aktualisierungsbedingungen (nach Zeitplan oder bei Änderung bestimmter Felder)

Beispiel für die Konfiguration zum Scraping von Ozon: Wir cachen den Block mit der Produktbeschreibung für 7 Tage, den Block mit dem Preis – für 2 Stunden. Octoparse überspringt automatisch Anfragen zu Beschreibungen, wenn diese bereits im Cache sind, und aktualisiert nur die Preise über Proxys.

ParseHub – Caching für komplexe Websites

ParseHub ist auf das Scraping von Websites mit dynamischen Inhalten (JavaScript, AJAX) spezialisiert. Im Abschnitt "Projekteinstellungen" gibt es die Option "Daten-Caching":

  • Smart Cache – erkennt automatisch statische Elemente und cached sie
  • Benutzerdefinierte Cache-Regeln – Sie geben manuell die CSS-Selektoren der Elemente für den Cache an
  • Cache-Dauer – Lebensdauer des Caches von 30 Minuten bis 90 Tagen

ParseHub funktioniert gut mit Marktplätzen, die viel JavaScript verwenden: Wildberries, AliExpress, Yandex.Market. Das Tool erkennt selbst, welche Daten dynamisch geladen werden, und cached wiederholte Anfragen.

Screaming Frog – für SEO-Spezialisten

Wenn Sie Screaming Frog zur Analyse von Wettbewerbswebsites oder zur Überwachung von Positionen verwenden, wird das integrierte Caching eine Menge Traffic sparen. In den Einstellungen "Konfiguration" → "Spider" → "Erweitert" aktivieren Sie:

  • Cache-Seiten – HTML-Seiten lokal speichern
  • Cache-Bilder & CSS – statische Ressourcen nicht erneut laden
  • Verwenden Sie gecachte Daten – bei wiederholtem Scannen gespeicherte Daten verwenden

Besonders nützlich bei der regelmäßigen Überwachung derselben Websites: Der erste Scan lädt alles über Proxys, die folgenden nur die geänderten Seiten.

Caching beim Scraping von Marktplätzen

Marktplätze sind die beliebteste Aufgabe für das Scraping im E-Commerce-Bereich. Wildberries, Ozon, Yandex.Market haben eine ähnliche Datenstruktur, was die Anwendung einer universellen Caching-Strategie ermöglicht.

Scraping von Wildberries mit minimalem Traffic-Verbrauch

Typische Aufgabe: Überwachung von 500 Wettbewerbsprodukten. Ohne Caching – 500 Anfragen alle 2 Stunden = 6000 Anfragen pro Tag. Mit dem richtigen Cache – bis zu 1500-2000 Anfragen pro Tag.

Schritt-für-Schritt-Anleitung zum Caching für Wildberries:

  1. Erste Anfrage an das Produkt: Speichern Sie die vollständige Produktkarte (Beschreibung, Eigenschaften, Bilder) in einer lokalen Datenbank oder einer JSON-Datei
  2. Extrahieren und separat speichern der Artikelnummer des Produkts – dies ist die eindeutige Kennung
  3. Bei der nächsten Anfrage: Überprüfen, ob die Artikelnummer im Cache vorhanden ist und ob die Speicherzeit abgelaufen ist
  4. Wenn der Cache aktuell ist: Beschreibung und Eigenschaften aus dem Cache entnehmen, über Proxys nur den Block mit Preis und Beständen anfragen (das ist ein separater API-Endpunkt bei Wildberries)
  5. Gecachete Daten mit dem aktuellen Preis kombinieren – vollständige aktuelle Informationen erhalten

Wildberries gibt Preise und Bestände über eine separate leichte API-Anfrage zurück (ca. 2-5 KB anstelle von 200-500 KB der vollständigen Seite). Wenn Sie den schweren Teil cachen und nur die Preise anfragen – erreichen Sie eine Traffic-Einsparung von 90-95%.

Optimierung des Scraping von Ozon

Ozon hat einen aggressiveren Schutz gegen Scraping, daher erhöht jede überflüssige Anfrage das Risiko einer Sperre. Caching spart hier nicht nur Geld, sondern verringert auch die Wahrscheinlichkeit einer Sperre.

Besonderheit von Ozon: Produktkarten enthalten häufig identische Blöcke (Markenbeschreibung, Standardmerkmale der Kategorie). Wenn Sie 100 Produkte einer Marke scrapen – wird die Markenbeschreibung identisch sein. Cachen Sie solche wiederholenden Blöcke separat:

  • Markenbeschreibung → Cache für 30 Tage
  • Standardmerkmale der Kategorie (z.B. "Zusammensetzung" für Kleidung) → Cache für 14 Tage
  • Einzigartige Beschreibung eines bestimmten Produkts → Cache für 7 Tage
  • Preis und Verfügbarkeit → Anfrage alle 2-4 Stunden

Avito: Caching von Anzeigen

Beim Scraping von Avito (Überwachung von Wettbewerbern, Verfolgung neuer Anzeigen) ist es wichtig zu beachten, dass Anzeigen häufig von der Veröffentlichung entfernt werden. Es ist sinnlos, Daten von einer gelöschten Anzeige im Cache zu speichern.

Strategie: Cachen Sie nur aktive Anzeigen und überprüfen Sie regelmäßig deren Status mit einer leichten Anfrage. Wenn die Anzeige gelöscht wurde – löschen Sie den Cache. Dies verhindert eine Überfüllung der Datenbank und beschleunigt die Arbeit des Scrapers.

Optimierung der Preisüberwachung von Wettbewerbern

Die Preisüberwachung ist eine Aufgabe, bei der Caching den maximalen Effekt erzielt. Preise ändern sich nicht jede Minute, aber sie müssen regelmäßig überprüft werden. Die richtige Cache-Konfiguration ermöglicht es, Änderungen ohne überflüssige Anfragen zu verfolgen.

Adaptive Überprüfungsfrequenz

Nicht alle Produkte erfordern die gleiche Überwachungsfrequenz. Produkte mit dynamischen Preisen (Elektronik, reduzierte Artikel) sollten häufiger überprüft werden. Produkte mit stabilen Preisen (Baumaterialien, Möbel) – seltener.

Beispiel für adaptives Caching von Preisen:

  • Produkt mit Preisänderung in den letzten 7 Tagen → Überprüfung alle 2 Stunden, Cache 2 Stunden
  • Produkt ohne Änderungen 7-30 Tage → Überprüfung alle 6 Stunden, Cache 6 Stunden
  • Produkt ohne Änderungen seit mehr als 30 Tagen → Überprüfung einmal täglich, Cache 24 Stunden

Dieser Ansatz reduziert die Anzahl der Anfragen um 40-60% im Vergleich zu einer festen Überprüfungsfrequenz. Bei der Überwachung von 1000 Produkten anstelle von 12.000 Anfragen pro Tag (alle 2 Stunden) machen Sie 5000-7000.

Caching mit Änderungsbenachrichtigungen

Anstatt alle Preise ständig zu aktualisieren, richten Sie ein System ein: Überprüfen Sie die Preise nach Zeitplan, aktualisieren Sie den Cache jedoch nur bei Änderungen. Wenn sich der Preis nicht geändert hat – verlängern Sie die Gültigkeit des aktuellen Caches ohne neue Anfrage an die Website.

Viele Scraper (Octoparse, ParseHub) unterstützen den Modus "Update only if changed". Das Tool sendet eine Anfrage, vergleicht die neuen Daten mit dem Cache, und wenn es keine Unterschiede gibt – wird der Cache nicht überschrieben, sondern einfach die Zeit der letzten Überprüfung aktualisiert.

Typische Fehler bei der Cache-Einrichtung

Falsches Caching kann zu veralteten Daten, dem Verlust wichtiger Informationen oder im Gegenteil zu keiner Einsparung führen. Lassen Sie uns häufige Fehler und Möglichkeiten, diese zu vermeiden, untersuchen.

Fehler 1: Zu langer Cache für dynamische Daten

Das Caching von Preisen für 24 Stunden bei der Überwachung von Wettbewerbern ist eine schlechte Idee. Innerhalb von 24 Stunden kann sich der Preis 3-5 Mal ändern, insbesondere in stark umkämpften Nischen. Sie werden Traffic einsparen, aber die Aktualität der Daten verlieren.

Lösung: Bestimmen Sie die tatsächliche Änderungsfrequenz der Daten. Führen Sie einen Test durch: Überwachen Sie 50-100 Produkte jede Stunde über eine Woche und sehen Sie, wie oft sich die Preise ändern. Wählen Sie basierend darauf die optimale Cache-Zeit.

Fehler 2: Caching ohne Versionierung

Wenn Sie den Cache bei jeder Aktualisierung einfach überschreiben, verlieren Sie die Änderungsverläufe. Dies ist entscheidend für die Analyse der Preisentwicklung: Es ist unmöglich, ein Diagramm der Preisänderungen über einen Monat zu erstellen, wenn alte Daten gelöscht werden.

Lösung: Speichern Sie Versionen des Caches mit Zeitstempeln. Erstellen Sie beispielsweise anstelle der Datei product_12345.json die Datei product_12345_2024-01-15.json. Dies ermöglicht die Analyse der Historie und das Zurücksetzen auf frühere Versionen der Daten, wenn nötig.

Fehler 3: Ignorieren der Cache-Größe

Das Caching von Tausenden von Produkten mit vollständigen HTML-Seiten füllt schnell die Festplatte. Ein Cache für 10.000 Produkte kann 5-10 GB beanspruchen, wenn vollständige Seiten mit Bildern und Skripten gespeichert werden.

Lösung: Cachen Sie nur die benötigten Daten. Anstatt die gesamte HTML-Seite zu speichern, extrahieren Sie spezifische Felder (Name, Preis, Beschreibung) und speichern Sie sie in einem strukturierten Format (JSON, CSV). Dies reduziert die Cache-Größe um das 10-20-fache.

Tipp: Richten Sie eine automatische Bereinigung des veralteten Caches ein. Daten, die älter als 30-90 Tage sind, sind normalerweise nicht mehr für die aktuelle Arbeit erforderlich – archivieren Sie sie separat oder löschen Sie sie. Dies beschleunigt die Arbeit des Scrapers und schafft Platz auf der Festplatte.

Fehler 4: Fehlende Fehlerbehandlung des Caches

Wenn der Cache beschädigt ist (Schreibfehler, Festplattenschaden), kann der Scraper falsche Daten verwenden oder sogar abstürzen. Dies ist besonders kritisch bei automatisierter Überwachung: Sie könnten mehrere Tage lang veraltete Daten erhalten, ohne es zu wissen.

Lösung: Fügen Sie eine Integritätsprüfung des Caches hinzu. Speichern Sie eine Prüfziffer (Hash) der Daten zusammen mit dem Cache. Bei der Lesung überprüfen Sie: Wenn der Hash nicht übereinstimmt – ist der Cache beschädigt, eine frische Anfrage über den Proxy ist erforderlich.

Fazit

Richtig konfiguriertes Caching ist eine einfache Möglichkeit, die Ausgaben für Proxys um 50-70% zu senken, ohne die Datenqualität zu verlieren. Die Schlüsselprinzipien: Trennen Sie Daten in statische und dynamische, verwenden Sie mehrstufiges Caching mit unterschiedlichen Speicherzeiten, passen Sie die Aktualisierungsfrequenz an die tatsächliche Änderungsdynamik an.

Für die meisten Aufgaben beim Scraping von Marktplätzen und der Preisüberwachung sind keine komplexen technischen Lösungen erforderlich – moderne Tools wie Octoparse oder ParseHub verfügen über integrierte Caching-Funktionen, die in 10-15 Minuten über eine grafische Benutzeroberfläche konfiguriert werden können.

Beginnen Sie einfach: Cachen Sie Produktbeschreibungen für eine Woche, Preise – für 2-3 Stunden. Verfolgen Sie die Ergebnisse über eine Woche und passen Sie die Einstellungen basierend auf der realen Statistik der Änderungen an. Selbst grundlegendes Caching wird eine Einsparung von 30-40% des Traffics bringen, während optimiertes Caching bis zu 70% erreichen kann.

Wenn Sie Marktplätze scrapen oder die Preise von Wettbewerbern überwachen, empfehlen wir die Verwendung von residential Proxys in Kombination mit Caching – dies gewährleistet einen stabilen Betrieb ohne Sperren und minimale Traffic-Ausgaben. Für Aufgaben, bei denen Geschwindigkeit entscheidend ist und große Datenmengen benötigt werden, sind Datacenter-Proxys geeignet – sie sind schneller und günstiger, wenn die Rotations- und Cache-Einstellungen korrekt konfiguriert sind.

```