Retour au blog

Comment réduire la consommation de trafic proxy de 70 % grâce à la mise en cache : guide pour le scraping et l'automatisation

Découvrez comment configurer correctement la mise en cache des données pour réduire les coûts de proxy lors du scraping de marketplaces, de la surveillance des prix et de l'automatisation des tâches répétitives.

📅8 février 2026
```html

Si vous scrapez régulièrement Wildberries, suivez les prix des concurrents sur Ozon ou automatisez la collecte de données, vous savez que les coûts des proxies peuvent sérieusement affecter votre budget. Les requêtes vers les mêmes pages, le rechargement de données statiques, la mise à jour d'informations inchangées — tout cela consomme du trafic et de l'argent. La solution est simple : une mise en cache des données correctement configurée peut réduire la charge sur les proxies de 50 à 70 % sans perdre la pertinence des informations.

Dans ce guide, nous examinerons des méthodes pratiques de mise en cache pour différentes tâches : du scraping des marketplaces au suivi des concurrents. Vous apprendrez quelles données peuvent être mises en cache en toute sécurité, comment configurer la durée de stockage et quels outils utiliser sans compétences en programmation.

Pourquoi la mise en cache est critique pour travailler avec des proxies

Imaginez la situation : vous suivez les prix de 500 produits sur Wildberries chaque heure. Sans mise en cache, votre scraper effectue 500 requêtes via des proxies chaque heure — soit 12 000 requêtes par jour. Avec un coût moyen des proxies résidentiels, cela représente des dépenses considérables, surtout si la plupart des données ne changent pas du tout.

Les statistiques montrent que lors du scraping des marketplaces, jusqu'à 60-70 % des requêtes renvoient des données identiques : les descriptions des produits ne changent pas, les caractéristiques restent les mêmes, les images sont statiques. Seuls les prix, les stocks et les positions dans les résultats changent. Si vous mettez en cache les données statiques et ne mettez à jour que les données dynamiques, l'économie de trafic atteint 50-70 %.

Exemple réel : Un magasin en ligne a suivi les prix de 1200 produits concurrents sur Ozon sans mise en cache — consommation de 28 800 requêtes par jour. Après l'implémentation de la mise en cache des données statiques (descriptions, caractéristiques) avec une mise à jour tous les 7 jours et un cache des prix d'une heure — la consommation a été réduite à 9 600 requêtes. L'économie de trafic des proxies a atteint 67 %.

La mise en cache résout trois problèmes clés :

  • Réduction des coûts de trafic des proxies — moins de requêtes = moins de paiement pour les gigaoctets
  • Réduction du risque de blocages — moins de requêtes vers le site cible = moins de chances d'être banni pour fréquence
  • Accélération du fonctionnement du scraper — les données du cache sont fournies instantanément, sans délais pour les requêtes réseau

Quelles données peuvent être mises en cache lors du scraping

Toutes les données ne conviennent pas à la mise en cache. Il est important de distinguer l'information statique (qui change rarement) et dynamique (qui se met à jour fréquemment). Une mauvaise stratégie de mise en cache conduira soit à des données obsolètes, soit à un manque d'économie.

Type de données Fréquence de mise à jour Temps de cache Économie de trafic
Descriptions des produits Une fois par mois 7-14 jours Jusqu'à 80%
Caractéristiques et paramètres Une fois par mois 7-14 jours Jusqu'à 75%
Images des produits Une fois toutes les 2-4 semaines 14-30 jours Jusqu'à 90%
Avis des clients Quotidiennement 12-24 heures Jusqu'à 50%
Prix des produits Plusieurs fois par jour 1-3 heures Jusqu'à 40%
Stocks disponibles Chaque heure 30-60 minutes Jusqu'à 30%
Positions dans les résultats En continu Ne pas mettre en cache 0%

La règle d'or : plus les données changent rarement, plus elles peuvent être stockées longtemps dans le cache. Les descriptions des produits sur Wildberries ou Ozon changent très rarement — elles peuvent être mises en cache pendant une semaine ou deux. Les prix changent plus fréquemment, mais même ici, un cache de 1 à 3 heures permettra une économie substantielle si vous n'avez pas besoin d'un suivi en temps réel.

Stratégies de mise en cache pour différentes tâches

Une mise en cache efficace ne consiste pas simplement à "sauvegarder des données pour un jour". Pour chaque tâche, une stratégie propre est nécessaire, tenant compte de l'équilibre entre la pertinence des données et l'économie de trafic. Examinons des approches éprouvées pour des scénarios typiques.

Mise en cache multi-niveaux

La stratégie la plus efficace consiste à diviser les données en plusieurs niveaux avec des temps de stockage différents. Cela permet de réduire au maximum la charge sur les proxies tout en maintenant la pertinence des données critiques.

Exemple de cache multi-niveaux pour le scraping de Wildberries :

  • Niveau 1 (30 jours) : Images des produits, marques, catégories
  • Niveau 2 (7 jours) : Descriptions, caractéristiques, composition
  • Niveau 3 (24 heures) : Évaluations, nombre d'avis
  • Niveau 4 (2 heures) : Prix, réductions, promotions
  • Sans cache : Stocks disponibles, positions dans les résultats

Avec cette stratégie, pour 1000 produits, au lieu de 1000 requêtes toutes les 2 heures, vous effectuez environ 300-350 requêtes : la plupart des données proviennent du cache, seules les requêtes pour les prix et les stocks passent par les proxies.

Mise en cache avec vérification des changements

Une approche plus avancée consiste à utiliser des requêtes conditionnelles. Au lieu de charger entièrement la page, vous envoyez une requête légère pour vérifier : les données ont-elles changé depuis la dernière fois ? Si non, vous utilisez le cache, si oui, vous chargez la mise à jour.

De nombreux sites prennent en charge les en-têtes HTTP pour les requêtes conditionnelles : If-Modified-Since ou ETag. Si la page n'a pas changé, le serveur renverra le code 304 (Not Modified) sans corps de réponse — vous économisez 95 % de trafic sur cette requête.

Mise à jour intelligente du cache

Au lieu de mettre à jour toutes les données selon un calendrier, mettez à jour uniquement celles qui ont de fortes chances d'avoir changé. Par exemple, si un produit est en promotion, vérifiez le prix chaque heure. Si un produit ordinaire n'a pas changé depuis 2 semaines, vérifiez une fois par jour.

Conseil : Suivez l'historique des changements. Si le prix d'un produit change chaque jour, réduisez le temps de cache à 1 heure. Si le prix est stable depuis un mois, augmentez-le à 6-12 heures. Une mise en cache adaptative peut offrir des économies supplémentaires de 20-30 %.

Outils de mise en cache sans programmation

Pour configurer la mise en cache, il n'est pas nécessaire d'être programmeur. Les outils modernes de scraping et d'automatisation disposent de fonctions de cache intégrées, qui se configurent via une interface graphique.

Octoparse — scraper avec constructeur visuel

Octoparse est un outil populaire pour le scraping de sites sans code. Dans les paramètres de la tâche, il y a une section "Advanced Settings" → "Cache Management", où vous pouvez spécifier :

  • Quels éléments de la page mettre en cache (images, blocs de texte, tableaux)
  • Temps de stockage du cache (de 1 heure à 30 jours)
  • Conditions de mise à jour (selon un calendrier ou lors du changement de certains champs)

Exemple de configuration pour le scraping d'Ozon : mettre en cache le bloc de description du produit pendant 7 jours, le bloc de prix — pendant 2 heures. Octoparse ignorera automatiquement les requêtes vers les descriptions si elles sont déjà dans le cache et mettra à jour uniquement les prix via les proxies.

ParseHub — mise en cache pour des sites complexes

ParseHub se spécialise dans le scraping de sites avec du contenu dynamique (JavaScript, AJAX). Dans la section "Project Settings", il y a une option "Data Caching" :

  • Smart Cache — détecte automatiquement les éléments statiques et les met en cache
  • Custom Cache Rules — vous spécifiez manuellement les sélecteurs CSS des éléments à mettre en cache
  • Cache Duration — durée de vie du cache de 30 minutes à 90 jours

ParseHub fonctionne bien avec les marketplaces où il y a beaucoup de JavaScript : Wildberries, AliExpress, Yandex.Market. L'outil détermine lui-même quelles données sont chargées dynamiquement et met en cache les requêtes répétées.

Screaming Frog — pour les spécialistes SEO

Si vous utilisez Screaming Frog pour analyser les sites des concurrents ou suivre les positions, la mise en cache intégrée économisera beaucoup de trafic. Dans les paramètres "Configuration" → "Spider" → "Advanced", activez :

  • Cache Pages — sauvegarder les pages HTML localement
  • Cache Images & CSS — ne pas recharger les ressources statiques
  • Use Cached Data — utiliser les données sauvegardées lors du nouveau scan

Particulièrement utile lors du suivi régulier des mêmes sites : le premier scan charge tout via les proxies, les suivants — uniquement les pages modifiées.

Mise en cache lors du scraping des marketplaces

Les marketplaces sont la tâche la plus populaire pour le scraping parmi les entreprises e-commerce. Wildberries, Ozon, Yandex.Market ont une structure de données similaire, ce qui permet d'appliquer une stratégie de mise en cache universelle.

Scraping de Wildberries avec un minimum de consommation de trafic

Tâche typique : suivi de 500 produits concurrents. Sans mise en cache — 500 requêtes toutes les 2 heures = 6000 requêtes par jour. Avec un bon cache — jusqu'à 1500-2000 requêtes par jour.

Configuration étape par étape du cache pour Wildberries :

  1. Première requête pour le produit : sauvegardez la fiche complète (description, caractéristiques, images) dans une base de données locale ou un fichier JSON
  2. Extraire et sauvegarder séparément le code article du produit — c'est l'identifiant unique
  3. Lors de la prochaine requête : vérifiez si le code article est dans le cache et si la durée de stockage n'est pas expirée
  4. Si le cache est à jour : prenez la description et les caractéristiques du cache, via le proxy, demandez uniquement le bloc avec le prix et les stocks (c'est un endpoint API séparé chez Wildberries)
  5. Combinez les données mises en cache avec le prix frais — vous obtenez des informations complètes et à jour

Wildberries fournit les prix et les stocks via une requête API légère séparée (environ 2-5 Ko au lieu de 200-500 Ko pour la page complète). Si vous mettez en cache la partie lourde et demandez uniquement les prix, l'économie de trafic atteint 90-95 %.

Optimisation du scraping Ozon

Ozon a une protection plus agressive contre le scraping, donc chaque requête supplémentaire augmente le risque de blocage. La mise en cache ici non seulement économise de l'argent, mais réduit également la probabilité de bannissement.

Particularité d'Ozon : les fiches produits contiennent souvent des blocs identiques (description de la marque, caractéristiques standard de la catégorie). Si vous scrapez 100 produits d'une même marque, la description de la marque sera identique. Mettez en cache ces blocs répétitifs séparément :

  • Description de la marque → cache de 30 jours
  • Caractéristiques standard de la catégorie (par exemple, "Composition" pour les vêtements) → cache de 14 jours
  • Description unique d'un produit spécifique → cache de 7 jours
  • Prix et disponibilité → requête toutes les 2-4 heures

Avito : mise en cache des annonces

Lors du scraping d'Avito (suivi des concurrents, suivi des nouvelles annonces), il est important de prendre en compte que les annonces sont souvent retirées de la publication. Il est inutile de conserver dans le cache les données d'une annonce supprimée.

Stratégie : ne mettez en cache que les annonces actives et vérifiez régulièrement leur statut avec une requête légère. Si l'annonce est supprimée, nettoyez le cache. Cela évitera l'encombrement de la base de données et accélérera le fonctionnement du scraper.

Optimisation du suivi des prix des concurrents

Le suivi des prix est une tâche où la mise en cache donne un effet maximal. Les prix ne changent pas chaque minute, mais ils doivent être vérifiés régulièrement. Une bonne configuration du cache permet de suivre les changements sans requêtes superflues.

Fréquence de vérification adaptative

Tous les produits ne nécessitent pas la même fréquence de suivi. Les produits avec des prix dynamiques (électronique, articles en promotion) doivent être vérifiés plus souvent. Les produits avec des prix stables (matériaux de construction, meubles) — moins souvent.

Exemple de mise en cache adaptative des prix :

  • Produit avec changement de prix au cours des 7 derniers jours → vérification toutes les 2 heures, cache de 2 heures
  • Produit sans changements pendant 7-30 jours → vérification toutes les 6 heures, cache de 6 heures
  • Produit sans changements pendant plus de 30 jours → vérification une fois par jour, cache de 24 heures

Cette approche réduit le nombre de requêtes de 40 à 60 % par rapport à une fréquence de vérification fixe. Lors du suivi de 1000 produits, au lieu de 12 000 requêtes par jour (toutes les 2 heures), vous effectuez 5000-7000.

Mise en cache avec notifications de changements

Au lieu de mettre à jour constamment tous les prix, configurez un système : vérifiez les prix selon un calendrier, mais mettez à jour le cache uniquement en cas de changement. Si le prix n'a pas changé, prolongez la durée de vie du cache actuel sans nouvelle requête au site.

De nombreux scrapers (Octoparse, ParseHub) prennent en charge le mode "Update only if changed". L'outil effectue une requête, compare les nouvelles données avec le cache, et s'il n'y a pas de différence, il ne réécrit pas le cache, mais met simplement à jour l'heure de la dernière vérification.

Erreurs courantes lors de la configuration du cache

Une mauvaise mise en cache peut entraîner des données obsolètes, une perte d'informations importantes ou, au contraire, un manque d'économie. Examinons les erreurs fréquentes et comment les éviter.

Erreur 1 : Cache trop long pour des données dynamiques

Mettre en cache les prix pendant 24 heures lors du suivi des concurrents est une mauvaise idée. En une journée, le prix peut changer 3 à 5 fois, surtout dans des niches très concurrentielles. Vous obtiendrez des économies de trafic, mais perdrez la pertinence des données.

Solution : Déterminez la fréquence réelle de changement des données. Effectuez un test : suivez 50-100 produits chaque heure pendant une semaine et observez à quelle fréquence les prix changent. Sur cette base, choisissez le temps de cache optimal.

Erreur 2 : Mise en cache sans versionnage

Si vous réécrivez simplement le cache à chaque mise à jour, vous perdez l'historique des changements. Cela est critique pour analyser la dynamique des prix : il est impossible de tracer un graphique de l'évolution des prix sur un mois si les anciennes données sont effacées.

Solution : Conservez des versions du cache avec des horodatages. Par exemple, au lieu d'un fichier product_12345.json, créez product_12345_2024-01-15.json. Cela permettra d'analyser l'historique et de revenir à une version précédente des données si nécessaire.

Erreur 3 : Ignorer la taille du cache

La mise en cache de milliers de produits avec des pages HTML complètes remplira rapidement le disque. Un cache pour 10 000 produits peut occuper 5 à 10 Go si vous conservez des pages complètes avec des images et des scripts.

Solution : Mettez en cache uniquement les données nécessaires. Au lieu de sauvegarder toute la page HTML, extrayez des champs spécifiques (nom, prix, description) et conservez-les dans un format structuré (JSON, CSV). Cela réduira la taille du cache de 10 à 20 fois.

Conseil : Configurez un nettoyage automatique du cache obsolète. Les données de plus de 30 à 90 jours ne sont généralement pas nécessaires pour le travail actuel — archivez-les séparément ou supprimez-les. Cela accélérera le fonctionnement du scraper et libérera de l'espace sur le disque.

Erreur 4 : Absence de gestion des erreurs de cache

Si le cache est corrompu (échec d'écriture, erreur de disque), le scraper peut utiliser des données incorrectes ou même planter. Cela est particulièrement critique lors du suivi automatique : vous pouvez recevoir des données obsolètes pendant plusieurs jours sans le savoir.

Solution : Ajoutez une vérification de l'intégrité du cache. Conservez une somme de contrôle (hash) des données avec le cache. Lors de la lecture, vérifiez : si le hash ne correspond pas, le cache est corrompu, un nouveau запрос через прокси est nécessaire.

Conclusion

Une mise en cache correctement configurée est un moyen simple de réduire les coûts des proxies de 50 à 70 % sans perte de qualité des données. Les principes clés : séparez les données en statiques et dynamiques, utilisez une mise en cache multi-niveaux avec des temps de stockage différents, adaptez la fréquence de mise à jour à la dynamique réelle des changements.

Pour la plupart des tâches de scraping des marketplaces et de suivi des prix, des solutions techniques complexes ne sont pas nécessaires — des outils modernes comme Octoparse ou ParseHub disposent de fonctions de mise en cache intégrées, qui se configurent en 10-15 minutes via une interface graphique.

Commencez par quelque chose de simple : mettez en cache les descriptions des produits pendant une semaine, les prix — pendant 2-3 heures. Suivez les résultats pendant une semaine et ajustez les paramètres en fonction des statistiques réelles des changements. Même une mise en cache de base permettra d'économiser 30-40 % de trafic, et une mise en cache optimisée jusqu'à 70 %.

Si vous scrapez des marketplaces ou suivez les prix des concurrents, nous vous recommandons d'utiliser des proxies résidentiels en combinaison avec la mise en cache — cela garantira un fonctionnement stable sans blocages et des coûts de trafic minimaux. Pour les tâches où la vitesse est critique et de grands volumes de données sont nécessaires, des proxies de centre de données conviennent — ils sont plus rapides et moins chers avec une bonne configuration de rotation et de cache.

```