La tarification dynamique est devenue la norme sur les marketplaces — les prix changent 10 à 20 fois par jour en fonction de la demande, des stocks et des actions des concurrents. Si vous êtes vendeur sur Wildberries, Ozon ou Avito, vous le savez : celui qui apprend en premier la baisse de prix d'un concurrent conserve sa position dans les résultats. Mais toutes les marketplaces bloquent strictement le scraping massif depuis une seule IP. Dans cet article, nous allons examiner comment configurer un suivi automatique des prix via des proxies, afin de collecter des données 24/7 sans risque de blocage de compte ou d'adresse IP.
Pourquoi les marketplaces bloquent-elles le scraping des prix et comment cela fonctionne
Toutes les grandes marketplaces utilisent une protection multi-niveaux contre la collecte automatique de données. La raison est simple : le scraping massif crée une charge sur les serveurs et donne un avantage concurrentiel à ceux qui savent collecter des données. Wildberries, par exemple, enregistre jusqu'à 300 000 changements de prix par jour — et ne veut pas que ces données soient accessibles aux concurrents gratuitement.
Voici comment fonctionne un système de protection typique contre le scraping :
- Suivi de la fréquence des requêtes depuis une seule IP — si vous ouvrez 50+ fiches produits par minute, le système comprend que ce n'est pas un humain. Un acheteur ordinaire consulte 3-5 produits par minute, un scraper — 100-500.
- Analyse du User-Agent et des en-têtes — les requêtes sans en-têtes de navigateur corrects tombent immédiatement dans la liste noire. Beaucoup de débutants utilisent des bibliothèques Python requests standard sans configurer les en-têtes — c'est la première chose que détectent les systèmes de protection.
- Vérification de JavaScript et des cookies — les marketplaces modernes utilisent Cloudflare, DataDome et leurs propres systèmes anti-bots. Ils vérifient l'exécution de JavaScript, la présence de cookies de session, le comportement de la souris et le défilement.
- Géolocalisation de l'IP — si vous scrapez Ozon russe avec une IP d'Allemagne ou des États-Unis, cela semble suspect. Le système peut vous montrer des prix obsolètes ou même bloquer l'accès.
- Blocage des data centers — la plupart des marketplaces tiennent des bases de données d'adresses IP de fournisseurs cloud (AWS, Google Cloud, Hetzner) et limitent automatiquement les requêtes provenant de celles-ci.
Le résultat d'un blocage peut varier : d'une limitation temporaire de la vitesse (rate limit) à un bannissement complet de l'IP pendant plusieurs semaines. Si vous scrapez via un compte vendeur — vous risquez de recevoir un blocage de votre compte personnel, ce qui est critique pour les affaires.
Cas réel : Un vendeur sur Wildberries a configuré le scraping des prix des concurrents via un serveur VPS ordinaire. En 2 heures, il a collecté des données sur 500 produits. Un jour plus tard, il a découvert que son IP était complètement bloquée — même accéder au site en tant qu'acheteur ordinaire est devenu impossible. Il a dû attendre 2 semaines jusqu'à ce que le blocage soit levé automatiquement.
Quels types de proxies conviennent pour le suivi des prix : comparaison
Pour le suivi de la tarification dynamique, trois types de proxies conviennent, chacun avec ses avantages et inconvénients. Le choix dépend du budget, du volume de scraping et des exigences géographiques.
| Type de proxy | Avantages | Inconvénients | Pour quelles tâches |
|---|---|---|---|
| Proxies résidentiels | IP réelles d'utilisateurs domestiques, risque minimal de bannissement, support de n'importe quelle géographie, contournement de Cloudflare | Plus chers que les autres types, la vitesse peut varier | Scraping de Wildberries, Ozon, sites avec une protection stricte. Suivi des prix régionaux. |
| Proxies mobiles | IP des opérateurs mobiles, une IP est utilisée par des milliers d'utilisateurs — presque impossible à bloquer, score de confiance élevé | Les plus chers, géographie limitée, changement périodique d'IP par l'opérateur | Scraping via des applications mobiles de marketplaces, contournement de la protection la plus stricte |
| Proxies de data center | Haute vitesse, prix bas, connexion stable, trafic illimité | Facilement détectables, de nombreuses marketplaces bloquent préventivement les data centers | Scraping de sites sans protection sérieuse, Avito, petits magasins en ligne |
Recommandation pratique pour le choix :
- Pour Wildberries et Ozon — uniquement des proxies résidentiels ou mobiles. Ces plateformes utilisent Cloudflare et leurs propres systèmes anti-bots, les data centers sont bloqués dans 90% des cas.
- Pour Yandex.Market — proxies résidentiels avec une géographie russe, le système vérifie la correspondance entre l'IP et la région de recherche.
- Pour Avito — vous pouvez utiliser des data centers, mais avec rotation et délais entre les requêtes. La protection est moins stricte que celle des marketplaces.
- Pour AliExpress et les plateformes internationales — proxies résidentiels du pays souhaité, beaucoup affichent des prix différents selon les régions.
Si le budget est limité — commencez avec un pool de 20-30 proxies résidentiels avec rotation. Cela suffira pour surveiller 500-1000 produits par jour sans blocages.
Particularités de la protection de Wildberries, Ozon, Yandex.Market et Avito
Chaque plateforme utilise sa propre combinaison de mécanismes de protection. Comprendre ces particularités aide à configurer le scraper correctement dès le premier essai.
Wildberries
La protection la plus stricte parmi les marketplaces russes. Ils utilisent Cloudflare avec le mode "I'm Under Attack" activé, qui vérifie le challenge JavaScript avant d'accéder au contenu. De plus, ils surveillent :
- Empreinte du navigateur — canvas, WebGL, polices, résolution d'écran
- Empreinte TLS — version du protocole et ensemble de suites de chiffrement
- Facteurs comportementaux — vitesse de défilement, mouvements de la souris, temps passé sur la page
- Historique de session — si vous commencez immédiatement à ouvrir des fiches produits sans consulter la page d'accueil et les catégories, cela semble suspect
Ce qui fonctionne : Navigateurs sans tête (Puppeteer, Playwright) avec proxies résidentiels, émulation du comportement réel de l'utilisateur, délais de 5-15 secondes entre les requêtes, rotation du User-Agent et des proxies après chaque 20-30 requêtes.
Ozon
Ils utilisent leur propre système anti-bots plus DataDome. Particularité : les prix peuvent varier en fonction de la ville de livraison — le système détermine la région par l'IP et affiche les prix correspondants en tenant compte de la logistique.
Ozon bloque activement les plages d'IP connues des data centers. Lors du scraping via un VPS ordinaire, dans 80% des cas, vous obtiendrez un captcha ou une erreur 403. Ils surveillent également les cookies — si vous faites des requêtes sans conserver la session entre les requêtes, cela est détecté.
Ce qui fonctionne : Proxies résidentiels avec une géographie russe, conservation obligatoire des cookies entre les requêtes, simulation de l'ajout de produits aux favoris (cela crée "l'historique" de l'utilisateur), délais de 3-10 secondes.
Yandex.Market
Niveau de protection moyen. La principale caractéristique — une forte dépendance à la région. Si vous scrapez les prix pour Moscou avec une IP de Vladivostok, le système affichera soit les prix pour Vladivostok, soit bloquera complètement l'accès. Pour un suivi correct, des proxies de la région dont vous suivez les prix sont nécessaires.
Yandex utilise également son propre système anti-fraude, qui analyse la séquence des actions. Cela semble suspect : ouvrir des fiches produits par des liens directs sans recherche, intervalles identiques entre les requêtes (par exemple, strictement toutes les 5 secondes), absence de requêtes vers la statique (images, styles).
Ce qui fonctionne : Proxies résidentiels de la région souhaitée, émulation d'un cycle complet : recherche → liste de produits → fiche produit, délais aléatoires de 4-12 secondes, rotation périodique des proxies.
Avito
La protection la plus clémente parmi les plateformes mentionnées. La principale protection — une limite sur le nombre de vues d'annonces depuis une seule IP (environ 100-150 annonces par heure). Après avoir dépassé la limite, un captcha ou un blocage temporaire de 1 à 2 heures s'affiche.
Avito vérifie également la présence de cookies et d'en-têtes de base, mais n'utilise pas de défis JavaScript complexes. Les data centers fonctionnent, mais avec des restrictions — une rotation et une fréquence modérée des requêtes sont nécessaires.
Ce qui fonctionne : Même les data centers avec rotation, délais de 2-5 secondes entre les annonces, en-têtes de navigateur corrects, conservation des cookies. Pour de gros volumes — proxies résidentiels.
Configuration de la rotation des proxies pour un scraping 24/7
Une bonne rotation des proxies est un facteur clé pour un scraping stable sans blocages. Il existe trois stratégies principales de rotation, chacune adaptée à différents scénarios.
Stratégie 1 : Rotation par nombre de requêtes
Essentiellement : changez de proxy après un certain nombre de requêtes (par exemple, après chaque 20-50 requêtes). C'est la méthode la plus simple et efficace pour la plupart des tâches.
Valeurs recommandées pour différentes plateformes :
- Wildberries : 15-25 requêtes par proxy, puis changement
- Ozon : 20-30 requêtes
- Yandex.Market : 30-50 requêtes
- Avito : 50-100 requêtes
Un point important : ajoutez de la randomisation. Ne changez pas de proxy strictement après 20 requêtes — faites-le après 18-23 requêtes de manière aléatoire. Cela rend le modèle moins prévisible pour les systèmes de protection.
Stratégie 2 : Rotation temporelle
Changez de proxy toutes les N minutes, indépendamment du nombre de requêtes. Convient pour des tâches avec une charge imprévisible — par exemple, le suivi des prix en temps réel, où le nombre de mises à jour peut changer rapidement.
Intervalles recommandés : 5-15 minutes pour les plateformes strictes (Wildberries, Ozon), 15-30 minutes pour les plus clémentes (Avito, petits magasins).
Stratégie 3 : Sessions collantes (sticky sessions)
Utilisez le même proxy pour toutes les requêtes dans le cadre d'une "session utilisateur". Par exemple : vous émulez un acheteur qui se connecte à Ozon, cherche "ordinateurs portables", ouvre 5 fiches produits, en ajoute une au panier. Toutes ces actions passent par un seul proxy avec conservation des cookies.
Après la fin de la session (après 3-10 minutes) — changez de proxy et commencez une nouvelle session. C'est le modèle le plus "humain", mais il nécessite plus de proxies et est plus complexe à mettre en œuvre.
Quand utiliser : Scraping de plateformes avec une protection très stricte, lorsque la simple rotation ne fonctionne pas. Convient également pour la collecte de données via les comptes personnels des vendeurs.
Conseil pratique :
Combinez les stratégies. Par exemple : utilisez des sessions collantes de 20-30 requêtes, puis après la fin de la session, changez de proxy. Ajoutez une limite de temps — si la session dure plus de 10 minutes, changez de proxy de manière forcée. Cette approche hybride offre une protection maximale contre la détection.
Outils prêts à l'emploi pour le suivi des prix avec support proxy
Si vous ne souhaitez pas écrire un scraper depuis zéro, il existe des solutions prêtes à l'emploi avec un support proxy intégré. Examinons les outils les plus populaires pour le suivi des prix sur les marketplaces russes et internationales.
Pour les marketplaces russes
1. Mpstats (mpstats.io)
Service spécialisé pour l'analyse de Wildberries et Ozon. Collecte des données sur les ventes, les stocks, les prix des concurrents. Dispose d'une API pour l'intégration avec vos propres systèmes. Le service fonctionne via sa propre infrastructure de proxies, vous n'avez rien à configurer de plus.
Inconvénient : coût élevé (à partir de 15 000 RUB/mois pour un accès complet), impossibilité d'utiliser vos propres proxies. Convient aux grands vendeurs avec un chiffre d'affaires de 1-2 millions RUB/mois.
2. Sellego
Service similaire axé sur l'automatisation de la tarification. Suit les prix des concurrents et ajuste automatiquement vos prix selon des règles définies (par exemple, "être 5% moins cher que le concurrent"). Fonctionne également via ses propres proxies.
3. Parsehub
Constructeur visuel de scrapers sans code. Vous cliquez sur les éléments de la page à collecter, et le service crée automatiquement le scraper. Supporte les proxies — vous pouvez ajouter votre propre liste dans les paramètres du projet. Convient à ceux qui ne savent pas programmer du tout.
Coût : tarif gratuit — 200 pages par mois, payant — à partir de 149 $/mois pour 10 000 pages. Pour le suivi de 100-200 produits, le tarif gratuit suffira.
Pour le développement autonome
Si vous êtes prêt à configurer le scraper vous-même ou si vous avez un programmeur dans votre équipe :
1. Scrapy (Python)
Framework puissant pour le scraping avec support intégré des proxies, rotation, gestion des erreurs. Dispose d'un middleware pour changer automatiquement de proxy à partir d'une liste. Nécessite des connaissances en Python, mais la documentation est excellente.
Convient pour le scraping de sites simples sans JavaScript. Pour Wildberries et Ozon, il faut le combiner avec Splash ou Selenium pour le traitement de JavaScript.
2. Puppeteer / Playwright (JavaScript)
Navigateurs sans tête qui émulent complètement un utilisateur réel — exécutent JavaScript, conservent les cookies, peuvent émuler des mouvements de souris. Idéal pour les plateformes avec une protection stricte.
La configuration des proxies est simple — un paramètre lors du lancement du navigateur. Playwright est considéré comme plus moderne et stable, mais Puppeteer a plus d'exemples et de bibliothèques prêtes à l'emploi.
3. Octoparse
Application de bureau pour Windows avec un constructeur visuel de scrapers. Ne nécessite pas de programmation — vous cliquez simplement sur les éléments à collecter. Support intégré des proxies, planificateur de lancements, exportation vers Excel/CSV.
Coût : version gratuite avec restrictions (10 000 enregistrements par mois), tarifs payants à partir de 75 $/mois. Bon choix pour les petites et moyennes entreprises.
Configuration étape par étape d'un scraper de prix avec proxy en 15 minutes
Je vais montrer la méthode la plus simple pour configurer le suivi des prix en utilisant Parsehub — un outil sans code. Cette méthode convient même si vous n'avez jamais travaillé avec des scrapers.
Étape 1 : Inscription et installation
- Inscrivez-vous sur parsehub.com (il y a un tarif gratuit)
- Téléchargez et installez l'application de bureau pour Windows ou Mac
- Lancez l'application et connectez-vous à votre compte
Étape 2 : Création du projet et sélection des éléments
- Cliquez sur "Nouveau projet" et collez l'URL de la page avec les produits (par exemple, une catégorie sur Ozon ou les résultats de recherche)
- Parsehub chargera la page dans le navigateur intégré
- Cliquez sur le nom du premier produit — Parsehub mettra automatiquement en surbrillance tous les éléments similaires sur la page
- Cliquez sur le prix du produit — il sera ajouté à la liste des données collectées
- Ajoutez d'autres champs nécessaires : lien vers le produit, note, nombre d'avis
Étape 3 : Configuration des proxies
- Ouvrez les paramètres du projet (icône de l'engrenage)
- Trouvez la section "Paramètres de proxy"
- Sélectionnez "Utiliser un proxy" et collez les données de vos proxies au format : IP:PORT:USERNAME:PASSWORD
- Si vous avez une liste de proxies, activez l'option "Changer de proxies" — Parsehub changera automatiquement de proxy entre les requêtes
Étape 4 : Configuration du calendrier
- Dans les paramètres du projet, trouvez "Calendrier"
- Sélectionnez la fréquence de lancement : chaque heure, toutes les 6 heures, une fois par jour, etc.
- Pour la tarification dynamique, l'idéal est — toutes les 2-4 heures
Étape 5 : Exportation des données
- Après le premier lancement du scraper, les données apparaîtront dans l'onglet "Données"
- Cliquez sur "Exporter" et choisissez le format : CSV, Excel, JSON
- Vous pouvez configurer l'envoi automatique des données vers Google Sheets ou par email après chaque lancement
Toute la configuration prend 10-15 minutes. Après cela, le scraper fonctionne automatiquement selon le calendrier, collecte les prix des concurrents et vous envoie les données.
Important : Pour le scraping de Wildberries et Ozon via Parsehub, utilisez impérativement des proxies résidentiels. Les data centers seront bloqués, même avec rotation. Un pool de 10-20 proxies suffit pour surveiller 200-500 produits.
5 erreurs qui entraînent des blocages lors du scraping
Même avec des proxies corrects, vous pouvez être banni si vous commettez des erreurs typiques. Voici les problèmes les plus fréquents rencontrés dans la pratique.
Erreur 1 : Vitesse de requêtes trop élevée
Beaucoup s'efforcent de collecter des données aussi rapidement que possible et effectuent 10-20 requêtes par seconde. Cela est immédiatement détecté par les systèmes de protection. Un humain ne peut physiquement pas ouvrir 20 fiches produits par seconde.
Solution : Ajoutez des délais entre les requêtes. Minimum 2-3 secondes pour les sites simples, 5-10 secondes pour les marketplaces avec protection. Faites des délais aléatoires — pas strictement 5 secondes, mais entre 4 et 8 secondes de manière aléatoire.
Erreur 2 : Utilisation d'un seul proxy pour toutes les requêtes
Même si vous avez acheté un proxy résidentiel, l'utilisation d'une seule IP pour des centaines de requêtes par jour entraînera un blocage. Les systèmes de protection surveillent l'activité de chaque IP.
Solution : Minimum 10-20 proxies dans le pool avec rotation. Pour de gros volumes (1000+ produits par jour) — 50-100 proxies.
Erreur 3 : Absence ou en-têtes de requêtes incorrects
Les requêtes sans User-Agent ou avec le User-Agent par défaut de la bibliothèque (par exemple, "Python-requests/2.28.1") sont immédiatement détectées comme des bots.
Solution : Indiquez toujours un User-Agent d'un navigateur réel. Ajoutez également les en-têtes Accept, Accept-Language, Accept-Encoding. Changez le User-Agent lors du changement de proxy.
Erreur 4 : Ignorer les cookies et les sessions
De nombreuses plateformes utilisent des cookies pour suivre la session de l'utilisateur. Si vous effectuez chaque requête "à partir de zéro" sans cookies, cela semble suspect.
Solution : Conservez les cookies entre les requêtes dans le cadre d'une même session. Lors du changement de proxy — nettoyez les cookies et commencez une nouvelle session. Utilisez des bibliothèques avec gestion automatique des cookies (requests.Session en Python, puppeteer en JavaScript).
Erreur 5 : Scraping uniquement des fiches produits sans simuler la navigation
Si vous ouvrez immédiatement des liens directs vers des fiches produits, en contournant la page d'accueil, la recherche et les catégories, cela ne ressemble pas au comportement d'un utilisateur réel.
Solution : Pour les plateformes avec une protection stricte (Wildberries, Ozon), simulez le chemin complet de l'utilisateur : page d'accueil → recherche ou catégorie → liste de produits → fiche produit. Cela augmente le temps de scraping, mais réduit considérablement le risque de bannissement.
Conclusion
Le suivi de la tarification dynamique est une tâche critique pour tout vendeur sur les marketplaces. Les prix des concurrents changent plusieurs fois par jour, et celui qui réagit en premier aux changements conserve sa position dans les résultats et ses bénéfices. Mais toutes les grandes plateformes bloquent strictement le scraping, donc sans des proxies correctement configurés, il est impossible de collecter des données.
Les points clés de l'article : pour Wildberries et Ozon, utilisez uniquement des proxies résidentiels ou mobiles — les data centers sont bloqués dans 90% des cas. Assurez-vous de configurer la rotation des proxies — changez d'IP après chaque 20-30 requêtes. Ajoutez des délais entre les requêtes (5-10 secondes) et randomisez-les. Utilisez des navigateurs sans tête pour les plateformes avec protection JavaScript. Et simulez le comportement d'un utilisateur réel — n'ouvrez pas directement les fiches produits, émulez le chemin complet via la recherche et les catégories.
Si vous ne souhaitez pas vous plonger dans les détails techniques, utilisez des outils prêts à l'emploi comme Parsehub ou Octoparse — ils ne nécessitent pas de programmation et ont un support proxy intégré. Pour de gros volumes et des tâches spécifiques, il est préférable de développer votre propre scraper avec Scrapy ou Puppeteer.
Si vous envisagez de configurer un suivi automatique des prix sur les marketplaces russes, nous vous recommandons de commencer avec des proxies résidentiels — ils garantissent un accès stable à Wildberries, Ozon et d'autres plateformes avec un risque minimal de blocages. Pour des cas particulièrement complexes ou pour travailler avec des applications mobiles de marketplaces, des proxies mobiles avec des IP d'opérateurs russes conviendront.