Le succès sur les marketplaces dépend directement de la rapidité de réaction aux tendances. Pendant que vous feuilletez manuellement les catalogues de Wildberries et Ozon, vos concurrents ont déjà automatisé la collecte de données via des proxies et obtiennent des informations sur les best-sellers en temps réel. Mais les marketplaces bloquent activement le scraping — sans une configuration adéquate des proxies, vous risquez de perdre l'accès à la plateforme ou d'obtenir des données incomplètes.
Dans ce guide, nous allons examiner comment configurer un système de collecte automatique de données sur les produits tendance, quel type de proxy choisir pour différentes marketplaces et comment éviter les erreurs typiques qui entraînent des blocages.
Pourquoi les marketplaces bloquent-elles le scraping et comment les proxies résolvent-ils le problème
Les marketplaces dépensent des millions pour se protéger contre la collecte automatique de données. La raison est simple : le scraping crée une charge sur les serveurs et permet aux concurrents d'obtenir des informations commerciales. Wildberries, Ozon et d'autres plateformes utilisent un système de protection à plusieurs niveaux qui surveille les activités suspectes.
Le système anti-scraping analyse plusieurs paramètres simultanément. Si un seul IP envoie 100 requêtes par minute — c'est un signe évident d'un bot. Un acheteur ordinaire consulte 5 à 10 fiches produits durant ce temps. Le User-Agent du navigateur, la fréquence des clics, le mouvement de la souris et même le temps passé sur la page sont également surveillés.
Les proxies résolvent un problème clé — ils répartissent les requêtes entre différentes adresses IP. Au lieu d'envoyer 1000 requêtes depuis votre IP réelle, le système envoie 10 à 20 requêtes depuis chacune des 50 à 100 adresses différentes. Pour la marketplace, cela ressemble à l'activité d'utilisateurs ordinaires provenant de différentes villes.
Important : L'utilisation de proxies ne garantit pas une protection totale contre les blocages. Il est également nécessaire de configurer une rotation IP correcte, de respecter des intervalles entre les requêtes et d'imiter le comportement d'un utilisateur réel. Nous en parlerons en détail dans la section sur la configuration.
Quel type de proxy choisir pour la collecte de données sur les produits
Pour le scraping des marketplaces, trois types de proxies conviennent, chacun ayant ses avantages et ses limitations. Le choix dépend du volume de données, du budget et des exigences en matière de vitesse de collecte d'informations.
| Type de proxy | Vitesse | Confiance des plateformes | Prix | Recommandation |
|---|---|---|---|---|
| Proxies de centre de données | Élevée (100+ Mbit/s) | Faible (facilement détectables) | À partir de 1-3 $/IP | Scraping massif avec une haute rotation |
| Proxies résidentiels | Moyenne (20-50 Mbit/s) | Élevée (IP réelles d'utilisateurs) | À partir de 5-15 $/Go de trafic | Scraping de marketplaces protégées (Wildberries, Ozon) |
| Proxies mobiles | Moyenne (10-30 Mbit/s) | Maximale (opérateurs mobiles) | À partir de 50-100 $/IP | Scraping avec une protection maximale, versions mobiles des sites |
Proxies de centre de données : quand la vitesse est plus importante que l'anonymat
Si vous devez rapidement collecter un grand volume de données sur des plateformes moins protégées (par exemple, AliExpress ou Yandex.Market), les proxies de centre de données sont le choix optimal. Ils fonctionnent sur des serveurs de fournisseurs d'hébergement, garantissant ainsi une vitesse de chargement élevée des pages.
Le principal inconvénient est que les marketplaces peuvent facilement identifier les IP des centres de données et peuvent les bloquer en cas d'activité suspecte. La solution consiste à utiliser un grand pool d'IP (de 50 à 100 adresses) et à configurer une rotation rapide : changer d'IP après chaque 10 à 15 requêtes.
Proxies résidentiels : le juste milieu pour la plupart des tâches
Les proxies résidentiels utilisent des adresses IP de véritables fournisseurs d'accès Internet, qui sont attribuées à des utilisateurs ordinaires. Pour Wildberries ou Ozon, ce trafic semble totalement légitime — comme si un acheteur de Moscou, Saint-Pétersbourg ou Kazan consultait les produits.
Ce type de proxy convient pour la surveillance régulière des tendances, lorsque vous collectez des données quotidiennement ou plusieurs fois par jour. Le coût est calculé en fonction du trafic — pour le scraping de 10 000 fiches produits, il faudra environ 5 à 10 Go selon le volume des images et des descriptions.
Proxies mobiles : protection maximale pour des tâches critiques
Les proxies mobiles utilisent des adresses IP des opérateurs de téléphonie mobile (MTS, Beeline, Megafon). Les marketplaces bloquent très rarement ces adresses, car derrière une seule IP peuvent se trouver des milliers d'utilisateurs réels — les opérateurs utilisent la technologie CGNAT (IP partagée entre plusieurs abonnés).
Les proxies mobiles sont à utiliser pour le scraping de sections particulièrement protégées des marketplaces ou lorsque vous avez déjà rencontré des blocages en utilisant d'autres types de proxies. Ils sont également indispensables pour collecter des données à partir des applications mobiles Wildberries et Ozon, où la protection est encore plus stricte.
Particularités du scraping sur différentes marketplaces : Wildberries, Ozon, AliExpress
Chaque marketplace utilise son propre système de protection contre le scraping. Comprendre ces particularités vous aidera à configurer les proxies de manière optimale et à éviter les blocages.
Wildberries : protection stricte et géolocalisation
Wildberries utilise l'un des systèmes de protection les plus avancés parmi les marketplaces russes. La plateforme analyse non seulement la fréquence des requêtes, mais aussi les facteurs comportementaux : temps passé sur la page, défilement, clics sur les éléments. Pour un scraping réussi, il est nécessaire d'imiter les actions d'un utilisateur réel.
Une caractéristique importante est la géolocalisation des prix et de la disponibilité des produits. Wildberries affiche une gamme différente pour Moscou, les régions et les zones éloignées. Si vous collectez des données sur les tendances pour vendre dans toute la Russie, utilisez des proxies provenant de différentes régions : Moscou, Saint-Pétersbourg, Ekaterinbourg, Novossibirsk, Krasnodar.
Conseil pratique : Pour le scraping de Wildberries, utilisez des proxies résidentiels avec une rotation tous les 50 à 100 requêtes. Assurez-vous d'ajouter des délais aléatoires de 2 à 5 secondes entre les requêtes et de changer le User-Agent du navigateur. Cela réduira la probabilité de blocage au minimum.
Ozon : API pour partenaires et protection du catalogue public
Ozon fournit une API officielle pour les vendeurs, mais elle n'offre pas d'accès aux données des concurrents. Pour analyser les tendances, il est tout de même nécessaire de scraper le catalogue public. La protection d'Ozon est moins agressive que celle de Wildberries, mais la plateforme utilise activement des CAPTCHA en cas d'activité suspecte.
Une particularité d'Ozon est le chargement dynamique du contenu via JavaScript. Les simples requêtes HTTP ne fonctionneront pas, un parseur avec support JavaScript (Selenium, Puppeteer) ou un navigateur sans tête est nécessaire. Cela augmente la charge sur les proxies, donc prévoyez une consommation de trafic plus élevée — jusqu'à 15-20 Go pour 10 000 fiches.
AliExpress : scraping massif avec des limitations régionales
AliExpress affiche des prix et des conditions de livraison différents selon le pays de l'utilisateur. Pour les vendeurs russes, il est crucial d'utiliser des proxies avec des IP russes — sinon, vous obtiendrez des données pour une autre région, ce qui faussera l'analyse des tendances.
La protection d'AliExpress est relativement tolérante au scraping — la plateforme est intéressée par le trafic. Vous pouvez utiliser des proxies de centre de données avec une rotation modérée (toutes les 100-200 requêtes). L'essentiel est de ne pas dépasser une vitesse de 5 à 10 requêtes par seconde depuis une seule IP.
Outils pour automatiser la collecte de données sur les tendances
Il existe deux approches pour le scraping des marketplaces : les services prêts à l'emploi et la configuration autonome des parseurs. Les solutions prêtes à l'emploi sont plus coûteuses, mais elles font gagner du temps. Un parseur personnel nécessite des connaissances techniques, mais offre un contrôle total sur le processus.
Services prêts à l'emploi pour le scraping des marketplaces
Pour ceux qui ne veulent pas se plonger dans les détails techniques, il existe des plateformes prêtes à l'emploi. Elles sont déjà configurées pour des marketplaces spécifiques, disposent d'un système de proxies intégré et d'une rotation automatique des IP.
- Mpstats — spécialisé dans Wildberries et Ozon, collecte des données sur les ventes, les stocks, les positions dans les résultats. Coût à partir de 3000 roubles par mois.
- SellerFox — analytics pour Wildberries avec suivi des tendances et des niches. Convient pour la recherche de produits à forte demande.
- Moneyplace — surveillance des concurrents sur Ozon et Wildberries, suivi des changements de prix et de classements.
- ParseHub — parseur universel pour tous les sites, y compris les marketplaces. Nécessite une configuration, mais fonctionne avec toutes les plateformes.
Le principal inconvénient des services prêts à l'emploi est que vous payez non seulement pour les données, mais aussi pour leur infrastructure proxy. Pour de grands volumes de scraping, cela peut coûter des dizaines de milliers de roubles par mois.
Configuration autonome du parseur : outils et bibliothèques
Si vous avez des compétences techniques de base (ou si vous avez un développeur dans votre équipe), vous pouvez configurer votre propre système de scraping. C'est moins cher à l'échelle et offre un contrôle total sur le processus.
Outils populaires pour le scraping :
- Selenium (Python) — automatisation du navigateur, support JavaScript, intégration facile des proxies. Convient pour Wildberries et Ozon.
- Puppeteer (Node.js) — navigateur sans tête basé sur Chrome, plus rapide que Selenium, consommation de mémoire réduite.
- Scrapy (Python) — framework pour le scraping, adapté aux sites simples sans JavaScript. Rapide, mais ne fonctionne pas avec le contenu dynamique.
- Playwright (Python/Node.js) — alternative moderne à Selenium, support de tous les navigateurs, travail intégré avec les proxies.
Pour le scraping des marketplaces, nous recommandons Selenium ou Playwright — ils traitent correctement le JavaScript et permettent d'imiter les actions d'un utilisateur réel (défilement, clics, délais).
Configuration étape par étape des proxies pour le parseur de produits
Une configuration correcte des proxies est un facteur clé de succès. Même les meilleurs proxies résidentiels ne vous protégeront pas d'un blocage si la rotation est mal configurée ou si vous dépassez les limites de requêtes. Nous allons examiner le processus de configuration à l'aide d'outils populaires.
Étape 1 : Obtention des données proxy et vérification de leur fonctionnalité
Après l'achat de proxies, vous recevez une liste au format : IP:PORT:LOGIN:PASSWORD. Avant de configurer le parseur, vérifiez impérativement le bon fonctionnement de chaque proxy.
La méthode la plus simple pour vérifier est d'ouvrir un navigateur, de configurer le proxy dans les paramètres réseau et d'accéder à un site de vérification IP (par exemple, 2ip.ru ou whoer.net). Assurez-vous que l'IP du proxy s'affiche, et non votre adresse réelle. Vérifiez également la vitesse de chargement — si les pages mettent plus de 5 secondes à s'ouvrir, le proxy est de mauvaise qualité.
Étape 2 : Configuration des proxies dans le parseur (exemple avec Selenium)
Si vous utilisez Selenium pour le scraping, la configuration des proxies se présente comme suit. Vous créez une liste de proxies dans un fichier séparé, puis le parseur choisit aléatoirement un proxy de la liste pour chaque session.
La logique de base est la suivante : le parseur lance le navigateur avec le proxy configuré, exécute 50 à 100 requêtes (consultation des fiches produits), puis ferme la session et en lance une nouvelle avec un autre proxy. Cela imite le comportement de différents utilisateurs et réduit le risque de blocage.
Étape 3 : Configuration de la rotation des adresses IP
La rotation des proxies consiste en un changement automatique de l'adresse IP à intervalles réguliers. Il existe deux approches : rotation par temps (toutes les 5 à 10 minutes) et rotation par nombre de requêtes (toutes les 50 à 100 requêtes).
Pour le scraping des marketplaces, nous recommandons la rotation par requêtes — elle est plus prévisible. Si vous scrapez Wildberries, changez d'IP toutes les 50 requêtes. Pour des plateformes moins protégées (AliExpress), vous pouvez augmenter jusqu'à 200-300 requêtes par IP.
Important : Certains fournisseurs de proxies proposent une rotation automatique de leur côté — vous obtenez un seul endpoint (adresse:port), et l'IP change automatiquement à chaque requête ou selon un minuteur. Cela simplifie la configuration, mais offre moins de contrôle sur le processus.
Étape 4 : Configuration des délais entre les requêtes
Même avec la rotation des proxies, il n'est pas possible d'envoyer des requêtes en continu. Un utilisateur réel prend du temps pour consulter une fiche produit, lire des avis, comparer des prix. Votre parseur doit imiter ce comportement.
Délais optimaux pour différentes marketplaces :
- Wildberries : 2-5 secondes entre les requêtes, variation aléatoire ±1 seconde
- Ozon : 3-7 secondes (en raison des CAPTCHA lors de requêtes rapides)
- AliExpress : 1-3 secondes (protection plus tolérante)
Utilisez des délais aléatoires, et non fixes. Si chaque requête est effectuée exactement toutes les 3 secondes — c'est aussi un signe de bot. Ajoutez de l'aléatoire : de 2 à 5 secondes avec une distribution uniforme.
Rotation des IP et limites de requêtes : comment éviter le ban
Même avec une configuration correcte des proxies, il est possible de recevoir un blocage si l'on ne prend pas en compte les particularités des systèmes anti-scraping. Les marketplaces analysent non seulement la fréquence des requêtes, mais aussi les modèles de comportement.
Limites de requêtes pour différents types de proxies
Chaque type de proxy a ses limites d'utilisation sécurisées. Dépasser ces limites augmente considérablement le risque de blocage.
| Type de proxy | Requêtes par IP par heure | Requêtes par IP par jour | Rotation recommandée |
|---|---|---|---|
| Centres de données | 50-100 | 300-500 | Toutes les 10-20 requêtes |
| Résidentiels | 100-200 | 1000-2000 | Toutes les 50-100 requêtes |
| Mobiles | 200-300 | 2000-3000 | Toutes les 100-200 requêtes |
Ces chiffres sont indicatifs. Les limites réelles dépendent de la marketplace spécifique et de l'heure de la journée. Pendant les heures de pointe (soir, week-ends), vous pouvez augmenter l'activité, car il y a plus d'utilisateurs réels sur la plateforme.
Stratégies de rotation pour différents volumes de scraping
La stratégie de rotation dépend de la quantité de données que vous devez collecter. Pour surveiller les 100 meilleurs produits d'une catégorie, un schéma simple suffit. Pour le scraping de l'ensemble du catalogue (dizaines de milliers de positions), un système plus complexe est nécessaire.
Petit volume (jusqu'à 1000 produits par jour) : Utilisez 5 à 10 proxies résidentiels avec une rotation toutes les 100 requêtes. Cela suffit pour surveiller les tendances dans 2 à 3 catégories.
Volume moyen (1000-10000 produits par jour) : Un pool de 20 à 50 proxies résidentiels, rotation toutes les 50 requêtes. Ajoutez des pauses aléatoires de 1 à 2 heures entre les sessions de scraping.
Grand volume (plus de 10000 produits par jour) : Une combinaison de proxies résidentiels (pour les requêtes critiques) et de proxies de centre de données (pour la collecte massive). Utilisez plus de 100 proxies avec une rotation agressive et une répartition de la charge dans le temps.
Quelles données collecter pour analyser les tendances
Le scraping pour le scraping n'a pas de sens. Il est important de collecter les bonnes métriques qui aideront à identifier les produits tendance avant que la niche ne soit saturée par les concurrents.
Métriques clés pour déterminer les tendances
Pour chaque fiche produit, collectez les données suivantes :
- Nom et article du produit — pour l'identification et le suivi de la dynamique
- Prix (actuel et avec réduction) — les tendances commencent souvent par une forte baisse des prix
- Nombre d'avis — une augmentation des avis sur une semaine indique une hausse des ventes
- Note moyenne — les produits avec une note de 4.5+ deviennent tendance plus rapidement
- Nombre de commandes (si disponible) — indicateur direct de la demande
- Stocks disponibles — une forte diminution des stocks = augmentation de la demande
- Position dans les résultats pour les requêtes clés — les produits dans le top 10 reçoivent 80% des clics
- Date d'apparition du produit — les nouveaux produits avec une forte croissance des ventes = tendance potentielle
Collectez ces données quotidiennement et enregistrez-les dans une base de données (PostgreSQL, MySQL) ou Google Sheets pour des projets simples. L'analyse de la dynamique sur 7 à 14 jours montrera les produits avec une demande croissante.
Comment identifier une tendance à un stade précoce
Les vendeurs à succès gagnent sur les tendances précisément parce qu'ils entrent dans la niche avant leurs concurrents. Lorsque la tendance est déjà discutée dans les canaux Telegram, il est trop tard pour en tirer profit — la marge diminue en raison de la concurrence.
Signes d'une tendance émergente :
- Augmentation du nombre d'avis de 50 à 100 % en une semaine avec une base faible (10-50 avis)
- Apparition de 5 à 10 nouveaux vendeurs dans la niche au cours des deux dernières semaines
- Diminution brutale des stocks chez les leaders de la catégorie (de 1000+ à 100-200 unités)
- Augmentation des positions dans les résultats : le produit est passé de la 50ème à la 10ème position en une semaine
- Mentions du produit sur les réseaux sociaux (TikTok, Instagram) — signe indirect
Configurez des notifications automatiques (bot Telegram, email) lors de la détection de tels signaux. Cela vous donnera une avance de 1 à 2 semaines sur la majorité des concurrents.
Erreurs typiques lors du scraping et comment les éviter
La plupart des blocages lors du scraping se produisent en raison des mêmes erreurs. Examinons les problèmes les plus fréquents et leurs solutions.
Erreur 1 : Utilisation d'une seule IP pour toutes les requêtes
Les débutants achètent souvent 1 à 2 proxies et essaient de scraper tout le catalogue avec eux. Le résultat est prévisible — blocage en une heure. Les marketplaces identifient facilement les bots par une activité anormale depuis une seule IP.
Solution : Utilisez au moins 10 à 20 proxies même pour de petits projets. Répartissez la charge uniformément — pas plus de 100 à 200 requêtes par IP par heure.
Erreur 2 : Scraping pendant la nuit
Beaucoup lancent des parseurs la nuit pour obtenir des données fraîches au matin. Le problème est qu'à cette heure-là (de 2 à 6 heures du matin, heure de Moscou), le trafic sur les marketplaces est minimal. Votre activité devient plus visible dans le contexte d'une faible charge générale.
Solution : Lancez le scraping pendant les heures de pointe — de 18h00 à 23h00, lorsque la plateforme compte le maximum d'utilisateurs réels. Vos requêtes se fondront dans le flux général de trafic.
Erreur 3 : Ignorer le User-Agent et d'autres en-têtes
Les parseurs envoient par défaut des requêtes avec un User-Agent tel que "Python-requests/2.28" ou "Selenium WebDriver". C'est une indication directe d'un bot. Les marketplaces bloquent automatiquement de telles requêtes.
Solution : Utilisez des User-Agent réalistes des navigateurs modernes. Changez le User-Agent à chaque rotation de proxy. Ajoutez également des en-têtes Accept-Language, Referer et d'autres, caractéristiques des navigateurs réels.
Erreur 4 : Scraping uniquement de la première page des résultats
Beaucoup se limitent à collecter des données sur les 50 meilleurs produits d'une catégorie. C'est une erreur — les tendances émergent souvent à partir de la 3ème à la 5ème page des résultats, où la concurrence est plus faible et les produits commencent à gagner en popularité.
Solution : Scrapez au moins les 5 à 10 premières pages des résultats (200-500 produits par catégorie). Suivez les produits qui montent rapidement de la 5ème page à la 1ère ou 2ème — ce sont les tendances émergentes.
Erreur 5 : Absence de gestion des CAPTCHA et des blocages
Même avec une configuration correcte des proxies, un CAPTCHA ou un blocage temporaire peut parfois apparaître. Si le parseur ne sait pas gérer de telles situations, il échouera simplement avec une erreur, et vous perdrez des données.
Solution : Ajoutez une gestion des erreurs dans le parseur. En cas de CAPTCHA — passez à un autre proxy et répétez la requête après 5 à 10 minutes. Conservez les résultats intermédiaires pour ne pas perdre de données en cas de panne.
Conclusion
La collecte de données sur les produits tendance via des proxies n'est pas seulement un processus technique, mais un avantage concurrentiel pour les vendeurs sur les marketplaces. Pendant que certains surveillent manuellement leurs concurrents, vous obtenez des données structurées sur des dizaines de milliers de produits chaque jour et identifiez les tendances à un stade précoce.
Points clés à retenir : choisissez le type de proxy en fonction de la protection de la marketplace (résidentiels pour Wildberries et Ozon, proxies de centre de données pour des plateformes moins protégées), configurez une rotation IP correcte en tenant compte des limites de requêtes, ajoutez des délais aléatoires entre les requêtes et imitez le comportement d'un utilisateur réel, collectez des données pendant les heures de pointe, lorsque votre activité est moins visible dans le trafic général.
Commencez petit — configurez le scraping de 1 à 2 catégories de produits en utilisant 10 à 20 proxies. Affinez le processus, assurez-vous qu'il n'y a pas de blocages, et augmentez progressivement le système. L'automatisation de la collecte de données s'amortit dès le premier mois grâce à une entrée plus rapide dans les niches tendance.
Si vous prévoyez de collecter régulièrement des données sur Wildberries, Ozon ou d'autres marketplaces protégées, nous vous recommandons d'utiliser des proxies résidentiels — ils offrent un niveau de confiance élevé de la part des plateformes et un risque minimal de blocages. Pour le scraping massif de sites moins protégés, des proxies de centre de données avec une configuration de rotation correcte conviendront.