Ozon est l'un des marketplaces les plus sécurisés du Runet : les systèmes anti-bot, les captchas, les limites de requêtes et les blocages par IP rendent la collecte automatique de données un véritable défi. Si vous surveillez les prix des concurrents, analysez l'assortiment ou collectez des avis pour l'analyse - sans des proxies correctement configurés, votre parseur sera bloqué en quelques minutes. Dans ce guide, nous examinerons quels proxies conviennent à Ozon, comment les configurer correctement et quelles erreurs ruinent les projets de collecte de données.
Pourquoi Ozon bloque le parsing : comment fonctionne la protection
Avant de configurer des proxies, il est important de comprendre à quoi vous allez faire face. Ozon utilise un système de protection multi-niveaux contre les requêtes automatiques, et chaque élément doit être pris en compte lors de la construction du parseur.
Limitation de taux — restriction de la fréquence des requêtes
Si plus de 30 à 50 requêtes par minute proviennent d'une seule adresse IP, Ozon commence à renvoyer l'erreur 429 (Trop de requêtes) ou bloque complètement l'IP. Pour un utilisateur normal, une telle fréquence de requêtes n'existe pas - donc, c'est un bot. C'est pourquoi un seul serveur proxy n'est pas suffisant : un pool de dizaines ou de centaines d'adresses IP avec rotation est nécessaire.
Analyse de l'User-Agent et des en-têtes HTTP
Le système Ozon vérifie les en-têtes de chaque requête. Si l'User-Agent ressemble à un script (par exemple, python-requests/2.28), la requête sera bloquée instantanément. Il est nécessaire d'imiter les en-têtes d'un vrai navigateur : User-Agent correct, Accept-Language, Accept-Encoding, Referer.
Fingerprinting du navigateur
Sur les pages Ozon, JavaScript fonctionne et collecte l'empreinte du navigateur : résolution d'écran, polices installées, WebGL, Canvas. Si vous parsez via un navigateur sans tête (Puppeteer, Playwright) sans déguisement - le système le détectera. Il est donc important d'utiliser des outils en mode furtif ou de parser via l'API sans rendu JS.
Géoblocage et vérification de la réputation de l'IP
Ozon est un marketplace russe, et il attend des requêtes provenant d'IP russes. Si vous vous connectez via un proxy de centre de données en Allemagne ou aux États-Unis, cela suscite immédiatement des soupçons. De plus, les adresses IP des centres de données sont souvent répertoriées dans les bases de données des systèmes anti-bot (Cloudflare, DataDome) - c'est pourquoi Ozon nécessite des IP résidentielles ou mobiles russes.
Conclusion : ce qui bloque Ozon
- IP des centres de données et des serveurs VPN (répertoriés sur des listes noires)
- Fréquence de requêtes trop élevée depuis une seule IP
- En-têtes HTTP irréalistes (User-Agent de script)
- Adresses IP étrangères pour un marketplace russe
- Absence de cookies et de données de session
Quels proxies conviennent à Ozon : comparaison des types
Tous les proxies ne gèrent pas de manière égale la protection d'Ozon. Examinons trois types principaux et leur applicabilité pour les tâches sur ce marketplace.
| Type de proxy | Comment cela apparaît pour Ozon | Vitesse | Risque de blocage | Convient à Ozon ? |
|---|---|---|---|---|
| Centre de données | IP d'hébergement/cloud | Très élevée | Élevé | ⚠️ Seulement pour des tâches légères |
| Résidentiels | IP d'utilisateur domestique | Moyenne | Faible | ✅ Excellent |
| Mobiles | IP d'opérateur mobile | Moyenne | Minimale | ✅ Idéal |
Proxies résidentiels — le cheval de bataille pour Ozon
Les proxies résidentiels utilisent des adresses IP de véritables utilisateurs domestiques. Pour Ozon, une telle requête ressemble à une personne ordinaire qui se connecte au site via Internet domestique. Le système anti-bot ne voit aucun signe d'automatisation au niveau de l'IP. Cela fait des proxies résidentiels le choix principal pour le parsing à grande échelle : surveillance des prix sur des milliers de SKU, collecte de fiches produits, analyse de l'assortiment des concurrents.
L'avantage clé est un grand pool d'adresses IP avec la possibilité de sélectionner une géolocalisation russe. Ozon attend des requêtes provenant d'adresses russes, et les proxies résidentiels avec géotargeting sur la Russie offrent un niveau de suspicion minimal.
Proxies mobiles — fiabilité maximale
Les proxies mobiles fonctionnent via des IP d'opérateurs mobiles (MTS, Beeline, MegaFon, Tele2). C'est le type de trafic le plus "propre" du point de vue des systèmes anti-bot : les IP mobiles ne sont presque jamais répertoriées sur des listes noires, et une seule IP peut être utilisée par des milliers de vrais utilisateurs simultanément. Si une IP résidentielle est bloquée - c'est suspect. Si une IP mobile est bloquée - Ozon risque de couper des milliers de vrais acheteurs, ce qui n'est pas dans leur intérêt.
Les proxies mobiles sont particulièrement bons pour les tâches nécessitant une haute fiabilité : collecte d'avis, surveillance des promotions et des ventes en temps réel.
Proxies de centres de données — seulement pour des tâches simples
Les proxies de centres de données fonctionnent rapidement et coûtent moins cher, mais leur utilisation pour Ozon est limitée. La plupart de ces IP sont déjà répertoriées dans les bases de données des systèmes anti-bot. Ils peuvent convenir pour des tâches ponctuelles avec une faible fréquence de requêtes - par exemple, vérifier la disponibilité d'un produit spécifique une fois par heure. Pour une surveillance régulière à grande échelle, ils ne conviennent pas.
Scénarios d'utilisation : prix, produits, avis
Les tâches de collecte de données sur Ozon sont variées, et chacune nécessite sa propre stratégie. Examinons trois scénarios principaux.
📊 Surveillance des prix des concurrents
C'est le scénario le plus populaire parmi les vendeurs. Tâche : suivre les prix de centaines ou de milliers de produits concurrents pour ajuster rapidement sa propre tarification. Ozon change souvent les prix plusieurs fois par jour - surtout pendant les promotions.
Exigences pour les proxies : un pool de 50 à 200 IP résidentielles avec géolocalisation russe. Les requêtes doivent être envoyées avec un délai de 2 à 5 secondes entre chacune, et l'IP doit changer après chaque 5 à 10 requêtes. Dans ce mode, le parseur peut traiter 500 à 1000 fiches produits par heure sans blocages.
À collecter : prix actuel, prix avant réduction, disponibilité en stock, note du vendeur, nombre d'avis, statut de participation à la promotion Ozon.
🛍️ Collecte de données sur les produits et l'assortiment
Les analystes et les marketeurs collectent des données sur l'assortiment : quelles catégories croissent, quels produits apparaissent en tête des recherches, comment le nombre de vendeurs dans la niche évolue. Ce sont des tâches plus volumineuses - il faut parcourir des milliers de pages de catalogue.
Exigences pour les proxies : un pool d'au moins 200 IP avec rotation. Il est important d'utiliser des sessions sticky (lorsqu'une IP est "fixée" à une session pendant plusieurs minutes) pour contourner correctement la pagination - sinon, lors du changement d'IP sur la page suivante du catalogue, vous pourriez obtenir un autre résultat.
À collecter : nom du produit, référence (SKU), catégorie, marque, description, caractéristiques, photos, nombre de vendeurs, position dans la recherche.
⭐ Parsing des avis et des notes
Les avis sont une source précieuse de données pour analyser les préférences des consommateurs, identifier les points faibles des concurrents et améliorer ses propres produits. Les pages d'avis sur Ozon sont particulièrement bien protégées : pour les charger, JavaScript est nécessaire, et les données sont souvent chargées via des requêtes AJAX.
Exigences pour les proxies : pour le parsing des avis, les proxies mobiles avec IP russes sont les plus adaptés. Étant donné que chaque page d'avis nécessite plusieurs requêtes (page principale + AJAX pour charger le contenu), les IP mobiles assurent la stabilité de la session.
À collecter : texte de l'avis, note (1 à 5 étoiles), date de publication, utilité de l'avis (likes), réponse du vendeur, photos dans les avis, achat vérifié.
Rotation des IP et gestion des sessions : comment éviter le blocage
Même avec de bons proxies, vous pouvez être bloqué si vous ne gérez pas correctement les sessions et la rotation. C'est l'un des aspects techniques clés du parsing Ozon.
Deux modes de rotation : rotating vs sticky
Rotating (rotation aléatoire) - chaque requête provient d'une nouvelle IP. C'est bon pour des requêtes indépendantes : par exemple, lorsque vous vérifiez le prix d'un produit spécifique. Ozon ne voit pas de lien entre les requêtes.
Sticky sessions (sessions fixées) - une IP est utilisée pour plusieurs requêtes consécutives dans le cadre d'une "session" (généralement 1 à 30 minutes). Cela est nécessaire lorsque vous contournez la pagination du catalogue, collectez plusieurs pages d'avis d'un même produit ou travaillez avec le panier/l'authentification. Un changement brusque d'IP au milieu d'une session semble suspect.
Règles de délais entre les requêtes
| Type de tâche | Délai entre les requêtes | Changement d'IP |
|---|---|---|
| Surveillance des prix (1000+ SKU) | 2–4 secondes | Chaque 5–10 requêtes |
| Parcours du catalogue (pagination) | 3–6 secondes | Chaque 20–30 pages |
| Collecte d'avis | 4–8 secondes | Chaque produit — nouvelle IP |
| Vérification ponctuelle de disponibilité | 1–2 secondes | Chaque requête |
Gestion des cookies et des données de session
Ozon suit les cookies : si chaque requête arrive sans cookies ou avec de nouveaux cookies, c'est un signe de bot. Il est recommandé, lors de la première visite avec une nouvelle IP, de "réchauffer" la session - d'abord charger la page d'accueil, puis passer à la catégorie, et seulement après demander les données nécessaires. Cela imite le comportement d'un utilisateur réel et réduit le risque de blocage de 3 à 5 fois.
Configuration des proxies pour le parsing Ozon : guide étape par étape
Examinons la configuration pratique à l'aide d'outils populaires. Commençons par une configuration de base qui convient à la plupart des scénarios.
Étape 1. Obtenez les données du proxy
Après avoir connecté des proxies résidentiels ou mobiles, vous recevrez les données de connexion au format :
host: proxy.example.com port: 8080 username: your_username password: your_password protocol: HTTP / HTTPS / SOCKS5
Pour Ozon, il est recommandé d'utiliser le protocole HTTPS ou SOCKS5. SOCKS5 est préférable si votre outil le prend en charge - il transmet moins d'en-têtes identifiants.
Étape 2. Configurez le géotargeting sur la Russie
Dans les paramètres du service proxy, choisissez le pays : Russie (RU). Pour certaines tâches, une ville spécifique est importante - par exemple, si vous souhaitez voir les prix en tenant compte de la livraison à Moscou ou à Saint-Pétersbourg. Dans ce cas, choisissez le géotargeting au niveau de la ville.
Si le service fournit un endpoint avec un paramètre de géolocalisation dans l'URL, cela ressemble à ceci :
proxy.example.com:8080?country=ru&city=moscow&session=random
Étape 3. Configurez les bons en-têtes HTTP
C'est une étape critique. La requête à Ozon doit ressembler à une requête d'un vrai navigateur Chrome sur Windows. L'ensemble minimal des en-têtes :
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Étape 4. Configurez la rotation et les délais
La plupart des parseurs prêts à l'emploi et des outils sans code ont des paramètres de délai et de rotation. Réglez :
- Délai entre les requêtes : 3–5 secondes (vous pouvez ajouter de l'aléatoire : de 2 à 7 secondes)
- Rotation des IP : toutes les 5–10 requêtes pour la surveillance des prix, chaque requête pour des vérifications ponctuelles
- Délai d'attente de la requête : 15–30 secondes (Ozon répond parfois lentement)
- Réessayer en cas d'erreur : 3 tentatives avec une nouvelle IP en cas de 403/429/503
Étape 5. Vérifiez le fonctionnement avant le lancement
Avant de lancer le parsing complet, effectuez un test : faites 20 à 30 requêtes vers différentes pages Ozon avec un intervalle de 5 secondes. Si toutes les requêtes renvoient un statut 200 et un HTML correct - la configuration est correcte. Si vous voyez 403 ou une redirection vers un captcha - il faut ajuster les en-têtes ou changer le type de proxy.
Outils pour le parsing Ozon sans code
La plupart des vendeurs et des analystes ne codent pas des parseurs depuis zéro. Il existe des outils prêts à l'emploi qui prennent en charge la connexion de proxies et ne nécessitent pas de compétences en programmation.
Octoparse — parseur visuel avec support de proxy
Octoparse est l'un des outils sans code populaires pour le parsing. Vous indiquez visuellement les éléments sur la page à collecter, et l'outil génère automatiquement le parseur. Il prend en charge la connexion de proxies via les paramètres de tâche : indiquez l'adresse, le port, le login et le mot de passe - et l'outil fera automatiquement la rotation des IP.
Comment connecter un proxy dans Octoparse : ouvrez la tâche → Paramètres → Paramètres du proxy → Ajouter un proxy → entrez les données de connexion → choisissez le mode de rotation. Pour Ozon, le mode "Rotate IP for every N requests" avec une valeur de 5 à 10 est recommandé.
ParseHub — parseur cloud pour des sites complexes
ParseHub gère bien les pages où les données sont chargées via JavaScript (ce qui est pertinent pour Ozon). Il prend en charge le travail via des proxies dans les plans payants. L'outil dispose d'un navigateur intégré qui rend le JS - cela aide à collecter des données qui ne sont pas accessibles via une requête HTTP classique.
Services spécialisés de surveillance des prix
Pour la tâche de surveillance des prix sur Ozon, il existe des solutions SaaS spécialisées : Priceva, Metacommerce, Price2Spy. Elles contiennent déjà la logique intégrée pour contourner la protection d'Ozon et fonctionnent sur abonnement. Si votre tâche consiste uniquement à surveiller les prix sans données personnalisées, ces services peuvent être plus pratiques qu'une configuration autonome d'un parseur avec proxies.
n8n / Make (Integromat) — automatisation avec des requêtes HTTP
Pour des tâches simples - par exemple, vérifier le prix d'un produit spécifique une fois par heure - vous pouvez utiliser les plateformes d'automatisation n8n ou Make. Elles envoient des requêtes HTTP à Ozon et analysent la réponse selon un modèle donné. Le proxy se connecte dans les paramètres du nœud HTTP : indiquez l'adresse du proxy dans le champ Proxy URL. Ce n'est pas la méthode la plus puissante, mais c'est la plus simple pour automatiser sans code.
💡 Conseil : utilisez l'API Ozon là où c'est possible
Ozon fournit une API officielle pour les vendeurs. Si vous êtes un vendeur enregistré, certaines données (commandes, stocks, analyse des ventes) peuvent être obtenues via l'API sans proxy et sans risque de blocages. Le parsing via des proxies est nécessaire pour les données que l'API ne fournit pas : prix des concurrents, leurs avis, positions dans la recherche.
Top 7 des erreurs lors du parsing Ozon et comment les éviter
La plupart des problèmes de blocage proviennent des mêmes erreurs. Voici une liste de ce qu'il ne faut absolument pas faire - et comment y remédier.
❌ Erreur 1 : Utiliser une seule IP pour toutes les requêtes
Même la plus "propre" des IP sera bloquée si elle envoie 500 requêtes par heure. Solution : un pool d'au moins 50 IP avec rotation.
❌ Erreur 2 : Parser sans délais
Les requêtes sans délais sont le signe le plus évident d'un bot. Même 1 seconde entre les requêtes réduit considérablement le risque de blocage. Optimal : 3–5 secondes avec une variation aléatoire.
❌ Erreur 3 : Utiliser l'User-Agent par défaut de la bibliothèque
python-requests/2.28.0 - c'est un blocage instantané. Remplacez toujours l'User-Agent par un Chrome actuel.
❌ Erreur 4 : Utiliser des IP étrangères pour Ozon
Ozon est un service russe. Les requêtes provenant d'IP allemandes ou américaines suscitent des soupçons. Choisissez toujours le géotargeting sur la Russie.
❌ Erreur 5 : Ignorer les erreurs 429 et continuer à envoyer des requêtes
Si vous obtenez 429 - arrêtez immédiatement les requêtes depuis cette IP, attendez 5 à 10 minutes, changez d'IP. Continuer les requêtes lors d'un 429 accélère le blocage permanent de l'IP.
❌ Erreur 6 : Ne pas traiter les redirections vers un captcha
Ozon redirige parfois vers une page de captcha au lieu de bloquer. Le parseur doit vérifier que le HTML obtenu contient les données nécessaires, et non la page de captcha - et en cas de captcha, changer d'IP.
❌ Erreur 7 : Parser aux heures de pointe
Aux heures de pointe (soir, week-ends), Ozon filtre le trafic de manière plus agressive. Pour les tâches volumineuses, planifiez le parsing pendant la nuit ou tôt le matin - la charge sur les serveurs est plus faible, et les systèmes anti-bot sont moins stricts.
Conclusion : comment établir une collecte de données stable avec Ozon
Le parsing d'Ozon n'est pas une configuration ponctuelle, mais un travail constant avec l'infrastructure. Le marketplace met régulièrement à jour sa protection, change la structure des pages et renforce les filtres anti-bot. Une surveillance réussie repose sur trois piliers : le bon type de proxy, une rotation IP adéquate et une imitation correcte du comportement d'un utilisateur réel.
Pour résumer brièvement tout ce que nous avons examiné :
- Pour la surveillance des prix et de l'assortiment - utilisez des proxies résidentiels avec géolocalisation russe et un pool d'au moins 50 IP
- Pour la collecte d'avis et les tâches avec de fortes exigences de fiabilité - proxies mobiles des opérateurs russes
- Configurez toujours des délais, une rotation et des en-têtes HTTP corrects
- Utilisez des sessions sticky lors du contournement de la pagination
- Planifiez les tâches volumineuses pendant la nuit
Si vous commencez tout juste à construire un système de surveillance Ozon, nous vous recommandons de commencer par des proxies résidentiels avec des IP russes - ils offrent un équilibre entre coût, vitesse et fiabilité pour la plupart des tâches de collecte de données sur les marketplaces. Pour des tâches critiques, où chaque requête doit passer sans échec, envisagez des proxies mobiles - ils sont plus chers, mais pratiquement jamais bloqués même en cas d'utilisation intensive.