Si vous analysez le marché immobilier — que ce soit une agence immobilière, un investisseur ou un analyste — vous avez probablement rencontré le même problème : CIAN, Domclick et Yandex Immobilier bloquent les requêtes massives après seulement quelques dizaines de pages. Sans proxies, il est pratiquement impossible de collecter une base d'annonces à jour. Dans cet article, nous examinerons quels proxies choisir, comment les configurer et comment établir un processus stable de collecte de données.
Pourquoi CIAN, Domclick et Yandex bloquent le parsing
Les trois plateformes sont des agrégateurs commerciaux avec un accès payant à des analyses avancées. CIAN vend des abonnements à des rapports analytiques, Yandex Immobilier monétise la publication d'annonces, et Domclick (Sberbank) utilise les données pour des produits hypothécaires. Le parsing massif impacte directement leur modèle économique — c'est pourquoi ces trois services se protègent activement contre les requêtes automatiques.
Voici ce qui se passe lorsque vous essayez de collecter des données sans proxies :
- Blocage IP — après 50 à 200 requêtes depuis une seule adresse, le site cesse de répondre ou renvoie une erreur 403/429.
- CAPTCHA — CIAN applique cela de manière particulièrement agressive : Yandex SmartCaptcha apparaît déjà après quelques pages de listing.
- Ralentissement des réponses — le serveur ralentit intentionnellement les réponses pour réduire la vitesse de collecte des données.
- Substitution de données — dans de rares cas, les plateformes renvoient des données « poubelles » aux bots pour altérer la base de données.
- Blocage de User-Agent — les en-têtes standards des parseurs sont facilement détectés et bloqués.
La situation est aggravée par le fait que CIAN a considérablement renforcé sa protection ces dernières années : ils analysent désormais non seulement les IP, mais aussi les modèles de comportement — vitesse de défilement, temps entre les requêtes, ordre de consultation des pages. Cela signifie que changer simplement d'IP n'est plus suffisant — une configuration complète est nécessaire.
Il est important de comprendre :
Les blocages sur ces plateformes fonctionnent selon un schéma cumulatif. Les 100 premières requêtes peuvent passer normalement, puis l'IP est mise sur liste noire pendant 24 à 72 heures. C'est pourquoi la rotation des proxies n'est pas une option, mais une condition obligatoire pour un fonctionnement stable.
Quelles données collectent les professionnels du marché immobilier
Avant de parler de l'aspect technique, examinons pourquoi il est nécessaire de parser ces plateformes et quels problèmes cela résout en pratique. Comprendre l'objectif influence directement le choix des outils et du type de proxies.
Agences immobilières et promoteurs
Ils collectent des bases d'annonces de concurrents : prix au mètre carré par quartier, dynamique des prix, temps moyen d'exposition des biens. Cela permet de positionner correctement leurs propres biens et de former une politique tarifaire. Les grandes agences surveillent des milliers d'annonces chaque jour — manuellement, c'est impossible.
Investisseurs immobiliers
Ils analysent le rapport entre le prix de vente et le loyer (rendement), recherchent des biens sous-évalués, suivent l'apparition de nouvelles annonces avec des remises. Pour un investisseur, la vitesse est importante — une annonce avec un prix inférieur au marché disparaît en quelques heures, donc un suivi en temps réel est nécessaire.
Analystes et marketeurs
Ils établissent des rapports sur l'état du marché, préparent des présentations pour les clients, étudient la demande par segments (studios, deux pièces, immobilier de campagne). Ils ont besoin de données historiques — dynamique des prix sur 3, 6 ou 12 mois par quartiers et types de biens.
Champs typiques pour la collecte de données
| Champ | Source | Application |
|---|---|---|
| Prix de l'annonce | CIAN, Domclick, Yandex | Analyse des fourchettes de prix |
| Superficie, étage, type de bâtiment | CIAN, Domclick | Segmentation et filtrage |
| Quartier, métro, adresse | Les trois plateformes | Géo-analyse |
| Date de publication et de mise à jour | CIAN, Yandex | Temps d'exposition |
| Photos du bien | Les trois plateformes | Analyse qualitative |
| Contacts du vendeur | CIAN (partiellement) | Formation d'une base de clients |
Quels proxies conviennent pour le parsing immobilier
Le choix du type de proxy est une décision clé qui déterminera si vous allez constamment lutter contre les blocages ou collecter tranquillement la base nécessaire. Examinons trois options principales en fonction des tâches de parsing pour CIAN, Domclick et Yandex Immobilier.
Proxies résidentiels — le choix optimal pour CIAN
Les proxies résidentiels utilisent des adresses IP de véritables utilisateurs domestiques — ces adresses sont perçues par les plateformes comme un trafic normal. Du point de vue de CIAN ou Yandex, la requête ressemble à celle d'une personne ordinaire qui est chez elle et consulte des annonces. Cela rend les proxies résidentiels pratiquement indétectables par les méthodes de protection standard.
Le principal avantage est un grand pool d'adresses IP, ce qui permet de faire une rotation après chaque requête ou chaque page. L'inconvénient est que la vitesse est légèrement inférieure à celle des proxies de centres de données et que le coût est plus élevé. Pour le parsing immobilier, où la stabilité est plus critique que la vitesse, c'est l'option optimale.
Proxies mobiles — pour des cas difficiles avec une protection stricte
Les proxies mobiles sont des adresses IP de fournisseurs de services mobiles (MTS, Beeline, MegaFon). Leur particularité est qu'une seule IP mobile peut être utilisée par des centaines de véritables utilisateurs simultanément via NAT. En raison de cela, les plateformes bloquent très rarement les adresses mobiles — le blocage d'une IP signifie le blocage de centaines de personnes réelles, ce qui est inacceptable du point de vue commercial.
Les proxies mobiles doivent être utilisés si CIAN a déjà « mémorisé » les modèles de votre travail et bloque même les adresses résidentielles. C'est l'option la plus résistante à la détection, mais aussi la plus coûteuse.
Proxies de centres de données — pour de grands volumes avec prudence
Les proxies de centres de données sont rapides et peu coûteux, mais facilement détectables. CIAN et Yandex ont depuis longtemps mis sur liste noire la plupart des sous-réseaux populaires des centres de données. Les utiliser pour le parsing de CIAN en 2024 signifie constamment faire face à des blocages et perdre du temps à changer de pools.
Les proxies de centres de données peuvent convenir pour Domclick, qui a une protection légèrement moins agressive, ou pour tester la structure des pages avant de configurer le parseur principal.
| Type de proxy | CIAN | Domclick | Yandex Immobilier | Coût |
|---|---|---|---|---|
| Résidentiels | ✅ Excellent | ✅ Excellent | ✅ Excellent | Moyenne |
| Mobiles | ✅ Excellent | ✅ Excellent | ✅ Excellent | Élevée |
| Centre de données | ❌ Blocages | ⚠️ Partiellement | ❌ Blocages | Faible |
Configuration des proxies pour CIAN : analyse étape par étape
CIAN est techniquement la plateforme la plus complexe des trois. Elle utilise une protection à plusieurs niveaux : limitation de taux par IP, analyse du comportement, Yandex SmartCaptcha et vérification des en-têtes de navigateur. Nous allons expliquer comment bien organiser le travail.
Étape 1. Obtenez des proxies avec des IP russes
CIAN est une plateforme russe, et les requêtes avec des IP étrangères suscitent immédiatement des soupçons. Assurez-vous que vos proxies résidentiels ont une géolocalisation russe — de préférence à Moscou ou à Saint-Pétersbourg, car la plupart des annonces y sont concentrées. Lors du choix d'un fournisseur, vérifiez la disponibilité d'IP résidentielles russes dans le pool.
Étape 2. Configurez la rotation des IP
Pour CIAN, il est recommandé de changer d'IP toutes les 5 à 10 requêtes, sans attendre le blocage. La plupart des fournisseurs de proxies résidentiels proposent un point de terminaison rotatif — une seule adresse et un port qui attribuent automatiquement une nouvelle IP à chaque connexion. Cela simplifie considérablement la configuration : il n'est pas nécessaire de basculer manuellement entre les adresses.
Étape 3. Configurez des délais entre les requêtes
Même avec des proxies, il ne faut pas envoyer des requêtes à la vitesse maximale. Une personne réelle passe 5 à 30 secondes à consulter une page. Imitez ce comportement : un délai de 3 à 8 secondes entre les requêtes réduit considérablement le risque de blocage. Si vous utilisez un parseur prêt à l'emploi ou un outil sans code, cherchez les paramètres « délai » ou « delay ».
Étape 4. Configurez correctement les en-têtes des requêtes
CIAN analyse les en-têtes HTTP. Une requête sans User-Agent ou avec l'en-tête « python-requests/2.28 » est immédiatement identifiée comme un bot. Utilisez de vraies chaînes User-Agent des navigateurs actuels (Chrome, Firefox). Il est également important de transmettre les en-têtes Accept-Language (ru-RU), Referer et Accept-Encoding — ils rendent la requête similaire à celle d'un navigateur.
Étape 5. Travaillez avec la pagination de manière séquentielle
Ne sautez pas directement à la page 50 ou 100 — c'est un comportement atypique. Commencez par la première page et passez aux suivantes de manière séquentielle. Si vous devez collecter des données sur plusieurs villes, il est préférable de lancer plusieurs sessions parallèles avec différentes IP, chacune fonctionnant dans sa propre région.
Particularités du parsing de Domclick et Yandex Immobilier
Domclick (Sberbank)
Domclick a une protection plus clémente par rapport à CIAN, mais cela ne signifie pas que le parsing y est simple. La plateforme utilise un chargement dynamique des données via API — cela signifie que simplement télécharger le HTML de la page n'est pas suffisant : les données sur les annonces sont chargées via des requêtes JavaScript vers une API interne.
Bonne nouvelle : l'API de Domclick renvoie des données au format JSON, ce qui est beaucoup plus pratique pour le parsing que l'analyse HTML. Mauvaise nouvelle : les requêtes à l'API sont également suivies par IP, et avec un grand nombre de requêtes depuis une seule adresse, vous obtiendrez un blocage temporaire.
Approche recommandée pour Domclick : utilisez des proxies résidentiels avec une rotation toutes les 15 à 20 requêtes. Cela permet de collecter des données de manière stable sans blocages constants.
Yandex Immobilier
Yandex Immobilier est sans doute la plateforme la plus complexe en termes de contournement de la protection. La raison est simple : Yandex utilise sa propre infrastructure de protection contre les bots, intégrée à l'ensemble de l'écosystème. SmartCaptcha de Yandex est l'un des systèmes les plus avancés sur le marché russe.
Yandex analyse non seulement les IP, mais aussi les cookies, l'empreinte du navigateur, l'historique de session. Cela signifie que pour un parsing stable de Yandex Immobilier, il faut soit utiliser un navigateur headless complet (Playwright, Puppeteer), soit travailler via des services de parsing spécialisés avec un contournement intégré de la protection Yandex.
Conseil pratique :
Si vous avez besoin de données de toutes les trois plateformes, commencez par Domclick — c'est là que la configuration d'une collecte stable est la plus simple. Les données de CIAN et Yandex Immobilier se chevauchent souvent, donc Domclick peut couvrir une part significative du marché sans complications supplémentaires.
Outils prêts à l'emploi pour le parsing sans code
Si vous n'êtes pas programmeur mais souhaitez collecter des données sur l'immobilier, il existe plusieurs solutions prêtes à l'emploi qui prennent en charge la connexion de proxies et ne nécessitent pas d'écriture de code.
Octoparse
Un constructeur visuel de parseurs avec support de proxies. Vous cliquez simplement sur les éléments souhaités de la page, indiquez ce que vous voulez collecter, et le programme construit lui-même la logique de parsing. Il prend en charge la connexion de proxies externes — il suffit d'insérer l'adresse, le port, le nom d'utilisateur et le mot de passe dans les paramètres. Il fonctionne bien avec Domclick.
ParseHub
Un outil similaire avec une interface plus simple. Il prend en charge les pages dynamiques avec JavaScript — ce qui est important pour Domclick et Yandex Immobilier. Les proxies se connectent dans les paramètres du projet. Le plan gratuit est limité en nombre de pages, pour un suivi sérieux, une version payante est nécessaire.
Apify
Une plateforme cloud pour le parsing avec des « acteurs » prêts à l'emploi (modèles de parseurs). Il existe des solutions prêtes pour les agrégateurs immobiliers. Elle prend en charge la connexion de proxies propres via les paramètres. Pratique car elle fonctionne dans le cloud — il n'est pas nécessaire de garder l'ordinateur allumé pour un suivi prolongé.
n8n + Requêtes HTTP
Pour ceux qui souhaitent automatiser le processus sans programmation approfondie : n8n est un constructeur visuel d'automatisations qui peut envoyer des requêtes HTTP avec des proxies. Il convient pour travailler avec l'API de Domclick — vous pouvez configurer la collecte automatique de données selon un calendrier et les exporter vers Google Sheets ou une base de données.
| Outil | Sans code | Support de proxies | Pages JS | Difficulté |
|---|---|---|---|---|
| Octoparse | ✅ Oui | ✅ Oui | ✅ Oui | Faible |
| ParseHub | ✅ Oui | ✅ Oui | ✅ Oui | Faible |
| Apify | ⚠️ Partiellement | ✅ Oui | ✅ Oui | Moyenne |
| n8n | ⚠️ Partiellement | ✅ Oui | ⚠️ Partiellement | Moyenne |
Rotation des proxies et anti-ban : règles de travail en toute sécurité
Même les meilleurs proxies ne vous sauveront pas si vous les utilisez mal. La rotation n'est pas simplement un changement d'IP, c'est toute une stratégie de comportement qui rend votre parseur similaire à de vrais utilisateurs.
Comment bien configurer la rotation
Fréquence de changement d'IP : pour CIAN — toutes les 5 à 10 requêtes, pour Domclick — toutes les 15 à 20 requêtes, pour Yandex Immobilier — toutes les 3 à 5 requêtes (protection la plus agressive). Si vous utilisez un point de terminaison rotatif du fournisseur, cela se fait automatiquement.
Sesssions collantes vs. rotation : certaines tâches nécessitent de travailler avec une seule IP pendant toute la session — par exemple, si vous devez vous connecter à un compte. Dans ce cas, utilisez des sessions collantes (IP fixe pendant 5 à 30 minutes). Pour une simple collecte d'annonces sans autorisation — rotation après chaque requête.
Répartition géographique : si vous collectez des données sur plusieurs villes, utilisez des proxies des régions correspondantes. Une requête pour des annonces moscovites avec une IP moscovite semble plus organique que celle avec une IP de Novossibirsk.
Ce qui influence également la probabilité de blocage
- Vitesse des requêtes — plus d'une requête toutes les 2 secondes depuis une seule IP augmente considérablement le risque de blocage.
- Heure de la journée — le parsing la nuit entre 2h00 et 6h00 est moins visible, car le trafic est plus faible.
- Parallélisme — mieux vaut 10 flux avec différentes IP que 1 flux à haute vitesse.
- Cookies et sessions — réinitialisez les cookies avec le changement d'IP, sinon la session est liée à l'ancienne adresse.
- Referer — imitez la transition depuis un moteur de recherche ou depuis la page d'accueil du site.
- User-Agent correct — utilisez des versions récentes de Chrome ou Firefox, pas obsolètes.
Comment réagir à un blocage
Si le parseur commence à recevoir des réponses 403 ou 429 — ne tentez pas de continuer avec la même IP. Changez immédiatement d'adresse et faites une pause de 30 à 60 secondes avant la prochaine requête. Si les blocages se multiplient — augmentez le délai entre les requêtes et réduisez la fréquence de changement d'IP (paradoxalement, un changement trop fréquent peut également être un signal pour les systèmes de protection).
Checklist : comment ne pas se faire bannir lors de la collecte de données sur l'immobilier
Utilisez cette checklist avant de lancer le parseur — elle vous aidera à éviter la plupart des erreurs typiques.
✅ Checklist avant le lancement du parseur
- Les proxies ont une géolocalisation russe (Moscou / SPb)
- Utilisation de proxies résidentiels ou mobiles (pas de centre de données pour CIAN)
- Rotation des IP configurée (toutes les 5 à 15 requêtes)
- Délai entre les requêtes d'au moins 3 secondes
- User-Agent défini comme un navigateur actuel
- En-têtes Accept-Language : ru-RU transmis
- Cookies réinitialisés avec le changement d'IP
- Le parsing se fait de manière séquentielle (page 1 → 2 → 3, pas de manière chaotique)
- Gestion des erreurs 403/429 configurée avec pause automatique
- Les flux parallèles utilisent différentes IP
- Le parseur testé sur 10 à 20 pages avant le lancement complet
- Données sauvegardées de manière incrémentielle (pas seulement à la fin)
Erreurs typiques des débutants
Erreur 1 : Lancement sans test. Beaucoup lancent immédiatement le parseur sur 10 000 pages — et se font bannir après 15 minutes. Commencez toujours par peu : 20 à 30 pages, vérifiez que les données sont collectées correctement, assurez-vous qu'il n'y a pas de blocages, et ensuite seulement, augmentez l'échelle.
Erreur 2 : Une seule et même IP pour toutes les tâches. Si vous utilisez un seul proxy à la fois pour les tests et pour le parsing en production — l'IP est rapidement exposée. Gardez des pools séparés pour différentes tâches.
Erreur 3 : Ignorer les erreurs. Le parseur doit gérer correctement les réponses 403, 429, 503 — faire une pause, changer d'IP et répéter la requête. Sans cette logique, vous perdrez des données et exposerez l'IP.
Erreur 4 : Parsing 24/7 avec un seul pool. Même les bons proxies « se fatiguent » sous une charge constante. Planifiez des pauses — par exemple, 2 heures de travail, 30 minutes de repos. Cela réduit la charge sur le pool d'IP et rend le modèle moins visible pour les systèmes de protection.
Conclusion
Le parsing de CIAN, Domclick et Yandex Immobilier est un outil réellement efficace pour l'analyse du marché, à condition d'aborder cela avec une base technique appropriée. La principale chose à retenir : la qualité des proxies et une rotation correcte sont les fondements d'un fonctionnement stable. Sans cela, vous passerez votre temps à lutter contre les blocages au lieu d'analyser les données.
En résumé : pour CIAN, utilisez des proxies résidentiels avec une rotation toutes les 5 à 10 requêtes et un délai d'au moins 3 secondes. Domclick est plus clément, mais nécessite également des proxies. Yandex Immobilier est la plateforme la plus complexe, nécessitant un navigateur headless complet plus des proxies de qualité. Pour un travail sans code, Octoparse ou ParseHub avec connexion de proxies externes conviendront.
Si vous prévoyez un suivi régulier des prix de l'immobilier ou la collecte d'une base d'annonces pour analyse, nous vous recommandons de commencer avec des proxies résidentiels avec géolocalisation russe — ils offrent un équilibre optimal entre stabilité de fonctionnement et coût, et conviennent parfaitement aux trois plateformes.