Retour au blog

Comment collecter des données immobilières sur Cian et Avito sans blocages : configuration des proxies

Guide complet sur l'utilisation des proxies pour le scraping de données immobilières : choix du type de proxy, configuration de la rotation des IP, contournement des protections de Cian et Avito, conseils pratiques pour une collecte d'informations stable.

📅8 mars 2026
```html

Le scraping des sites immobiliers est une tâche cruciale pour les agents immobiliers, les investisseurs et les analystes de marché. Cian, Avito, CIAN et d'autres plateformes bloquent activement la collecte automatique de données en utilisant des systèmes anti-bots avancés. Sans des proxies correctement configurés, votre IP sera bloquée après 50-100 requêtes, et vous perdrez l'accès à des informations précieuses sur les prix, les annonces et la dynamique du marché.

Dans ce guide, vous apprendrez comment choisir les proxies appropriés pour le scraping immobilier, configurer la rotation des adresses IP, contourner la protection des plus grandes plateformes et collecter des données de manière stable, sans blocages ni CAPTCHA.

Pourquoi les sites immobiliers bloquent le scraping

Les grandes plateformes immobilières — Cian, Avito, Yandex.Immobilier, CIAN — perdent des millions de roubles à cause du scraping de leurs données par des concurrents et des agrégateurs. C'est pourquoi elles ont mis en place une protection multi-niveaux contre la collecte automatique d'informations.

Méthodes principales de blocage des scrapers :

  • Limites par adresse IP : Cian bloque les IP après 80-120 requêtes par heure, Avito — après 50-70 requêtes. Cela rend impossible la collecte de grandes quantités de données à partir d'une seule IP.
  • Fingerprinting du navigateur : Les sites analysent les en-têtes HTTP, User-Agent, la résolution d'écran, les polices installées et d'autres paramètres. Si ceux-ci semblent suspects (par exemple, absence de cookies ou de JavaScript), la requête est bloquée.
  • Analyse comportementale : Les systèmes anti-bots suivent la vitesse des requêtes, les modèles de navigation, les mouvements de la souris. Des actions trop rapides ou uniformes suscitent des soupçons.
  • Cloudflare et Datadome : De nombreux sites utilisent des systèmes de protection avancés qui vérifient le TLS-fingerprint, WebGL, Canvas et d'autres paramètres techniques du navigateur.

Sans proxies, vous serez confronté à un blocage après quelques minutes de scraping actif. Votre IP sera mise sur liste noire pendant 24-48 heures, et vous ne pourrez même pas ouvrir le site dans un navigateur normal. Pour une collecte de données professionnelle, les proxies ne sont pas une option, mais une exigence obligatoire.

Exemple réel : Une agence immobilière à Moscou collectait des données sur les prix des appartements à partir de Cian pour l'analyse du marché. Sans proxies, leur IP était bloquée après la collecte de 200-300 annonces (environ 15 minutes de fonctionnement du scraper). Après l'implémentation de proxies résidentiels avec rotation toutes les 10 minutes, ils collectent plus de 50 000 annonces par jour sans aucune blocage.

Quels types de proxies conviennent pour la collecte de données immobilières

Pour le scraping immobilier, trois types principaux de proxies sont utilisés. Le choix dépend de l'échelle de la tâche, du budget et du niveau de protection du site cible.

Type de proxy Avantages Inconvénients Pour quelles tâches
Proxies résidentiels IP réelles d'utilisateurs domestiques, anonymat maximal, risque minimal de blocages, contournement de Cloudflare Prix élevé (à partir de 7-15 $ par Go), vitesse inférieure par rapport aux centres de données Scraping de Cian, Avito, CIAN avec un niveau de protection élevé, collecte de grandes quantités de données
Proxies de centres de données Haute vitesse (jusqu'à 1 Gbit/s), prix bas (1-3 $ par IP par mois), connexion stable Facilement identifiables par les systèmes anti-bots, risque élevé de blocages sur des sites protégés Scraping de petits sites sans protection, test du scraper, collecte de données via API
Proxies mobiles IP des opérateurs mobiles (MTS, Beeline, Megafon), difficile à bloquer, haute confiance des sites Prix le plus élevé (50-150 $ par mois par IP), IP dynamiques (changent toutes les 10-30 minutes) Contournement de la protection la plus stricte, scraping des versions mobiles des sites, tâches critiques

Recommandation pour la plupart des tâches : Pour le scraping de Cian, Avito et d'autres grandes plateformes immobilières, le choix optimal est les proxies résidentiels. Ils offrent un équilibre entre coût, vitesse et niveau d'anonymat. Les proxies de centres de données ne conviennent que pour de petits volumes ou des sites sans protection.

Résidentiels vs centres de données : que choisir pour le scraping

Analysons en détail quand utiliser chaque type de proxy pour le scraping immobilier, avec des exemples concrets.

Quand utiliser des proxies résidentiels

Les proxies résidentiels sont des adresses IP d'utilisateurs domestiques réels, fournies par des fournisseurs d'accès Internet (Rostelecom, MTS, Beeline). Pour les sites, elles apparaissent comme des visiteurs ordinaires, ce qui les rend pratiquement impossibles à bloquer.

Utilisez des proxies résidentiels pour :

  • Scraping de Cian : La protection la plus stricte parmi les sites immobiliers russes. Bloque les centres de données après 30-50 requêtes. Avec des proxies résidentiels, vous pouvez faire 500-1000 requêtes à partir d'une seule IP sans blocages.
  • Scraping d'Avito : Utilise Cloudflare et l'analyse comportementale. Les proxies résidentiels contournent les vérifications TLS-fingerprint et JavaScript-challenge.
  • Collecte de grandes quantités de données : Si vous devez scraper plus de 10 000 annonces par jour, les proxies résidentiels sont la seule option fiable.
  • Projets à long terme : Lorsque le scraping se fait sur plusieurs mois, la stabilité est importante. Les proxies résidentiels sont rarement mis sur liste noire.

Exemple de configuration pour Cian :

Utilisez un pool de 50-100 IP résidentiels avec rotation toutes les 5-10 minutes. Établissez un délai entre les requêtes de 2-5 secondes (valeur aléatoire). Émulez un utilisateur réel : chargez des images, exécutez JavaScript, envoyez des en-têtes User-Agent réalistes. Avec de telles configurations, vous pouvez collecter 20 000-30 000 annonces par jour sans aucun blocage.

Quand les proxies de centres de données conviennent

Les proxies de centres de données sont des adresses IP de serveurs dans des centres de données (Hetzner, OVH, DigitalOcean). Ils sont 5-10 fois moins chers que les résidentiels, mais facilement identifiables par les systèmes anti-bots grâce aux bases de données des plages d'IP.

Utilisez des centres de données pour :

  • Scraping de petits sites régionaux : Agences immobilières locales, tableaux d'annonces sans protection avancée.
  • Test du scraper : Débogage du code, vérification de la logique avant de lancer sur des proxies résidentiels.
  • Scraping d'API : Si le site fournit une API officielle pour les partenaires, les centres de données peuvent gérer la tâche.
  • Budget limité : Si vous devez collecter un petit volume de données (1000-2000 annonces) et êtes prêt à risquer des blocages.

Important : N'utilisez pas de centres de données pour le scraping de Cian, Avito, Yandex.Immobilier. Vous obtiendrez un blocage IP en 10-15 minutes, et vous perdrez temps et argent. Pour ces sites, les proxies résidentiels sont la seule option fonctionnelle.

Configuration de la rotation des adresses IP pour un scraping stable

La rotation des IP est le changement automatique de serveur proxy après des intervalles de temps ou un nombre défini de requêtes. Une configuration correcte de la rotation est cruciale pour éviter les blocages.

Stratégies de rotation des adresses IP

Il existe trois stratégies principales de rotation, chacune adaptée à différents scénarios de scraping immobilier :

Stratégie Description Quand utiliser Paramètres
Rotation par temps L'IP change toutes les N minutes (5, 10, 15 minutes) Scraping de Cian, Avito — sites avec des limites strictes par temps Cian : 10-15 minutes
Avito : 8-12 minutes
CIAN : 5-10 minutes
Rotation par requêtes L'IP change après N requêtes (50, 100, 200 requêtes) Sites avec des limites sur le nombre de requêtes par IP Cian : 80-100 requêtes
Avito : 50-70 requêtes
Sites régionaux : 200-500 requêtes
Rotation à chaque requête Chaque requête passe par une nouvelle IP du pool Anonymat maximal, collecte de données critiques Nécessite un grand pool d'IP (100+), coût élevé, convient aux sites particulièrement protégés

Recommandation pour le scraping immobilier : Utilisez une stratégie combinée — rotation par temps (10 minutes) ET par requêtes (100 requêtes). L'IP change lorsque l'une des conditions est remplie. Cela assure une protection maximale contre les blocages.

Configuration étape par étape de la rotation dans des outils populaires

La plupart des scrapers et outils modernes prennent en charge la rotation automatique des proxies. Voici comment la configurer dans des outils populaires :

Exemple de configuration de rotation (conceptuellement) :

1. Créez une liste de proxies (fichier proxies.txt) :
   123.45.67.89:8000:username:password
   234.56.78.90:8000:username:password
   345.67.89.01:8000:username:password

2. Configurez les paramètres de rotation :
   - Intervalle de rotation : 10 minutes
   - Ou après 100 requêtes
   - Délai aléatoire entre les requêtes : 2-5 secondes

3. Activez l'émulation d'un véritable navigateur :
   - User-Agent : aléatoire parmi la liste des navigateurs populaires
   - Accept-Language : fr-FR,fr;q=0.9,en;q=0.8
   - Referer : page d'accueil du site ou moteur de recherche
   - Cookies : conservez-les entre les requêtes à partir d'une seule IP
    

Points importants à considérer lors de la configuration de la rotation :

  • Taille du pool de proxies : Pour un scraping stable de Cian, un pool d'au moins 20-30 IP est nécessaire. Pour Avito — 30-50 IP. Plus le pool est grand, moins la charge est élevée sur chaque IP.
  • Conservation des cookies : Ne réinitialisez pas les cookies lors du changement d'IP — cela semble suspect. Chaque IP doit avoir son propre ensemble de cookies, qui est conservé entre les requêtes.
  • Géolocalisation des proxies : Pour le scraping d'annonces régionales, utilisez des proxies de la même ville. Par exemple, pour collecter des données immobilières à Saint-Pétersbourg — des proxies avec IP de Saint-Pétersbourg.
  • Vérification de la fonctionnalité : Avant de lancer le scraping, vérifiez que tous les proxies fonctionnent. Supprimez de la liste les IP bloquées ou lentes (ping > 500 ms).

Comment contourner les systèmes anti-bots de Cian, Avito et CIAN

Les sites immobiliers modernes utilisent une protection multi-niveaux contre les bots. Des proxies seuls ne suffisent pas — il faut émuler le comportement d'un utilisateur réel. Analysons comment contourner la protection de chaque grande plateforme.

Contournement de la protection de Cian

Cian est la plateforme immobilière la plus protégée en Russie. Elle utilise une combinaison de Cloudflare, son propre système anti-bots et l'apprentissage automatique pour identifier les scrapers.

Ce que vérifie Cian :

  • TLS-fingerprint : Empreinte unique de la connexion SSL/TLS. Cian identifie les outils automatisés (Selenium, Puppeteer) par des paramètres TLS non standards.
  • JavaScript-challenge : Lors de la première visite, Cloudflare effectue une vérification JavaScript. Si le navigateur n'exécute pas JS ou le fait mal — blocage.
  • Canvas et WebGL fingerprinting : Cian lit l'empreinte unique du moteur graphique du navigateur. Des empreintes identiques provenant de différentes IP sont un signe de bot.
  • Analyse comportementale : Vitesse de défilement, mouvements de la souris, temps passé sur la page, modèles de clics. Des actions trop rapides ou mécaniques suscitent des soupçons.

Comment contourner la protection de Cian :

  1. Utilisez des proxies résidentiels : Seuls eux peuvent contourner Cloudflare de manière stable. Les centres de données sont bloqués dans 90 % des cas.
  2. Émulez un véritable navigateur : Utilisez des bibliothèques prenant en charge un navigateur complet (Playwright, Puppeteer Stealth). Elles émulent le TLS-fingerprint, Canvas, WebGL d'un vrai Chrome/Firefox.
  3. Installez des délais : Entre les requêtes — 3-7 secondes (valeur aléatoire). Avant de cliquer — 0,5-2 secondes. Imitez la lecture de l'annonce — délai de 10-20 secondes sur la page de l'annonce.
  4. Rotation des User-Agent : Utilisez une liste de User-Agent réels de navigateurs populaires (Chrome 120+, Firefox 121+, Safari 17+). Changez le User-Agent avec l'IP.
  5. Traitez les CAPTCHA : Même avec des proxies, Cian peut afficher un CAPTCHA lors d'une activité suspecte. Utilisez des services de résolution de CAPTCHA (2Captcha, Anti-Captcha) ou réduisez l'intensité du scraping.

Conseil : Pour le scraping de Cian, nous recommandons d'utiliser des navigateurs headless en mode stealth (cachant les signes d'automatisation). Configurez des délais aléatoires, émulez les mouvements de la souris, le défilement. Faites tourner les IP toutes les 10 minutes ou 80-100 requêtes. Avec de telles configurations, le taux de réussite du scraping est de 95-98 %.

Contournement de la protection d'Avito

Avito utilise Cloudflare et son propre système de détection des bots. La protection est légèrement moins forte que celle de Cian, mais nécessite tout de même une configuration correcte des proxies et une émulation du navigateur.

Particularités de la protection d'Avito :

  • Limite de 50-70 requêtes par IP : Après avoir dépassé la limite, Avito affiche un CAPTCHA ou bloque temporairement l'IP pendant 1-2 heures.
  • Vérification du Referer : Avito vérifie d'où vient l'utilisateur. L'absence de Referer ou une source suspecte est un motif de blocage.
  • Analyse de la vitesse des requêtes : Si les requêtes arrivent plus vite que 1-2 secondes, c'est un signe clair de bot.
  • Liens régionaux : Avito vérifie la correspondance de l'adresse IP avec la ville choisie. Si l'IP provient de Moscou et que vous consultez des annonces de Vladivostok, c'est suspect.

Paramètres pour contourner la protection d'Avito :

  1. Proxies résidentiels de la région souhaitée : Pour le scraping des annonces de Novossibirsk, utilisez des proxies avec IP de Novossibirsk ou des régions voisines.
  2. Rotation toutes les 8-12 minutes ou 50 requêtes : Ne dépassez pas la limite de requêtes par IP.
  3. Referer correct : Définissez le Referer comme si vous veniez de la recherche Yandex ou Google : https://yandex.ru/search/?text=acheter un appartement
  4. Délai de 2-4 secondes entre les requêtes : Valeur aléatoire, pour éviter des intervalles réguliers.
  5. Conservation des cookies et de la session : Avito suit la session de l'utilisateur. Conservez les cookies entre les requêtes à partir d'une seule IP.

Contournement de la protection de CIAN et d'autres plateformes

CIAN, Yandex.Immobilier, Domofond et d'autres plateformes ont une protection plus faible par rapport à Cian et Avito. Pour eux, des réglages de base suffisent :

  • Proxies résidentiels avec rotation toutes les 15-20 minutes
  • Délai de 1-3 secondes entre les requêtes
  • User-Agent réaliste et en-têtes de base
  • Traitement des CAPTCHA rares (apparaissant dans 5-10 % des cas)

Outils pour le scraping immobilier avec prise en charge des proxies

Pour le scraping des sites immobiliers, des solutions prêtes à l'emploi ainsi que des scrapers personnalisés sont utilisés. Le choix dépend des compétences techniques, du budget et de l'échelle de la tâche.

Services de scraping prêts à l'emploi (sans programmation)

Si vous n'êtes pas développeur, utilisez des services prêts à l'emploi avec une interface visuelle et une prise en charge intégrée des proxies :

  • Octoparse : Constructeur visuel de scrapers avec glisser-déposer. Prend en charge les proxies, JavaScript, les CAPTCHA. Dispose de modèles prêts pour des sites populaires. Prix à partir de 75 $/mois.
  • ParseHub : Tarif gratuit pour 200 pages, payant à partir de 149 $/mois. Prise en charge des proxies, AJAX, défilement infini. Convient pour le scraping d'Avito et de sites régionaux.
  • Apify : Plateforme cloud pour le web scraping. Grande bibliothèque d'acteurs (scrapers) prêts pour différents sites. Rotation intégrée des proxies. À partir de 49 $/mois.
  • Bright Data (anciennement Luminati) : Solution professionnelle avec son propre réseau de proxies. Outils intégrés pour le scraping, contournement des CAPTCHA, émulation de navigateur. À partir de 500 $/mois.

Recommandation : Pour les débutants et les petits projets, Octoparse ou ParseHub conviendront. Pour un scraping professionnel de grands volumes — Apify ou Bright Data.

Bibliothèques pour développeurs

Si vous êtes développeur ou avez une équipe technique, un scraper personnalisé vous donnera une flexibilité et un contrôle maximaux :

  • Puppeteer / Playwright (JavaScript/Node.js) : Navigateurs headless pour le scraping de sites complexes avec JavaScript. Émulation complète d'un véritable navigateur, contournement de la plupart des systèmes anti-bots. Prise en charge intégrée des proxies.
  • Selenium (Python, Java, C#) : Outil classique pour l'automatisation du navigateur. Grande communauté, de nombreuses solutions prêtes. Nécessite des bibliothèques supplémentaires pour le mode stealth.
  • Scrapy (Python) : Cadre puissant pour le scraping. Asynchrone, rapide, évolutif. Convient pour le scraping de sites simples sans JavaScript complexe. Facile à intégrer avec des proxies.
  • BeautifulSoup + Requests (Python) : Bibliothèque simple pour le scraping HTML. Convient pour les débutants et les tâches simples. Ne fonctionne pas avec des sites JavaScript.

Pour le scraping de Cian et Avito, nous recommandons : Puppeteer Stealth ou Playwright — ils contournent le mieux les systèmes anti-bots modernes grâce à l'émulation complète d'un véritable navigateur.

Conseils pratiques : comment éviter les blocages

Résumons toutes les recommandations sous forme de liste de contrôle pour un scraping immobilier stable sans blocages :

Liste de contrôle pour la configuration du scraper immobilier

✅ Choix des proxies :

  • Pour Cian, Avito — uniquement des proxies résidentiels
  • Pool d'au moins 20-50 IP pour répartir la charge
  • Proxies de la région souhaitée (Moscou pour les annonces de Moscou)
  • Vérification de la fonctionnalité de toutes les IP avant le lancement

✅ Configuration de la rotation :

  • Rotation par temps : 10-15 minutes pour Cian, 8-12 minutes pour Avito
  • Rotation par requêtes : 80-100 pour Cian, 50-70 pour Avito
  • Conservation des cookies pour chaque IP séparément
  • Délai aléatoire entre les requêtes : 2-5 secondes

✅ Émulation du navigateur :

  • Utilisation d'un navigateur headless avec mode stealth
  • User-Agent aléatoire parmi la liste des navigateurs populaires
  • En-têtes corrects : Accept-Language, Referer, Accept-Encoding
  • Exécution de JavaScript, chargement d'images
  • Émulation du défilement et des mouvements de la souris (pour Cian)

✅ Traitement des erreurs :

  • Résolution automatique des CAPTCHA via 2Captcha ou Anti-Captcha
  • Réessais en cas d'erreurs (maximum 3 tentatives)
  • Journalisation des IP bloquées et exclusion de la liste
  • Suivi du taux de réussite des requêtes (doit être > 95 %)

✅ Optimisation des performances :

  • Scraping parallèle : 3-5 threads avec différentes IP en même temps
  • Mise en cache des annonces déjà collectées (vérification par ID)
  • Scraping pendant la nuit (moins de charge sur le site, moins de vérifications)
  • Mise à jour régulière de la liste des proxies (une fois par semaine)

Erreurs typiques lors du scraping immobilier

Évitez ces erreurs courantes qui entraînent des blocages :

  • Utilisation de proxies gratuits : Ils sont déjà bloqués sur 99 % des sites, lents et peu fiables. Économiser sur les proxies entraînera une perte de temps et de données.
  • Requêtes trop rapides : Un délai de moins de 1 seconde entre les requêtes est un signe clair de bot. Même avec des proxies, vous obtiendrez un blocage.
  • User-Agent identique pour toutes les IP : Si 50 IP différentes utilisent le même User-Agent rare — c'est suspect. Faites tourner le User-Agent avec l'IP.
  • Ignorer la liaison régionale : Scraper des annonces d'Ekaterinbourg avec une IP de Moscou semble étrange. Utilisez des proxies de la région souhaitée.
  • Absence de traitement des CAPTCHA : Même avec les bons réglages, un CAPTCHA peut apparaître. Sans résolution automatique, le scraper s'arrêtera.
  • Scraping aux heures de pointe : De 10h à 20h, les sites connaissent un pic d'activité et une vigilance maximale des systèmes anti-bots. Scrapez la nuit ou tôt le matin.

Surveillance et analyse du scraping

Configurez la surveillance des métriques clés pour contrôler la qualité du scraping :

Métrique Valeur normale Problème
Taux de réussite des requêtes > 95% < 90 % — problèmes avec les proxies ou blocages
Temps de réponse moyen 1-3 secondes > 5 secondes — proxies lents, besoin de remplacement
Fréquence des CAPTCHA < 5% > 10 % — scraping trop agressif, augmentez les délais
IP bloquées < 2 % du pool > 5 % — problème de qualité des proxies ou de réglages
Annonces collectées par heure 500-2000 (dépend des réglages) < 100 — trop lent, optimisez les délais

Analysez régulièrement les journaux du scraper, suivez les IP bloquées, optimisez les réglages en fonction des statistiques. Le scraping n'est pas "configuré et oublié", mais un processus constant de surveillance et d'amélioration.

Conclusion

Le scraping de données immobilières depuis Cian, Avito et d'autres plateformes est une tâche complexe nécessitant le choix correct des proxies, une configuration adéquate de la rotation et l'émulation d'un comportement réel d'utilisateur. Sans proxies de qualité, la collecte stable de grands volumes de données est impossible — votre IP sera bloquée en 10-15 minutes de fonctionnement.

Principales conclusions de ce guide :

  • Pour le scraping de sites protégés (Cian, Avito), utilisez uniquement des proxies résidentiels — les centres de données sont bloqués dans 90 % des cas
  • Configurez la rotation des IP toutes les 10-15 minutes ou 80-100 requêtes pour répartir la charge
  • Émulez un utilisateur réel : délais aléatoires, en-têtes corrects, exécution de JavaScript
  • Utilisez des proxies de la région souhaitée pour le scraping d'annonces régionales
  • Surveillez les métriques de scraping et optimisez les réglages en fonction des statistiques

Si vous envisagez de vous engager professionnellement dans le scraping immobilier ou de collecter des données pour l'analyse de marché, nous vous recommandons d'essayer des proxies résidentiels — ils offrent un maximum d'anonymat, de stabilité et un risque minimal de blocages. Pour des tâches avec une protection particulièrement stricte, des proxies mobiles avec IP d'opérateurs russes conviendront.

Une configuration correcte des proxies et du scraper vous permettra de collecter des dizaines de milliers d'annonces chaque jour, de suivre la dynamique des prix, d'analyser le marché immobilier et de prendre des décisions d'investissement éclairées — sans blocages, CAPTCHA et perte de données.

```