Si te dedicas al análisis del mercado inmobiliario — ya sea una agencia inmobiliaria, inversor o analista — seguramente te has encontrado con el mismo problema: CIAN, Domclick y Yandex Inmobiliaria bloquean las solicitudes masivas después de unas pocas decenas de páginas. Sin proxies, recopilar una base de anuncios actualizada es prácticamente imposible. En este artículo, analizaremos qué proxies elegir, cómo configurarlos y cómo establecer un proceso estable de recopilación de datos.
Por qué CIAN, Domclick y Yandex bloquean el scraping
Las tres plataformas son agregadores comerciales con acceso de pago a análisis avanzados. CIAN vende suscripciones a informes analíticos, Yandex Inmobiliaria monetiza la publicación de anuncios, y Domclick (Sberbank) utiliza datos para productos hipotecarios. El scraping masivo impacta directamente en su modelo de negocio, por lo que los tres servicios se protegen activamente contra solicitudes automáticas.
Esto es lo que sucede cuando intentas recopilar datos sin proxies:
- Bloqueo de IP — después de 50–200 solicitudes desde una dirección, el sitio deja de responder o devuelve un error 403/429.
- CAPTCHA — CIAN aplica esto de manera especialmente agresiva: Yandex SmartCaptcha aparece después de unas pocas páginas de listado.
- Retraso en las respuestas — el servidor intencionalmente ralentiza las respuestas para reducir la velocidad de recopilación de datos.
- Suplantación de datos — en raras ocasiones, las plataformas devuelven datos "basura" a los bots para arruinar la base de datos.
- Bloqueo de User-Agent — los encabezados estándar de los parsers son fácilmente detectables y bloqueables.
La situación se agrava porque CIAN ha reforzado significativamente su protección en los últimos años: ahora analizan no solo la IP, sino también los patrones de comportamiento — velocidad de desplazamiento, tiempo entre solicitudes, orden de visualización de páginas. Esto significa que simplemente cambiar la IP ya no es suficiente — se necesita una configuración integral.
Es importante entender:
Los bloqueos en estas plataformas funcionan según un esquema acumulativo. Las primeras 100 solicitudes pueden pasar normalmente, y luego la IP entra en la lista negra durante 24–72 horas. Por eso, la rotación de proxies no es una opción, sino un requisito obligatorio para un funcionamiento estable.
Qué datos recopilan los profesionales del mercado inmobiliario
Antes de hablar sobre el aspecto técnico, aclaremos — ¿por qué es necesario hacer scraping en estas plataformas y qué problemas resuelve en la práctica? La comprensión del objetivo influye directamente en la elección de herramientas y el tipo de proxies.
Agencias inmobiliarias y desarrolladores
Recopilan bases de anuncios de competidores: precios por metro cuadrado por zonas, dinámica de cambios de precios, tiempo promedio de exposición de los objetos. Esto permite posicionar correctamente sus propios objetos y formular políticas de precios. Las grandes agencias monitorean miles de anuncios diariamente — hacerlo manualmente es imposible.
Inversores en bienes raíces
Analizan la relación entre el precio de venta y el alquiler (yield), buscan objetos subvaluados, rastrean la aparición de nuevos anuncios con descuento. Para un inversor, la velocidad es importante — un anuncio con un precio por debajo del mercado se va en unas pocas horas, por lo que se necesita monitoreo en tiempo real.
Analistas y marketers
Elaboran informes sobre el estado del mercado, preparan presentaciones para clientes, investigan la demanda por segmentos (estudios, apartamentos de dos habitaciones, bienes raíces rurales). Necesitan datos históricos — dinámica de precios durante 3–6–12 meses por zonas específicas y tipos de objetos.
Campos típicos para la recopilación de datos
| Campo | Fuente | Aplicación |
|---|---|---|
| Precio del anuncio | CIAN, Domclick, Yandex | Análisis de rangos de precios |
| Área, piso, tipo de casa | CIAN, Domclick | Segmentación y filtrado |
| Zona, metro, dirección | Las tres plataformas | Geoanálisis |
| Fecha de publicación y actualización | CIAN, Yandex | Tiempo de exposición |
| Fotografías del objeto | Las tres plataformas | Análisis de calidad |
| Contactos del vendedor | CIAN (parcialmente) | Formación de base de clientes |
Qué proxies son adecuados para el scraping inmobiliario
La elección del tipo de proxy es una decisión clave que determina si estarás constantemente luchando contra bloqueos o si podrás recopilar la base de datos necesaria sin problemas. Analicemos tres opciones principales en relación con las tareas de scraping de CIAN, Domclick y Yandex Inmobiliaria.
Proxies residenciales: la mejor opción para CIAN
Los proxies residenciales utilizan direcciones IP de usuarios domésticos reales — estas direcciones son percibidas por las plataformas como tráfico normal. Desde la perspectiva de CIAN o Yandex, la solicitud parece ser de una persona común que está en casa navegando por anuncios. Esto hace que los proxies residenciales sean prácticamente indetectables por métodos de protección estándar.
La principal ventaja es un gran pool de direcciones IP, lo que permite hacer rotación después de cada solicitud o cada página. La desventaja es que la velocidad es un poco más baja que la de los proxies de centros de datos, y el costo es más alto. Para el scraping inmobiliario, donde la estabilidad es más crítica que la velocidad, esta es la opción óptima.
Proxies móviles: para casos difíciles con protección estricta
Los proxies móviles son direcciones IP de operadores móviles (MTS, Beeline, MegaFon). Su característica es que una IP móvil puede ser utilizada por cientos de usuarios reales simultáneamente a través de NAT. Debido a esto, las plataformas rara vez bloquean direcciones móviles — bloquear una IP significa bloquear a cientos de personas reales, lo cual es inaceptable desde el punto de vista empresarial.
Los proxies móviles deben ser utilizados si CIAN ya ha "recordado" los patrones de tu trabajo y bloquea incluso las direcciones residenciales. Esta es la opción más resistente a la detección, pero también la más cara.
Proxies de centros de datos: para grandes volúmenes con precaución
Los proxies de centros de datos son rápidos y baratos, pero fácilmente detectables. CIAN y Yandex han incluido en listas negras la mayoría de las subredes populares de centros de datos. Usarlos para el scraping de CIAN en 2024 significa enfrentarse constantemente a bloqueos y perder tiempo cambiando pools.
Los proxies de centros de datos pueden ser adecuados para Domclick, que tiene una protección un poco menos agresiva, o para pruebas preliminares de la estructura de las páginas antes de configurar el scraper principal.
| Tipo de proxy | CIAN | Domclick | Yandex Inmobiliaria | Costo |
|---|---|---|---|---|
| Residenciales | ✅ Excelente | ✅ Excelente | ✅ Excelente | Promedio |
| Móviles | ✅ Excelente | ✅ Excelente | ✅ Excelente | Alta |
| Centro de datos | ❌ Bloqueos | ⚠️ Parcialmente | ❌ Bloqueos | Baja |
Configuración de proxies para CIAN: análisis paso a paso
CIAN es la plataforma técnicamente más compleja de las tres. Aquí se utiliza una protección de múltiples niveles: limitación de tasa por IP, análisis de comportamiento, Yandex SmartCaptcha y verificación de encabezados del navegador. Te contaremos cómo organizar correctamente el trabajo.
Paso 1. Obtén proxies con IP rusas
CIAN es una plataforma rusa, y las solicitudes desde IP extranjeras inmediatamente generan sospechas. Asegúrate de que tus proxies residenciales tengan geolocalización rusa — preferiblemente Moscú o San Petersburgo, ya que la mayoría de los anuncios están concentrados allí. Al elegir un proveedor, pregunta sobre la disponibilidad de IP residenciales rusas en el pool.
Paso 2. Configura la rotación de IP
Para CIAN, se recomienda cambiar la IP cada 5–10 solicitudes, sin esperar a ser bloqueado. La mayoría de los proveedores de proxies residenciales ofrecen un endpoint rotatorio — una dirección y puerto que automáticamente asigna una nueva IP en cada conexión. Esto simplifica significativamente la configuración: no es necesario cambiar manualmente entre direcciones.
Paso 3. Configura retrasos entre solicitudes
Incluso con proxies, no debes enviar solicitudes a la velocidad máxima. Una persona real pasa de 5 a 30 segundos viendo una página. Imita este comportamiento: un retraso de 3 a 8 segundos entre solicitudes reduce significativamente el riesgo de bloqueo. Si utilizas un scraper listo o una herramienta sin código, busca la configuración de "retraso" o "delay" en los parámetros.
Paso 4. Configura correctamente los encabezados de las solicitudes
CIAN analiza los encabezados HTTP. Una solicitud sin User-Agent o con el encabezado "python-requests/2.28" se identifica instantáneamente como un bot. Utiliza cadenas de User-Agent reales de navegadores actuales (Chrome, Firefox). También es importante enviar los encabezados Accept-Language (ru-RU), Referer y Accept-Encoding — hacen que la solicitud se parezca a la de un navegador.
Paso 5. Trabaja con la paginación de manera secuencial
No saltes directamente a la página 50 o 100 — este es un comportamiento atípico. Comienza desde la primera página y avanza secuencialmente a las siguientes. Si necesitas recopilar datos de varias ciudades, es mejor iniciar varias sesiones paralelas con diferentes IP, cada una trabajando en su región.
Características del scraping de Domclick y Yandex Inmobiliaria
Domclick (Sberbank)
Domclick tiene una protección más amigable en comparación con CIAN, pero eso no significa que el scraping allí sea fácil. La plataforma utiliza carga dinámica de datos a través de API — esto significa que simplemente descargar el HTML de la página no es suficiente: los datos sobre los anuncios se cargan a través de solicitudes JavaScript a la API interna.
La buena noticia: la API de Domclick devuelve datos en formato JSON, lo que es mucho más conveniente para el scraping que analizar HTML. La mala noticia: las solicitudes a la API también se rastrean por IP, y con un gran número de solicitudes desde una dirección, recibirás un bloqueo temporal.
El enfoque recomendado para Domclick: utilizar proxies residenciales con rotación cada 15–20 solicitudes. Esto permite recopilar datos de manera estable sin bloqueos constantes.
Yandex Inmobiliaria
Yandex Inmobiliaria es probablemente la plataforma más difícil desde el punto de vista de eludir la protección. La razón es simple: Yandex utiliza su propia infraestructura de protección contra bots, que está integrada a nivel de toda la ecosistema. SmartCaptcha de Yandex es uno de los sistemas más avanzados en el mercado ruso.
Yandex analiza no solo la IP, sino también las cookies, el fingerprint del navegador y el historial de sesiones. Esto significa que para un scraping estable de Yandex Inmobiliaria, necesitas usar un navegador headless completo (Playwright, Puppeteer) o trabajar a través de servicios de scraping especializados que ya tienen incorporada la elusión de la protección de Yandex.
Consejo práctico:
Si necesitas datos de las tres plataformas, comienza con Domclick — allí es más fácil configurar una recopilación estable. Los datos de CIAN y Yandex Inmobiliaria a menudo se superponen, por lo que Domclick puede cubrir una parte significativa del mercado sin complicaciones adicionales.
Herramientas listas para el scraping sin código
Si no eres programador pero quieres recopilar datos sobre bienes raíces, hay varias soluciones listas que admiten la conexión de proxies y no requieren escribir código.
Octoparse
Un constructor visual de scrapers con soporte para proxies. Simplemente haces clic en los elementos de la página que necesitas, indicas qué deseas recopilar, y el programa construye automáticamente la lógica del scraping. Admite la conexión de proxies externos — solo necesitas insertar la dirección, puerto, nombre de usuario y contraseña en la configuración. Funciona bien con Domclick.
ParseHub
Herramienta similar con una interfaz más simple. Admite páginas dinámicas con JavaScript — lo cual es importante para Domclick y Yandex Inmobiliaria. Los proxies se conectan en la configuración del proyecto. El plan gratuito está limitado en la cantidad de páginas, para un monitoreo serio se necesita la versión de pago.
Apify
Plataforma en la nube para scraping con "actores" (plantillas de scrapers) listos. Hay soluciones listas para agregadores de bienes raíces. Admite la conexión de proxies propios a través de la configuración. Es conveniente porque funciona en la nube — no necesitas mantener la computadora encendida para un monitoreo prolongado.
n8n + Solicitudes HTTP
Para aquellos que quieren automatizar el proceso sin programación profunda: n8n es un constructor visual de automatizaciones que puede enviar solicitudes HTTP con proxies. Adecuado para trabajar con la API de Domclick — se puede configurar la recopilación automática de datos según un horario y exportar a Google Sheets o a una base de datos.
| Herramienta | Sin código | Soporte para proxies | Páginas JS | Dificultad |
|---|---|---|---|---|
| Octoparse | ✅ Sí | ✅ Sí | ✅ Sí | Baja |
| ParseHub | ✅ Sí | ✅ Sí | ✅ Sí | Baja |
| Apify | ⚠️ Parcialmente | ✅ Sí | ✅ Sí | Media |
| n8n | ⚠️ Parcialmente | ✅ Sí | ⚠️ Parcialmente | Media |
Rotación de proxies y anti-bloqueo: reglas para un trabajo seguro
Incluso los proxies de mejor calidad no ayudarán si se utilizan incorrectamente. La rotación no es solo un cambio de IP, es toda una estrategia de comportamiento que hace que tu scraper se asemeje a usuarios reales.
Cómo configurar correctamente la rotación
Frecuencia de cambio de IP: para CIAN — cada 5–10 solicitudes, para Domclick — cada 15–20 solicitudes, para Yandex Inmobiliaria — cada 3–5 solicitudes (la protección más agresiva). Si utilizas un endpoint rotatorio del proveedor, esto sucede automáticamente.
Sesiones pegajosas vs. rotación: algunas tareas requieren trabajar con una IP durante toda la sesión — por ejemplo, si necesitas iniciar sesión en una cuenta. En este caso, utiliza sesiones pegajosas (IP fija durante 5–30 minutos). Para la simple recopilación de anuncios sin autenticación — rotación después de cada solicitud.
Distribución geográfica: si estás recopilando datos de varias ciudades, utiliza proxies de las regiones correspondientes. Una solicitud para anuncios de Moscú desde una IP de Moscú se ve más orgánica que desde una IP de Novosibirsk.
Qué más influye en la probabilidad de bloqueo
- Velocidad de las solicitudes — más de 1 solicitud cada 2 segundos desde una IP aumenta el riesgo de bloqueo varias veces.
- Hora del día — el scraping por la noche de 2:00 a 6:00 es menos notorio, ya que el tráfico es menor.
- Paralelismo — es mejor 10 hilos con diferentes IP que 1 hilo a alta velocidad.
- Cookies y sesiones — restablece las cookies junto con el cambio de IP, de lo contrario, la sesión se vincula a la dirección antigua.
- Referer — imita la transición desde un motor de búsqueda o desde la página principal del sitio.
- User-Agent correcto — utiliza versiones actuales de Chrome o Firefox, no versiones obsoletas.
Cómo reaccionar ante un bloqueo
Si el scraper comienza a recibir respuestas 403 o 429 — no intentes continuar con la misma IP. Cambia inmediatamente a una nueva dirección y haz una pausa de 30–60 segundos antes de la siguiente solicitud. Si los bloqueos aumentan — incrementa el retraso entre solicitudes y reduce la frecuencia de cambio de IP (paradójicamente, un cambio demasiado frecuente también puede ser una señal para los sistemas de protección).
Lista de verificación: cómo no ser bloqueado al recopilar datos sobre bienes raíces
Utiliza esta lista de verificación antes de iniciar el scraper — te ayudará a evitar la mayoría de los errores típicos.
✅ Lista de verificación antes de iniciar el scraper
- Los proxies tienen geolocalización rusa (Moscú / SPb)
- Se utilizan proxies residenciales o móviles (no de centros de datos para CIAN)
- La rotación de IP está configurada (cada 5–15 solicitudes)
- El retraso entre solicitudes es de al menos 3 segundos
- User-Agent está configurado como un navegador actual
- Los encabezados Accept-Language: ru-RU se han enviado
- Las cookies se restablecen junto con el cambio de IP
- El scraping se realiza de manera secuencial (página 1 → 2 → 3, no de manera caótica)
- Se ha configurado el manejo de errores 403/429 con pausa automática
- Los hilos paralelos utilizan diferentes IP
- Se ha probado el scraper en 10–20 páginas antes del lanzamiento completo
- Los datos se guardan de manera incremental (no solo al final)
Errores típicos de principiantes
Error 1: Lanzamiento sin pruebas. Muchos inician el scraper en 10,000 páginas de inmediato — y reciben un bloqueo en 15 minutos. Siempre comienza con poco: 20–30 páginas, verifica que los datos se recopilen correctamente, asegúrate de que no haya bloqueos, y solo luego escala.
Error 2: La misma IP para todas las tareas. Si utilizas un proxy tanto para pruebas como para scraping en producción — la IP se expone rápidamente. Mantén pools separados para diferentes tareas.
Error 3: Ignorar errores. El scraper debe manejar correctamente las respuestas 403, 429, 503 — hacer una pausa, cambiar la IP y repetir la solicitud. Sin esta lógica, perderás datos y expondrás la IP.
Error 4: Scraping 24/7 con un solo pool. Incluso los buenos proxies "se cansan" bajo carga constante. Planifica pausas — por ejemplo, 2 horas de trabajo, 30 minutos de descanso. Esto reduce la carga en el pool de IP y hace que el patrón sea menos detectable para los sistemas de protección.
Conclusión
El scraping de CIAN, Domclick y Yandex Inmobiliaria es una herramienta realmente efectiva para el análisis del mercado, si se aborda con la base técnica adecuada. Lo principal que debes recordar: la calidad de los proxies y la rotación correcta son la base para un funcionamiento estable. Sin esto, perderás tiempo luchando contra bloqueos en lugar de analizar datos.
Resumen breve: para CIAN, utiliza proxies residenciales con rotación cada 5–10 solicitudes y un retraso de al menos 3 segundos. Domclick es más tolerante, pero también requiere proxies. Yandex Inmobiliaria es la plataforma más complicada, allí se necesita un navegador headless completo más proxies de calidad. Para trabajar sin código, Octoparse o ParseHub con conexión de proxies externos son opciones adecuadas.
Si planeas un monitoreo regular de precios de bienes raíces o la recopilación de una base de anuncios para análisis, te recomendamos comenzar con proxies residenciales con geolocalización rusa — ofrecen el equilibrio óptimo entre estabilidad de trabajo y costo, y son ideales para las tres plataformas.