Se você está analisando o mercado imobiliário — seja uma agência imobiliária, investidor ou analista — você certamente já se deparou com o mesmo problema: CIAN, Domclick e Yandex Imóveis bloqueiam solicitações em massa após algumas dezenas de páginas. Sem proxies, coletar uma base de anúncios atualizada é praticamente impossível. Neste artigo, vamos discutir quais proxies escolher, como configurá-los e como estabelecer um processo estável de coleta de dados.
Por que CIAN, Domclick e Yandex bloqueiam o parsing
Todas as três plataformas são agregadores comerciais com acesso pago a análises avançadas. CIAN vende assinaturas para relatórios analíticos, Yandex Imóveis monetiza a publicação de anúncios, e Domclick (Sberbank) utiliza os dados para produtos hipotecários. O parsing em massa atinge diretamente seu modelo de negócios — é por isso que todos os três serviços se protegem ativamente contra solicitações automáticas.
Aqui está o que acontece quando você tenta coletar dados sem proxies:
- Bloqueio de IP — após 50–200 solicitações de um único endereço, o site para de responder ou retorna um erro 403/429.
- CAPTCHA — especialmente agressivo no CIAN: Yandex SmartCaptcha aparece após algumas páginas de listagem.
- Retardo nas respostas — o servidor intencionalmente retarda as respostas para reduzir a velocidade de coleta de dados.
- Substituição de dados — em casos raros, as plataformas fornecem dados "lixo" para bots, a fim de prejudicar a base de dados.
- Bloqueio de User-Agent — cabeçalhos padrão de parsers são facilmente detectados e bloqueados.
A situação é agravada pelo fato de que o CIAN, nos últimos anos, reforçou significativamente sua proteção: agora eles analisam não apenas o IP, mas também padrões de comportamento — velocidade de rolagem, tempo entre solicitações, ordem de visualização de páginas. Isso significa que simplesmente mudar o IP já não é suficiente — uma configuração abrangente é necessária.
É importante entender:
Os bloqueios nessas plataformas funcionam com um esquema acumulativo. As primeiras 100 solicitações podem passar normalmente, e depois o IP vai para a lista negra por 24–72 horas. É por isso que a rotação de proxies não é uma opção, mas uma condição obrigatória para um trabalho estável.
Quais dados os profissionais do mercado imobiliário coletam
Antes de falarmos sobre o lado técnico, vamos entender — por que realmente coletar dados dessas plataformas e quais tarefas isso resolve na prática. A compreensão do objetivo influencia diretamente a escolha de ferramentas e do tipo de proxies.
Agências imobiliárias e construtores
Coletam bases de anúncios de concorrentes: preços por metro quadrado por regiões, dinâmica de alteração de preços, tempo médio de exposição dos imóveis. Isso permite posicionar corretamente seus próprios imóveis e formular uma política de preços. Grandes agências monitoram milhares de anúncios diariamente — manualmente isso é impossível.
Investidores imobiliários
Analisam a relação entre preço de venda e aluguel (yield), buscam imóveis subvalorizados, monitoram o surgimento de novos anúncios com desconto. Para o investidor, a velocidade é importante — um anúncio com preço abaixo do mercado é vendido em algumas horas, por isso é necessário monitoramento em tempo real.
Analistas e profissionais de marketing
Elaboram relatórios sobre o estado do mercado, preparam apresentações para clientes, pesquisam a demanda por segmentos (estúdios, apartamentos de dois quartos, imóveis rurais). Eles precisam de dados históricos — dinâmica de preços por 3–6–12 meses em regiões e tipos de imóveis específicos.
Campos típicos para coleta de dados
| Campo | Fonte | Aplicação |
|---|---|---|
| Preço do anúncio | CIAN, Domclick, Yandex | Análise de faixas de preços |
| Área, andar, tipo de imóvel | CIAN, Domclick | Segmentação e filtragem |
| Região, metrô, endereço | Todas as três plataformas | Geoanálise |
| Data de publicação e atualização | CIAN, Yandex | Tempo de exposição |
| Fotos do imóvel | Todas as três plataformas | Análise de qualidade |
| Contatos do vendedor | CIAN (parcialmente) | Formação de base de clientes |
Quais proxies são adequados para parsing imobiliário
A escolha do tipo de proxy é uma decisão crucial, da qual depende se você lutará constantemente contra bloqueios ou coletará tranquilamente a base necessária. Vamos discutir três opções principais em relação às tarefas de parsing de CIAN, Domclick e Yandex Imóveis.
Proxies residenciais — a escolha ideal para CIAN
Proxies residenciais utilizam endereços IP de usuários domésticos reais — é exatamente esses endereços que as plataformas percebem como tráfego normal. Do ponto de vista do CIAN ou Yandex, a solicitação parece um ser humano comum que está em casa navegando pelos anúncios. Isso torna os proxies residenciais praticamente indetectáveis pelos métodos padrão de proteção.
A principal vantagem é um grande pool de endereços IP, o que permite fazer rotação após cada solicitação ou cada página. A desvantagem é que a velocidade é um pouco menor do que a dos proxies de data center, e o preço é mais alto. Para parsing imobiliário, onde a estabilidade é mais crítica do que a velocidade, essa é a opção ideal.
Proxies móveis — para casos difíceis com proteção rigorosa
Proxies móveis são endereços IP de operadores móveis (MTS, Beeline, MegaFon). Sua característica é que um IP móvel pode ser utilizado por centenas de usuários reais simultaneamente através de NAT. Por causa disso, as plataformas raramente bloqueiam endereços móveis — bloquear um IP significa bloquear centenas de pessoas reais, o que é inaceitável do ponto de vista dos negócios.
Proxies móveis devem ser usados se o CIAN já "lembrou" os padrões do seu trabalho e bloqueia até mesmo endereços residenciais. Esta é a opção mais resistente à detecção, mas também a mais cara.
Proxies de data center — para grandes volumes com cautela
Proxies de data center são rápidos e baratos, mas facilmente detectáveis. O CIAN e o Yandex já bloquearam a maioria das sub-redes populares de data centers. Usá-los para parsing de CIAN em 2024 significa enfrentar constantemente bloqueios e gastar tempo trocando pools.
Proxies de data center podem ser adequados para Domclick, que tem uma proteção um pouco menos agressiva, ou para testes preliminares da estrutura das páginas antes de configurar o parser principal.
| Tipo de proxy | CIAN | Domclick | Yandex Imóveis | Custo |
|---|---|---|---|---|
| Residenciais | ✅ Excelente | ✅ Excelente | ✅ Excelente | Média |
| Móveis | ✅ Excelente | ✅ Excelente | ✅ Excelente | Alta |
| Data Center | ❌ Bloqueios | ⚠️ Parcialmente | ❌ Bloqueios | Baixa |
Configuração de proxies para CIAN: análise passo a passo
CIAN é a plataforma tecnicamente mais complexa das três. Aqui, utiliza-se uma proteção em múltiplos níveis: limitação de taxa por IP, análise de comportamento, Yandex SmartCaptcha e verificação de cabeçalhos do navegador. Vamos explicar como organizar o trabalho corretamente.
Passo 1. Obtenha proxies com IPs russos
CIAN é uma plataforma russa, e solicitações de IPs estrangeiros imediatamente levantam suspeitas. Certifique-se de que seus proxies residenciais têm geolocalização russa — preferencialmente Moscovo ou São Petersburgo, já que a maioria dos anúncios está concentrada lá. Ao escolher um provedor, verifique a disponibilidade de IPs residenciais russos no pool.
Passo 2. Configure a rotação de IPs
Para CIAN, recomenda-se mudar o IP a cada 5–10 solicitações, sem esperar pelo bloqueio. A maioria dos provedores de proxies residenciais oferece um endpoint rotativo — um endereço e porta que automaticamente fornecem um novo IP a cada conexão. Isso simplifica significativamente a configuração: não é necessário alternar manualmente entre endereços.
Passo 3. Configure atrasos entre solicitações
Mesmo com proxies, não deve-se enviar solicitações na velocidade máxima. Uma pessoa real leva de 5 a 30 segundos para visualizar uma página. Imitar esse comportamento: um atraso de 3 a 8 segundos entre solicitações reduz significativamente o risco de bloqueio. Se você estiver usando um parser pronto ou uma ferramenta sem código — procure a configuração de "atraso" ou "delay" nas opções.
Passo 4. Configure corretamente os cabeçalhos das solicitações
O CIAN analisa os cabeçalhos HTTP. Uma solicitação sem User-Agent ou com o cabeçalho "python-requests/2.28" é instantaneamente identificada como bot. Use strings de User-Agent reais de navegadores atuais (Chrome, Firefox). Também é importante passar os cabeçalhos Accept-Language (ru-RU), Referer e Accept-Encoding — eles fazem a solicitação parecer com a de um navegador.
Passo 5. Trabalhe com paginação de forma sequencial
Não pule diretamente para a página 50 ou 100 — esse é um comportamento atípico. Comece pela primeira página e avance sequencialmente para as seguintes. Se precisar coletar dados de várias cidades — é melhor iniciar várias sessões paralelas com IPs diferentes, cada uma operando em sua região.
Particularidades do parsing de Domclick e Yandex Imóveis
Domclick (Sberbank)
Domclick tem uma proteção mais amigável em comparação com CIAN, mas isso não significa que o parsing lá seja simples. A plataforma utiliza carregamento dinâmico de dados através de API — isso significa que simplesmente baixar o HTML da página não é suficiente: os dados sobre os anúncios são carregados através de solicitações JavaScript para a API interna.
A boa notícia: a API Domclick fornece dados em formato JSON, o que é muito mais conveniente para parsing do que a análise de HTML. A má notícia: as solicitações para a API também são rastreadas por IP, e com um grande número de solicitações de um único endereço, você receberá um bloqueio temporário.
A abordagem recomendada para Domclick: use proxies residenciais com rotação a cada 15–20 solicitações. Isso permite coletar dados de forma estável sem bloqueios constantes.
Yandex Imóveis
Yandex Imóveis é, sem dúvida, a plataforma mais difícil em termos de contornar a proteção. A razão é simples: o Yandex utiliza sua própria infraestrutura de proteção contra bots, que está integrada em todo o ecossistema. O SmartCaptcha do Yandex é um dos sistemas mais avançados no mercado russo.
O Yandex analisa não apenas o IP, mas também cookies, fingerprint do navegador e histórico de sessão. Isso significa que, para um parsing estável do Yandex Imóveis, você precisa usar um navegador headless completo (Playwright, Puppeteer) ou trabalhar através de serviços de parsing especializados com contorno já embutido da proteção do Yandex.
Dica prática:
Se você precisa de dados de todas as três plataformas, comece com Domclick — lá é mais fácil configurar uma coleta estável. Os dados do CIAN e do Yandex Imóveis frequentemente se sobrepõem, então Domclick pode cobrir uma parte significativa do mercado sem complicações adicionais.
Ferramentas prontas para parsing sem código
Se você não é programador, mas deseja coletar dados sobre imóveis — existem várias soluções prontas que suportam conexão de proxies e não requerem programação.
Octoparse
Um construtor visual de parsers com suporte a proxies. Você simplesmente clica nos elementos desejados da página, indica o que deseja coletar, e o programa constrói a lógica de parsing automaticamente. Suporta a conexão de proxies externos — basta inserir o endereço, porta, login e senha nas configurações. Funciona bem com Domclick.
ParseHub
Uma ferramenta semelhante com uma interface mais simples. Suporta páginas dinâmicas com JavaScript — o que é importante para Domclick e Yandex Imóveis. Proxies são conectados nas configurações do projeto. O plano gratuito é limitado em número de páginas, para monitoramento sério é necessário um plano pago.
Apify
Uma plataforma em nuvem para parsing com "atores" prontos (modelos de parsers). Existem soluções prontas para agregadores imobiliários. Suporta a conexão de proxies próprios através das configurações. É conveniente porque funciona na nuvem — não é necessário manter o computador ligado para monitoramento prolongado.
n8n + solicitações HTTP
Para quem deseja automatizar o processo sem programação profunda: n8n é um construtor visual de automações que pode enviar solicitações HTTP com proxies. Adequado para trabalhar com a API do Domclick — é possível configurar a coleta automática de dados em um cronograma e exportá-los para Google Sheets ou um banco de dados.
| Ferramenta | Sem código | Suporte a proxies | Páginas JS | Dificuldade |
|---|---|---|---|---|
| Octoparse | ✅ Sim | ✅ Sim | ✅ Sim | Baixa |
| ParseHub | ✅ Sim | ✅ Sim | ✅ Sim | Baixa |
| Apify | ⚠️ Parcialmente | ✅ Sim | ✅ Sim | Média |
| n8n | ⚠️ Parcialmente | ✅ Sim | ⚠️ Parcialmente | Média |
Rotação de proxies e anti-bloqueio: regras para trabalho seguro
Mesmo os proxies de melhor qualidade não ajudarão se forem usados incorretamente. A rotação não é apenas a troca de IP, é toda uma estratégia de comportamento que faz seu parser parecer usuários reais.
Como configurar a rotação corretamente
Frequência de troca de IP: para CIAN — a cada 5–10 solicitações, para Domclick — a cada 15–20 solicitações, para Yandex Imóveis — a cada 3–5 solicitações (a proteção mais agressiva). Se você estiver usando um endpoint rotativo do provedor, isso acontece automaticamente.
Sessões fixas vs. rotação: algumas tarefas exigem trabalhar com um IP durante toda a sessão — por exemplo, se for necessário se autenticar em uma conta. Nesse caso, use sessões fixas (IP fixo por 5–30 minutos). Para coleta simples de anúncios sem autenticação — rotação após cada solicitação.
Distribuição geográfica: se você estiver coletando dados de várias cidades, use proxies das regiões correspondentes. Uma solicitação para anúncios de Moscovo com um IP de Moscovo parece mais orgânica do que com um IP de Novosibirsk.
O que mais influencia a probabilidade de bloqueio
- Velocidade das solicitações — mais de 1 solicitação a cada 2 segundos de um único IP aumenta drasticamente o risco de bloqueio.
- Hora do dia — parsing à noite, das 2:00 às 6:00, é menos perceptível, pois o tráfego é menor.
- Paralelismo — é melhor ter 10 threads com IPs diferentes do que 1 thread com alta velocidade.
- Cookies e sessões — limpe os cookies juntamente com a troca de IP, caso contrário, a sessão se vincula ao endereço antigo.
- Referer — imite a transição de um mecanismo de busca ou da página principal do site.
- User-Agent correto — use versões atuais do Chrome ou Firefox, não desatualizadas.
Como reagir a um bloqueio
Se o parser começar a receber respostas 403 ou 429 — não tente continuar com o mesmo IP. Mude imediatamente para um novo endereço e faça uma pausa de 30–60 segundos antes da próxima solicitação. Se os bloqueios aumentaram — aumente o atraso entre as solicitações e reduza a frequência de troca de IP (paradoxalmente, mas mudanças muito frequentes também podem ser um sinal para os sistemas de proteção).
Checklist: como não ser bloqueado ao coletar dados sobre imóveis
Use este checklist antes de iniciar o parser — ele ajudará a evitar a maioria dos erros típicos.
✅ Checklist antes de iniciar o parser
- Os proxies têm geolocalização russa (Moscovo / SPb)
- Usam proxies residenciais ou móveis (não data center para CIAN)
- A rotação de IP está configurada (a cada 5–15 solicitações)
- Atraso entre as solicitações de pelo menos 3 segundos
- User-Agent configurado como um navegador atual
- Os cabeçalhos Accept-Language: ru-RU foram transmitidos
- Os cookies são limpos juntamente com a troca de IP
- O parsing é feito sequencialmente (página 1 → 2 → 3, não aleatoriamente)
- O tratamento de erros 403/429 com pausa automática está configurado
- Threads paralelas usam IPs diferentes
- O parser foi testado em 10–20 páginas antes do lançamento completo
- Os dados são salvos incrementalmente (não apenas no final)
Erros típicos de iniciantes
Erro 1: Iniciar sem testes. Muitos iniciam o parser em 10.000 páginas — e recebem um bloqueio em 15 minutos. Sempre comece pequeno: 20–30 páginas, verifique se os dados estão sendo coletados corretamente, certifique-se de que não há bloqueios, e só então amplie.
Erro 2: O mesmo IP para todas as tarefas. Se você usa um proxy tanto para testes quanto para parsing em produção — o IP rapidamente se torna visível. Mantenha pools separados para diferentes tarefas.
Erro 3: Ignorar erros. O parser deve lidar corretamente com respostas 403, 429, 503 — fazer uma pausa, mudar o IP e repetir a solicitação. Sem essa lógica, você perderá dados e exporá o IP.
Erro 4: Parsing 24/7 com um único pool. Mesmo bons proxies "se cansam" sob carga constante. Planeje pausas — por exemplo, 2 horas de trabalho, 30 minutos de descanso. Isso reduz a carga no pool de IPs e torna o padrão menos perceptível para os sistemas de proteção.
Conclusão
O parsing de CIAN, Domclick e Yandex Imóveis é uma ferramenta realmente eficaz para análise de mercado, se abordada com a base técnica correta. A principal coisa a lembrar: a qualidade dos proxies e a rotação correta são a base para um trabalho estável. Sem isso, você gastará tempo lutando contra bloqueios em vez de analisar dados.
Resumo: para CIAN, use proxies residenciais com rotação a cada 5–10 solicitações e atraso de pelo menos 3 segundos. Domclick é mais flexível, mas também requer proxies. Yandex Imóveis é a plataforma mais complexa, necessitando de um navegador headless completo além de proxies de qualidade. Para trabalho sem código, Octoparse ou ParseHub com conexão de proxies externos são adequados.
Se você planeja monitoramento regular de preços de imóveis ou coleta de uma base de anúncios para análise, recomendamos começar com proxies residenciais com geolocalização russa — eles oferecem o equilíbrio ideal entre estabilidade de operação e custo, e são perfeitos para todas as três plataformas.