O scraping de sites imobiliários é uma tarefa criticamente importante para corretores, investidores e analistas de mercado. Cian, Avito, CIAM e outras plataformas bloqueiam ativamente a coleta automática de dados, utilizando sistemas anti-bot avançados. Sem proxies configurados corretamente, seu IP será bloqueado após 50-100 requisições, e você perderá o acesso a informações valiosas sobre preços, anúncios e dinâmicas de mercado.
Neste guia, você aprenderá como escolher proxies adequados para scraping imobiliário, configurar a rotação de endereços IP, contornar a proteção das maiores plataformas e coletar dados de forma estável, sem bloqueios e CAPTCHA.
Por que os sites imobiliários bloqueiam scraping
Grandes plataformas imobiliárias — Cian, Avito, Yandex.Imóveis, CIAM — perdem milhões de rublos devido ao scraping de seus dados por concorrentes e agregadores. Portanto, implementaram uma proteção em múltiplas camadas contra a coleta automática de informações.
Métodos principais de bloqueio de scrapers:
- Limites por endereço IP: Cian bloqueia IPs após 80-120 requisições por hora, Avito — após 50-70 requisições. Isso torna impossível coletar grandes volumes de dados de um único IP.
- Fingerprinting do navegador: Os sites analisam cabeçalhos HTTP, User-Agent, resolução de tela, fontes instaladas e outros parâmetros. Se parecerem suspeitos (por exemplo, se não houver cookies ou JavaScript), a requisição é bloqueada.
- Análise comportamental: Sistemas anti-bot monitoram a velocidade das requisições, padrões de navegação e movimentos do mouse. Ações muito rápidas ou repetitivas levantam suspeitas.
- Cloudflare e Datadome: Muitos sites utilizam sistemas de proteção avançados que verificam o TLS-fingerprint, WebGL, Canvas e outros parâmetros técnicos do navegador.
Sem proxies, você enfrentará bloqueios em poucos minutos de scraping ativo. Seu IP será colocado em uma lista negra por 24-48 horas, e você não conseguirá nem abrir o site em um navegador comum. Para coleta profissional de dados, proxies não são uma opção, mas uma exigência obrigatória.
Exemplo real: Uma agência imobiliária em Moscovo coletava dados sobre preços de apartamentos do Cian para análise de mercado. Sem proxies, seu IP era bloqueado após coletar 200-300 anúncios (cerca de 15 minutos de operação do scraper). Após implementar proxies residenciais com rotação a cada 10 minutos, eles coletam mais de 50.000 anúncios diariamente sem um único bloqueio.
Quais tipos de proxies são adequados para coleta de dados imobiliários
Para scraping imobiliário, são utilizados três tipos principais de proxies. A escolha depende da escala da tarefa, do orçamento e do nível de proteção do site alvo.
| Tipo de proxy | Vantagens | Desvantagens | Para quais tarefas |
|---|---|---|---|
| Proxies residenciais | IPs reais de usuários domésticos, máxima anonimidade, mínimo risco de bloqueios, contorno do Cloudflare | Preço alto (a partir de $7-15 por 1 GB), velocidade inferior em comparação com data centers | Scraping do Cian, Avito, CIAM com alto nível de proteção, coleta de grandes volumes de dados |
| Proxies de data centers | Alta velocidade (até 1 Gbps), baixo custo ($1-3 por IP por mês), conexão estável | Fácil de serem identificados por sistemas anti-bot, alto risco de bloqueios em sites protegidos | Scraping de pequenos sites sem proteção, teste de scrapers, coleta de dados de APIs |
| Proxies móveis | IPs de operadoras móveis (MTS, Beeline, MegaFon), difícil de bloquear, alta confiabilidade dos sites | O preço mais alto ($50-150 por mês por IP), IPs dinâmicos (mudam a cada 10-30 minutos) | Contorno da proteção mais rigorosa, scraping de versões móveis de sites, tarefas críticas |
Recomendação para a maioria das tarefas: Para scraping do Cian, Avito e outras grandes plataformas imobiliárias, a escolha ideal são proxies residenciais. Eles oferecem um equilíbrio entre custo, velocidade e nível de anonimidade. Proxies de data centers são adequados apenas para pequenos volumes ou sites sem proteção.
Proxies residenciais vs data centers: o que escolher para scraping
Vamos analisar em detalhes quando usar cada tipo de proxy para scraping imobiliário, com exemplos concretos.
Quando usar proxies residenciais
Proxies residenciais são endereços IP de usuários domésticos reais, fornecidos por provedores de internet (Rostelecom, MTS, Beeline). Para os sites, eles parecem visitantes comuns, o que os torna praticamente impossíveis de bloquear.
Use proxies residenciais para:
- Scraping do Cian: A proteção mais rigorosa entre os sites imobiliários russos. Bloqueia data centers após 30-50 requisições. Com proxies residenciais, é possível fazer 500-1000 requisições de um único IP sem bloqueios.
- Scraping do Avito: Utiliza Cloudflare e análise comportamental. Proxies residenciais contornam verificações de TLS-fingerprint e JavaScript-challenge.
- Coleta de grandes volumes de dados: Se você precisa coletar 10.000+ anúncios diariamente, proxies residenciais são a única opção confiável.
- Projetos de longo prazo: Quando o scraping é realizado por meses, a estabilidade é importante. Proxies residenciais raramente são colocados em listas negras.
Exemplo de configuração para o Cian:
Use um pool de 50-100 IPs residenciais com rotação a cada 5-10 minutos. Defina um atraso entre as requisições de 2-5 segundos (valor aleatório). Emule um usuário real: carregue imagens, execute JavaScript, envie cabeçalhos User-Agent realistas. Com essas configurações, você pode coletar 20.000-30.000 anúncios por dia sem um único bloqueio.
Quando os proxies de data centers são adequados
Proxies de data centers são endereços IP de servidores em data centers (Hetzner, OVH, DigitalOcean). Eles são 5-10 vezes mais baratos que os residenciais, mas facilmente identificáveis por sistemas anti-bot devido a bancos de dados de faixas de IP.
Use data centers para:
- Scraping de pequenos sites regionais: Agências imobiliárias locais, classificados sem proteção avançada.
- Teste do scraper: Depuração de código, verificação da lógica de funcionamento antes de executar em proxies residenciais.
- Scraping de APIs: Se o site oferece uma API oficial para parceiros, os data centers podem lidar com a tarefa.
- Orçamento limitado: Se você precisa coletar um pequeno volume de dados (1000-2000 anúncios) e está disposto a correr riscos de bloqueios.
Importante: Não use data centers para scraping do Cian, Avito, Yandex.Imóveis. Você receberá um bloqueio de IP em 10-15 minutos e perderá tempo e dinheiro. Para esses sites, proxies residenciais são a única opção viável.
Configuração de rotação de endereços IP para scraping estável
A rotação de IP é a troca automática do servidor proxy após determinados intervalos de tempo ou número de requisições. A configuração correta da rotação é criticamente importante para evitar bloqueios.
Estratégias de rotação de endereços IP
Existem três estratégias principais de rotação, cada uma adequada para diferentes cenários de scraping imobiliário:
| Estratégia | Descrição | Quando usar | Configurações |
|---|---|---|---|
| Rotação por tempo | O IP muda a cada N minutos (5, 10, 15 minutos) | Scraping do Cian, Avito — sites com limites rigorosos de tempo |
Cian: 10-15 minutos Avito: 8-12 minutos CIAM: 5-10 minutos |
| Rotação por requisições | O IP muda após N requisições (50, 100, 200 requisições) | Sites com limites de quantidade de requisições de um único IP |
Cian: 80-100 requisições Avito: 50-70 requisições Sites regionais: 200-500 requisições |
| Rotação a cada requisição | Cada requisição passa por um novo IP do pool | Máxima anonimidade, coleta de dados críticos | Requer um grande pool de IPs (100+), alto custo, adequado para sites especialmente protegidos |
Recomendação para scraping imobiliário: Use uma estratégia combinada — rotação por tempo (10 minutos) E por requisições (100 requisições). O IP muda quando qualquer uma das condições é atendida. Isso garante a máxima proteção contra bloqueios.
Configuração passo a passo da rotação em ferramentas populares
A maioria dos scrapers e ferramentas de scraping modernas suporta rotação automática de proxies. Veja como configurá-la em ferramentas populares:
Exemplo de configuração de rotação (conceitual):
1. Crie uma lista de proxies (arquivo proxies.txt):
123.45.67.89:8000:username:password
234.56.78.90:8000:username:password
345.67.89.01:8000:username:password
2. Configure os parâmetros de rotação:
- Intervalo de rotação: 10 minutos
- Ou após 100 requisições
- Atraso aleatório entre requisições: 2-5 segundos
3. Ative a emulação de um navegador real:
- User-Agent: aleatório da lista de navegadores populares
- Accept-Language: pt-BR,pt;q=0.9,en;q=0.8
- Referer: página inicial do site ou mecanismo de busca
- Cookies: mantenha entre requisições de um único IP
Aspectos importantes da configuração de rotação:
- Tamanho do pool de proxies: Para scraping estável do Cian, é necessário um pool de pelo menos 20-30 IPs. Para Avito — 30-50 IPs. Quanto maior o pool, menor a carga em cada IP.
- Manutenção de cookies: Não limpe os cookies ao mudar de IP — isso parece suspeito. Cada IP deve ter seu próprio conjunto de cookies, que é mantido entre as requisições.
- Geolocalização dos proxies: Para scraping de anúncios regionais, use proxies da mesma cidade. Por exemplo, para coletar dados imobiliários em São Petersburgo — proxies com IPs de São Petersburgo.
- Verificação de funcionalidade: Antes de iniciar o scraping, verifique todos os proxies quanto à funcionalidade. Remova da lista IPs bloqueados ou lentos (ping > 500 ms).
Como contornar sistemas anti-bot do Cian, Avito e CIAM
Sites imobiliários modernos utilizam proteção em múltiplas camadas contra bots. Apenas proxies não são suficientes — é necessário emular o comportamento de um usuário real. Vamos analisar como contornar a proteção de cada grande plataforma.
Contornando a proteção do Cian
Cian é a plataforma imobiliária mais protegida da Rússia. Utiliza uma combinação de Cloudflare, seu próprio sistema anti-bot e aprendizado de máquina para identificar scrapers.
O que o Cian verifica:
- TLS-fingerprint: Impressão digital única da conexão SSL/TLS. O Cian identifica ferramentas automatizadas (Selenium, Puppeteer) por parâmetros TLS não padrão.
- JavaScript-challenge: Na primeira visita, o Cloudflare realiza uma verificação de JavaScript. Se o navegador não executa JS ou o faz incorretamente — bloqueio.
- Canvas e WebGL fingerprinting: O Cian lê a impressão digital única do motor gráfico do navegador. Impressões digitais idênticas de diferentes IPs são um sinal de bot.
- Análise comportamental: Velocidade de rolagem, movimentos do mouse, tempo na página, padrões de cliques. Ações muito rápidas ou mecânicas levantam suspeitas.
Como contornar a proteção do Cian:
- Use proxies residenciais: Apenas eles conseguem contornar o Cloudflare de forma estável. Data centers são bloqueados em 90% dos casos.
- Emule um navegador real: Use bibliotecas com suporte a navegadores completos (Playwright, Puppeteer Stealth). Elas emulam o TLS-fingerprint, Canvas, WebGL de um Chrome/Firefox real.
- Defina atrasos: Entre requisições — 3-7 segundos (valor aleatório). Antes de clicar — 0.5-2 segundos. Imite a leitura do anúncio — atraso de 10-20 segundos na página do anúncio.
- Rotacione o User-Agent: Use uma lista de User-Agents reais de navegadores populares (Chrome 120+, Firefox 121+, Safari 17+). Mude o User-Agent junto com o IP.
- Resolva CAPTCHAs: Mesmo com proxies, o Cian pode mostrar CAPTCHAs em caso de atividade suspeita. Use serviços de resolução de CAPTCHA (2Captcha, Anti-Captcha) ou diminua a intensidade do scraping.
Dica: Para scraping do Cian, recomendamos o uso de navegadores headless com modo stealth (ocultando sinais de automação). Configure atrasos aleatórios, emule movimentos do mouse, rolagem. Rotacione IPs a cada 10 minutos ou 80-100 requisições. Com essas configurações, a taxa de sucesso do scraping é de 95-98%.
Contornando a proteção do Avito
Avito utiliza Cloudflare e seu próprio sistema de identificação de bots. A proteção é um pouco mais fraca que a do Cian, mas ainda assim requer a configuração correta de proxies e emulação do navegador.
Características da proteção do Avito:
- Limite de 50-70 requisições por IP: Após ultrapassar o limite, o Avito mostra CAPTCHA ou bloqueia temporariamente o IP por 1-2 horas.
- Verificação de Referer: O Avito verifica de onde o usuário veio. A ausência de Referer ou uma fonte suspeita é motivo para bloqueio.
- Análise da velocidade das requisições: Se as requisições ocorrem mais rápido que 1-2 segundos — isso é um sinal claro de bot.
- Vinculação regional: O Avito verifica a correspondência do endereço IP com a cidade selecionada. Se o IP for de Moscovo, mas você estiver vendo anúncios de Vladivostok — isso é suspeito.
Configurações para contornar a proteção do Avito:
- Proxies residenciais da região correta: Para scraping de anúncios de Novosibirsk, use proxies com IPs de Novosibirsk ou regiões vizinhas.
- Rotação a cada 8-12 minutos ou 50 requisições: Não ultrapasse o limite de requisições de um único IP.
- Referer correto: Defina o Referer como se você tivesse vindo da busca do Yandex ou Google:
https://yandex.ru/search/?text=купить квартиру - Atraso de 2-4 segundos entre requisições: Valor aleatório, para evitar intervalos uniformes.
- Manutenção de cookies e sessão: O Avito rastreia a sessão do usuário. Mantenha os cookies entre requisições de um único IP.
Contornando a proteção do CIAM e outras plataformas
CIAM, Yandex.Imóveis, Domofond e outras plataformas têm proteção mais fraca em comparação com Cian e Avito. Para eles, configurações básicas são suficientes:
- Proxies residenciais com rotação a cada 15-20 minutos
- Atraso de 1-3 segundos entre requisições
- User-Agent realista e cabeçalhos básicos
- Tratamento de CAPTCHAs raros (aparecem em 5-10% dos casos)
Ferramentas para scraping imobiliário com suporte a proxies
Para scraping de sites imobiliários, são utilizadas tanto soluções prontas quanto scrapers personalizados. A escolha depende das habilidades técnicas, do orçamento e da escala da tarefa.
Serviços de scraping prontos (sem programação)
Se você não é desenvolvedor, use serviços prontos com interface visual e suporte embutido a proxies:
- Octoparse: Construtor visual de scrapers com drag-and-drop. Suporta proxies, JavaScript, CAPTCHA. Existem modelos prontos para sites populares. Custo a partir de $75/mês.
- ParseHub: Plano gratuito para 200 páginas, planos pagos a partir de $149/mês. Suporte a proxies, AJAX, rolagem infinita. Adequado para scraping do Avito e sites regionais.
- Apify: Plataforma em nuvem para web scraping. Imensa biblioteca de atores (scrapers) prontos para diferentes sites. Rotação de proxies embutida. A partir de $49/mês.
- Bright Data (anteriormente Luminati): Solução profissional com sua própria rede de proxies. Ferramentas embutidas para scraping, contorno de CAPTCHA, emulação de navegador. A partir de $500/mês.
Recomendação: Para iniciantes e pequenos projetos, Octoparse ou ParseHub são adequados. Para scraping profissional de grandes volumes — Apify ou Bright Data.
Bibliotecas para desenvolvedores
Se você é desenvolvedor ou tem uma equipe técnica, um scraper personalizado oferecerá a máxima flexibilidade e controle:
- Puppeteer / Playwright (JavaScript/Node.js): Navegadores headless para scraping de sites complexos com JavaScript. Emulação completa de um navegador real, contornando a maioria dos sistemas anti-bot. Suporte embutido a proxies.
- Selenium (Python, Java, C#): Ferramenta clássica para automação de navegadores. Grande comunidade, muitas soluções prontas. Requer bibliotecas adicionais para modo stealth.
- Scrapy (Python): Framework poderoso para scraping. Assíncrono, rápido, escalável. Adequado para scraping de sites simples sem JavaScript complexo. Integra-se facilmente com proxies.
- BeautifulSoup + Requests (Python): Biblioteca simples para scraping de HTML. Adequada para iniciantes e tarefas simples. Não funciona com sites JavaScript.
Para scraping do Cian e Avito, recomendamos: Puppeteer Stealth ou Playwright — eles contornam melhor os sistemas anti-bot modernos devido à emulação completa de um navegador real.
Dicas práticas: como evitar bloqueios
Vamos resumir todas as recomendações em forma de checklist para scraping imobiliário estável sem bloqueios:
Checklist de configuração do scraper imobiliário
✅ Escolha de proxies:
- Para Cian, Avito — apenas proxies residenciais
- Pool de pelo menos 20-50 IPs para distribuição de carga
- Proxies da região correta (Moscovo para anúncios de Moscovo)
- Verificação da funcionalidade de todos os IPs antes do início
✅ Configuração da rotação:
- Rotação por tempo: 10-15 minutos para Cian, 8-12 minutos para Avito
- Rotação por requisições: 80-100 para Cian, 50-70 para Avito
- Manutenção de cookies para cada IP separadamente
- Atrasos aleatórios entre requisições: 2-5 segundos
✅ Emulação do navegador:
- Uso de um navegador headless com modo stealth
- User-Agent aleatório da lista de navegadores populares
- Cabeçalhos corretos: Accept-Language, Referer, Accept-Encoding
- Execução de JavaScript, carregamento de imagens
- Emulação de rolagem e movimentos do mouse (para Cian)
✅ Tratamento de erros:
- Solução automática de CAPTCHAs através de 2Captcha ou Anti-Captcha
- Tentativas repetidas em caso de erros (máximo 3 tentativas)
- Registro de IPs bloqueados e exclusão do pool
- Monitoramento da taxa de sucesso das requisições (deve ser > 95%)
✅ Otimização de desempenho:
- Scraping paralelo: 3-5 threads com diferentes IPs simultaneamente
- Cache de anúncios já coletados (verificação por ID)
- Scraping durante a noite (menor carga no site, menos verificações)
- Atualização regular da lista de proxies (uma vez por semana)
Erros típicos ao fazer scraping imobiliário
Evite esses erros comuns que levam a bloqueios:
- Uso de proxies gratuitos: Eles já estão bloqueados em 99% dos sites, são lentos e não confiáveis. Economizar em proxies resultará em perda de tempo e dados.
- Requisições muito rápidas: Atraso de menos de 1 segundo entre requisições — sinal claro de bot. Mesmo com proxies, você receberá um bloqueio.
- User-Agent idêntico para todos os IPs: Se 50 IPs diferentes usam o mesmo User-Agent raro — isso é suspeito. Rotacione o User-Agent junto com o IP.
- Desconsideração da vinculação regional: Scraping de anúncios de Ekaterinburgo com IP de Moscovo parece estranho. Use proxies da região correta.
- Falta de tratamento de CAPTCHA: Mesmo com configurações corretas, CAPTCHA pode aparecer. Sem resolução automática, o scraper será interrompido.
- Scraping em horário de pico: Das 10:00 às 20:00, os sites têm pico de atividade e máxima vigilância dos sistemas anti-bot. Faça scraping à noite ou de manhã cedo.
Monitoramento e análise do scraping
Configure o monitoramento de métricas-chave para controlar a qualidade do scraping:
| Métrica | Valor normal | Problema |
|---|---|---|
| Taxa de sucesso das requisições | > 95% | < 90% — problemas com proxies ou bloqueios |
| Tempo médio de resposta | 1-3 segundos | > 5 segundos — proxies lentos, necessidade de substituição |
| Frequência de CAPTCHA | < 5% | > 10% — scraping muito agressivo, aumente os atrasos |
| IPs bloqueados | < 2% do pool | > 5% — problema com a qualidade dos proxies ou configurações |
| Anúncios coletados por hora | 500-2000 (dependendo das configurações) | < 100 — muito lento, otimize os atrasos |
Analise regularmente os logs do scraper, monitore os IPs bloqueados, otimize as configurações com base nas estatísticas. O scraping não é "configure e esqueça", mas um processo contínuo de monitoramento e melhoria.
Conclusão
O scraping de dados imobiliários do Cian, Avito e outras plataformas é uma tarefa complexa que requer a escolha correta de proxies, configuração adequada de rotação e emulação do comportamento real do usuário. Sem proxies de qualidade, a coleta estável de grandes volumes de dados é impossível — seu IP será bloqueado em apenas 10-15 minutos de operação.
Principais conclusões deste guia:
- Para scraping de sites protegidos (Cian, Avito), use apenas proxies residenciais — data centers são bloqueados em 90% dos casos
- Configure a rotação de IP a cada 10-15 minutos ou 80-100 requisições para distribuir a carga
- Emule um usuário real: atrasos aleatórios, cabeçalhos corretos, execução de JavaScript
- Use proxies da região correta para scraping de anúncios regionais
- Monitore as métricas de scraping e otimize as configurações com base nas estatísticas
Se você planeja se dedicar profissionalmente ao scraping imobiliário ou coletar dados para análise de mercado, recomendamos experimentar proxies residenciais — eles oferecem máxima anonimidade, estabilidade e mínimo risco de bloqueios. Para tarefas com proteção especialmente rigorosa, proxies móveis com IPs de operadoras russas são uma boa opção.
A configuração correta de proxies e do scraper permitirá que você colete dezenas de milhares de anúncios diariamente, monitore a dinâmica de preços, analise o mercado imobiliário e tome decisões de investimento informadas — sem bloqueios, CAPTCHA e perda de dados.