Il parsing dei siti immobiliari è un compito critico per agenti immobiliari, investitori e analisti di mercato. Cian, Avito, CIAN e altre piattaforme bloccano attivamente la raccolta automatica di dati, utilizzando sistemi anti-bot avanzati. Senza proxy configurati correttamente, il tuo IP verrà bloccato dopo 50-100 richieste, e perderai l'accesso a informazioni preziose sui prezzi, annunci e dinamiche di mercato.
In questa guida scoprirai come scegliere i proxy adatti per il parsing immobiliare, impostare la rotazione degli indirizzi IP, bypassare la protezione delle principali piattaforme e raccogliere dati in modo stabile, senza blocchi e captcha.
Perché i siti immobiliari bloccano il parsing
Le grandi piattaforme immobiliari — Cian, Avito, Yandex.Nedvizhimost, CIAN — perdono milioni di rubli a causa del parsing dei loro dati da parte di concorrenti e aggregatori. Per questo motivo, hanno implementato una protezione multilivello contro la raccolta automatica di informazioni.
Principali metodi di blocco dei parser:
- Limiti per indirizzo IP: Cian blocca l'IP dopo 80-120 richieste all'ora, Avito — dopo 50-70 richieste. Questo rende impossibile raccogliere grandi volumi di dati da un solo IP.
- Fingerprinting del browser: I siti analizzano gli header HTTP, User-Agent, risoluzione dello schermo, font installati e altri parametri. Se sembrano sospetti (ad esempio, mancano cookies o JavaScript), la richiesta viene bloccata.
- Analisi comportamentale: I sistemi anti-bot monitorano la velocità delle richieste, i modelli di navigazione, i movimenti del mouse. Azioni troppo veloci o ripetitive suscitano sospetti.
- Cloudflare e Datadome: Molti siti utilizzano sistemi di protezione avanzati che controllano il TLS-fingerprint, WebGL, Canvas e altri parametri tecnici del browser.
Senza proxy, ti troverai di fronte a un blocco già dopo pochi minuti di parsing attivo. Il tuo IP verrà inserito nella blacklist per 24-48 ore, e non potrai nemmeno aprire il sito in un normale browser. Per una raccolta professionale di dati, i proxy non sono un'opzione, ma un requisito obbligatorio.
Esempio reale: Un'agenzia immobiliare a Mosca raccoglieva dati sui prezzi degli appartamenti da Cian per l'analisi di mercato. Senza proxy, il loro IP veniva bloccato dopo aver raccolto 200-300 annunci (circa 15 minuti di lavoro del parser). Dopo aver implementato proxy residenziali con rotazione ogni 10 minuti, raccolgono oltre 50.000 annunci al giorno senza un singolo blocco.
Quali tipi di proxy sono adatti per la raccolta di dati immobiliari
Per il parsing immobiliare vengono utilizzati tre tipi principali di proxy. La scelta dipende dall'entità del compito, dal budget e dal livello di protezione del sito target.
| Tipo di proxy | Vantaggi | Svantaggi | Per quali compiti |
|---|---|---|---|
| Proxy residenziali | IP reali di utenti domestici, massima anonimato, minimo rischio di blocchi, bypass di Cloudflare | Prezzo elevato (da $7-15 per 1 GB), velocità inferiore rispetto ai data center | Parsing di Cian, Avito, CIAN con alto livello di protezione, raccolta di grandi volumi di dati |
| Proxy di data center | Alta velocità (fino a 1 Gbps), basso costo ($1-3 per IP al mese), connessione stabile | Facilmente identificabili dai sistemi anti-bot, alto rischio di blocchi su siti protetti | Parsing di piccoli siti senza protezione, test del parser, raccolta di dati da API |
| Proxy mobili | IP di operatori mobili (MTS, Beeline, MegaFon), difficile da bloccare, alta fiducia dei siti | Prezzo più alto ($50-150 al mese per IP), IP dinamici (cambiano ogni 10-30 minuti) | Bypass della protezione più severa, parsing dalle versioni mobili dei siti, compiti critici |
Raccomandazione per la maggior parte dei compiti: Per il parsing di Cian, Avito e altre grandi piattaforme immobiliari, la scelta ottimale è rappresentata dai proxy residenziali. Offrono un equilibrio tra costo, velocità e livello di anonimato. I proxy di data center sono adatti solo per piccoli volumi o siti senza protezione.
Proxy residenziali vs data center: cosa scegliere per il parsing
Analizziamo in dettaglio quando utilizzare ciascun tipo di proxy per il parsing immobiliare, con esempi concreti.
Quando utilizzare proxy residenziali
I proxy residenziali sono indirizzi IP di veri utenti domestici, forniti da fornitori di servizi Internet (Rostelecom, MTS, Beeline). Per i siti, sembrano visitatori normali, il che li rende praticamente impossibili da bloccare.
Utilizza proxy residenziali per:
- Parsing di Cian: La protezione più severa tra i siti immobiliari russi. Blocca i data center dopo 30-50 richieste. Con i proxy residenziali è possibile effettuare 500-1000 richieste da un solo IP senza blocchi.
- Parsing di Avito: Utilizza Cloudflare e analisi comportamentale. I proxy residenziali bypassano i controlli del TLS-fingerprint e del JavaScript-challenge.
- Raccolta di grandi volumi di dati: Se è necessario raccogliere 10.000+ annunci al giorno, i proxy residenziali sono l'unica opzione affidabile.
- Progetti a lungo termine: Quando il parsing avviene per mesi, la stabilità è importante. I proxy residenziali raramente vengono inseriti nelle blacklist.
Esempio di configurazione per Cian:
Utilizza un pool di 50-100 IP residenziali con rotazione ogni 5-10 minuti. Imposta un ritardo tra le richieste di 2-5 secondi (valore casuale). Emula un utente reale: carica immagini, esegui JavaScript, invia header User-Agent realistici. Con queste impostazioni, puoi raccogliere 20.000-30.000 annunci al giorno senza un singolo blocco.
Quando sono adatti i proxy di data center
I proxy di data center sono indirizzi IP di server in data center (Hetzner, OVH, DigitalOcean). Sono 5-10 volte più economici dei residenziali, ma facilmente identificabili dai sistemi anti-bot tramite database di range IP.
Utilizza i data center per:
- Parsing di piccoli siti regionali: Agenzie immobiliari locali, bacheche di annunci senza protezione avanzata.
- Testing del parser: Debug del codice, verifica della logica di funzionamento prima del lancio su proxy residenziali.
- Parsing API: Se il sito fornisce un'API ufficiale per i partner, i data center possono gestire il compito.
- Budget limitato: Se è necessario raccogliere un piccolo volume di dati (1000-2000 annunci) e si è disposti a rischiare blocchi.
Importante: Non utilizzare data center per il parsing di Cian, Avito, Yandex.Nedvizhimost. Riceverai un blocco dell'IP entro 10-15 minuti, e perderai tempo e denaro inutilmente. Per questi siti, i proxy residenziali sono l'unica opzione funzionante.
Impostazione della rotazione degli indirizzi IP per un parsing stabile
La rotazione degli IP è il cambio automatico del server proxy a intervalli di tempo o dopo un certo numero di richieste. Una corretta impostazione della rotazione è fondamentale per evitare blocchi.
Strategie di rotazione degli indirizzi IP
Esistono tre strategie principali di rotazione, ognuna adatta a diversi scenari di parsing immobiliare:
| Strategia | Descrizione | Quando utilizzare | Impostazioni |
|---|---|---|---|
| Rotazione temporale | L'IP cambia ogni N minuti (5, 10, 15 minuti) | Parsing di Cian, Avito — siti con limiti severi nel tempo |
Cian: 10-15 minuti Avito: 8-12 minuti CIAN: 5-10 minuti |
| Rotazione per richieste | L'IP cambia dopo N richieste (50, 100, 200 richieste) | Siti con limiti sul numero di richieste da un solo IP |
Cian: 80-100 richieste Avito: 50-70 richieste Siti regionali: 200-500 richieste |
| Rotazione per ogni richiesta | Ogni richiesta passa attraverso un nuovo IP dal pool | Massima anonimato, raccolta di dati critici | Richiede un grande pool di IP (100+), costo elevato, adatto per siti particolarmente protetti |
Raccomandazione per il parsing immobiliare: Utilizza una strategia combinata — rotazione temporale (10 minuti) E per richieste (100 richieste). L'IP cambia quando viene soddisfatta una delle condizioni. Questo garantisce la massima protezione contro i blocchi.
Impostazione passo-passo della rotazione nei principali strumenti
La maggior parte dei moderni parser e scraper supportano la rotazione automatica dei proxy. Ecco come impostarla nei principali strumenti:
Esempio di impostazione della rotazione (concettualmente):
1. Crea un elenco di proxy (file proxies.txt):
123.45.67.89:8000:username:password
234.56.78.90:8000:username:password
345.67.89.01:8000:username:password
2. Imposta i parametri di rotazione:
- Intervallo di rotazione: 10 minuti
- O dopo 100 richieste
- Ritardo casuale tra le richieste: 2-5 secondi
3. Attiva l'emulazione di un browser reale:
- User-Agent: casuale da un elenco di browser popolari
- Accept-Language: it-IT,it;q=0.9,en;q=0.8
- Referer: pagina principale del sito o motore di ricerca
- Cookies: conserva tra le richieste da un solo IP
Importanti dettagli per l'impostazione della rotazione:
- Dimensione del pool di proxy: Per un parsing stabile di Cian è necessario un pool di almeno 20-30 IP. Per Avito — 30-50 IP. Maggiore è il pool, minore è il carico su ogni IP.
- Conservazione dei cookies: Non resettare i cookies quando cambi IP — questo appare sospetto. Ogni IP deve avere il proprio set di cookies, che viene conservato tra le richieste.
- Geolocalizzazione dei proxy: Per il parsing di annunci regionali utilizza proxy della stessa città. Ad esempio, per raccogliere dati immobiliari a San Pietroburgo — proxy con IP di San Pietroburgo.
- Verifica della funzionalità: Prima di avviare il parsing, verifica tutti i proxy per la funzionalità. Rimuovi dall'elenco gli IP bloccati o lenti (ping > 500 ms).
Come bypassare i sistemi anti-bot di Cian, Avito e CIAN
I siti immobiliari moderni utilizzano protezioni multilivello contro i bot. I proxy da soli non sono sufficienti — è necessario emulare il comportamento di un utente reale. Analizziamo come bypassare la protezione di ciascuna grande piattaforma.
Bypass della protezione di Cian
Cian è la piattaforma immobiliare più protetta in Russia. Utilizza una combinazione di Cloudflare, un proprio sistema anti-bot e machine learning per identificare i parser.
Cosa controlla Cian:
- TLS-fingerprint: Un'impronta unica della connessione SSL/TLS. Cian identifica gli strumenti automatizzati (Selenium, Puppeteer) tramite parametri TLS non standard.
- JavaScript-challenge: Al primo accesso, Cloudflare esegue un controllo JavaScript. Se il browser non esegue JS o lo fa in modo errato — blocco.
- Canvas e WebGL fingerprinting: Cian legge l'impronta unica del motore grafico del browser. Impronte identiche da IP diversi — segno di un bot.
- Analisi comportamentale: Velocità di scrolling, movimenti del mouse, tempo sulla pagina, modelli di clic. Azioni troppo veloci o meccaniche suscitano sospetti.
Come bypassare la protezione di Cian:
- Utilizza proxy residenziali: Solo loro possono bypassare stabilmente Cloudflare. I data center vengono bloccati nel 90% dei casi.
- Emula un browser reale: Utilizza librerie con supporto per browser completi (Playwright, Puppeteer Stealth). Esse emulano il TLS-fingerprint, Canvas, WebGL di Chrome/Firefox reale.
- Imposta ritardi: Tra le richieste — 3-7 secondi (valore casuale). Prima di un clic — 0.5-2 secondi. Imitare la lettura dell'annuncio — ritardo di 10-20 secondi sulla pagina dell'annuncio.
- Rotazione dell'User-Agent: Utilizza un elenco di User-Agent reali di browser popolari (Chrome 120+, Firefox 121+, Safari 17+). Cambia l'User-Agent insieme all'IP.
- Gestisci il captcha: Anche con i proxy, Cian può mostrare un captcha in caso di attività sospette. Utilizza servizi di risoluzione captcha (2Captcha, Anti-Captcha) o riduci l'intensità del parsing.
Consiglio: Per il parsing di Cian, ti consigliamo di utilizzare browser headless in modalità stealth (nascondere i segni di automazione). Imposta ritardi casuali, emula il movimento del mouse, lo scrolling. Ruota gli IP ogni 10 minuti o 80-100 richieste. Con queste impostazioni, il tasso di successo del parsing è del 95-98%.
Bypass della protezione di Avito
Avito utilizza Cloudflare e un proprio sistema di identificazione dei bot. La protezione è leggermente più debole rispetto a Cian, ma richiede comunque una corretta configurazione dei proxy e dell'emulazione del browser.
Caratteristiche della protezione di Avito:
- Limite di 50-70 richieste per IP: Dopo aver superato il limite, Avito mostra un captcha o blocca temporaneamente l'IP per 1-2 ore.
- Controllo del Referer: Avito verifica da dove proviene l'utente. L'assenza di Referer o una fonte sospetta sono motivi di blocco.
- Analisi della velocità delle richieste: Se le richieste arrivano più velocemente di 1-2 secondi — è un chiaro segno di un bot.
- Vincolo regionale: Avito verifica la corrispondenza dell'indirizzo IP con la città selezionata. Se l'IP è di Mosca, ma stai visualizzando annunci di Vladivostok — è sospetto.
Impostazioni per bypassare la protezione di Avito:
- Proxy residenziali della regione desiderata: Per il parsing degli annunci di Novosibirsk, utilizza proxy con IP di Novosibirsk o regioni vicine.
- Rotazione ogni 8-12 minuti o 50 richieste: Non superare il limite di richieste da un solo IP.
- Referer corretto: Imposta il Referer come se fossi arrivato dalla ricerca di Yandex o Google:
https://yandex.ru/search/?text=comprare appartamento - Ritardo di 2-4 secondi tra le richieste: Valore casuale, per evitare intervalli uniformi.
- Conservazione dei cookies e sessione: Avito tiene traccia della sessione dell'utente. Conserva i cookies tra le richieste da un solo IP.
Bypass della protezione di CIAN e altre piattaforme
CIAN, Yandex.Nedvizhimost, Domofond e altre piattaforme hanno una protezione più debole rispetto a Cian e Avito. Per loro sono sufficienti impostazioni di base:
- Proxy residenziali con rotazione ogni 15-20 minuti
- Ritardo di 1-3 secondi tra le richieste
- User-Agent realistico e header di base
- Gestione di captcha rari (si presentano nel 5-10% dei casi)
Strumenti per il parsing immobiliare con supporto proxy
Per il parsing dei siti immobiliari vengono utilizzate sia soluzioni pronte che parser personalizzati. La scelta dipende dalle competenze tecniche, dal budget e dall'entità del compito.
Servizi di parsing pronti (senza programmazione)
Se non sei uno sviluppatore, utilizza servizi pronti con interfaccia visiva e supporto integrato per i proxy:
- Octoparse: Costruttore visivo di parser con drag-and-drop. Supporta proxy, JavaScript, captcha. Ci sono modelli pronti per siti popolari. Prezzo a partire da $75/mese.
- ParseHub: Piano gratuito per 200 pagine, piani a pagamento a partire da $149/mese. Supporto per proxy, AJAX, infinite scroll. Adatto per il parsing di Avito e siti regionali.
- Apify: Piattaforma cloud per il web scraping. Immensa libreria di attori (parser) pronti per diversi siti. Rotazione proxy integrata. Da $49/mese.
- Bright Data (ex Luminati): Soluzione professionale con una propria rete di proxy. Strumenti integrati per il parsing, bypass di captcha, emulazione del browser. Da $500/mese.
Raccomandazione: Per principianti e piccoli progetti, Octoparse o ParseHub sono adatti. Per il parsing professionale di grandi volumi — Apify o Bright Data.
Librerie per sviluppatori
Se sei uno sviluppatore o hai un team tecnico, un parser personalizzato offrirà la massima flessibilità e controllo:
- Puppeteer / Playwright (JavaScript/Node.js): Browser headless per il parsing di siti complessi con JavaScript. Completa emulazione di un browser reale, bypass della maggior parte dei sistemi anti-bot. Supporto integrato per proxy.
- Selenium (Python, Java, C#): Strumento classico per l'automazione del browser. Grande comunità, molte soluzioni pronte. Richiede librerie aggiuntive per la modalità stealth.
- Scrapy (Python): Potente framework per il parsing. Asincrono, veloce, scalabile. Adatto per il parsing di siti semplici senza complesso JavaScript. Si integra facilmente con i proxy.
- BeautifulSoup + Requests (Python): Libreria semplice per il parsing di HTML. Adatta per principianti e compiti semplici. Non funziona con siti JavaScript.
Per il parsing di Cian e Avito, ti consigliamo: Puppeteer Stealth o Playwright — sono i migliori per bypassare i moderni sistemi anti-bot grazie alla completa emulazione di un browser reale.
Consigli pratici: come evitare i blocchi
Riassumiamo tutte le raccomandazioni in un elenco di controllo per un parsing immobiliare stabile senza blocchi:
Elenco di controllo per la configurazione del parser immobiliare
✅ Scelta dei proxy:
- Per Cian, Avito — solo proxy residenziali
- Pool di almeno 20-50 IP per distribuire il carico
- Proxy della regione desiderata (Mosca per gli annunci di Mosca)
- Verifica della funzionalità di tutti gli IP prima del lancio
✅ Impostazione della rotazione:
- Rotazione temporale: 10-15 minuti per Cian, 8-12 minuti per Avito
- Rotazione per richieste: 80-100 per Cian, 50-70 per Avito
- Conservazione dei cookies per ogni IP separatamente
- Ritardi casuali tra le richieste: 2-5 secondi
✅ Emulazione del browser:
- Utilizzo di un browser headless con modalità stealth
- User-Agent casuale da un elenco di browser popolari
- Header corretti: Accept-Language, Referer, Accept-Encoding
- Esecuzione di JavaScript, caricamento di immagini
- Emulazione dello scrolling e dei movimenti del mouse (per Cian)
✅ Gestione degli errori:
- Risoluzione automatica dei captcha tramite 2Captcha o Anti-Captcha
- Ripetizioni in caso di errori (massimo 3 tentativi)
- Registrazione degli IP bloccati ed esclusione dal pool
- Monitoraggio del tasso di successo delle richieste (dovrebbe essere > 95%)
✅ Ottimizzazione delle prestazioni:
- Parsing parallelo: 3-5 thread con IP diversi contemporaneamente
- Cache degli annunci già raccolti (verifica per ID)
- Parsing durante la notte (minore carico sul sito, meno controlli)
- Aggiornamento regolare dell'elenco dei proxy (una volta a settimana)
Errori comuni durante il parsing immobiliare
Evita questi errori comuni che portano a blocchi:
- Utilizzo di proxy gratuiti: Sono già bloccati nel 99% dei siti, lenti e inaffidabili. Risparmiare sui proxy porterà a una perdita di tempo e dati.
- Richieste troppo veloci: Ritardo inferiore a 1 secondo tra le richieste — chiaro segno di un bot. Anche con i proxy, riceverai un blocco.
- Stesso User-Agent per tutti gli IP: Se 50 IP diversi utilizzano lo stesso User-Agent raro — è sospetto. Ruota l'User-Agent insieme all'IP.
- Ignorare il vincolo regionale: Parsing di annunci di Ekaterinburg con IP di Mosca appare strano. Utilizza proxy della regione desiderata.
- Assenza di gestione del captcha: Anche con impostazioni corrette, il captcha può apparire. Senza risoluzione automatica, il parser si fermerà.
- Parsing durante le ore di punta: Dalle 10:00 alle 20:00 i siti hanno un picco di attività e la massima vigilanza dei sistemi anti-bot. Esegui il parsing di notte o presto al mattino.
Monitoraggio e analisi del parsing
Imposta il monitoraggio delle metriche chiave per controllare la qualità del parsing:
| Metrica | Valore normale | Problema |
|---|---|---|
| Tasso di successo delle richieste | > 95% | < 90% — problemi con i proxy o blocchi |
| Tempo medio di risposta | 1-3 secondi | > 5 secondi — proxy lenti, necessaria sostituzione |
| Frequenza del captcha | < 5% | > 10% — parsing troppo aggressivo, aumenta i ritardi |
| IP bloccati | < 2% del pool | > 5% — problema con la qualità dei proxy o impostazioni |
| Annunci raccolti all'ora | 500-2000 (dipende dalle impostazioni) | < 100 — troppo lento, ottimizza i ritardi |
Analizza regolarmente i log del parser, monitora gli IP bloccati, ottimizza le impostazioni in base alle statistiche. Il parsing non è "configura e dimentica", ma un processo continuo di monitoraggio e miglioramento.
Conclusione
Il parsing dei dati immobiliari da Cian, Avito e altre piattaforme è un compito complesso che richiede la scelta corretta dei proxy, una configurazione adeguata della rotazione e l'emulazione del comportamento reale dell'utente. Senza proxy di qualità, la raccolta stabile di grandi volumi di dati è impossibile: il tuo IP verrà bloccato già dopo 10-15 minuti di attività.
Le principali conclusioni di questa guida:
- Per il parsing di siti protetti (Cian, Avito) utilizza solo proxy residenziali — i data center vengono bloccati nel 90% dei casi
- Imposta la rotazione degli IP ogni 10-15 minuti o 80-100 richieste per distribuire il carico
- Emula un utente reale: ritardi casuali, header corretti, esecuzione di JavaScript
- Utilizza proxy della regione desiderata per il parsing di annunci regionali
- Monitora le metriche di parsing e ottimizza le impostazioni in base alle statistiche
Se intendi dedicarti professionalmente al parsing immobiliare o raccogliere dati per l'analisi di mercato, ti consigliamo di provare proxy residenziali — offrono la massima anonimato, stabilità e minimo rischio di blocchi. Per compiti con protezione particolarmente severa, sono adatti proxy mobili con IP di operatori russi.
Una corretta configurazione dei proxy e del parser ti permetterà di raccogliere decine di migliaia di annunci ogni giorno, monitorare la dinamica dei prezzi, analizzare il mercato immobiliare e prendere decisioni di investimento informate — senza blocchi, captcha e perdita di dati.