Hai configurato il parser, hai avviato la raccolta dei dati — e dopo pochi minuti ricevi una pagina con un captcha o una risposta vuota. È probabile che il sito sia protetto da DataDome. Questo è uno dei sistemi anti-bot più aggressivi sul mercato, e i normali proxy dei data center non aiutano qui. In questo articolo analizzeremo come DataDome identifica i bot e quali tipi di proxy danno risultati.
Che cos'è DataDome e dove viene utilizzata
DataDome è una piattaforma SaaS commerciale di protezione dai bot, utilizzata da grandi negozi online, portali di notizie, marketplace e servizi di prenotazione in tutto il mondo. L'azienda è stata fondata nel 2015 e attualmente protegge migliaia di siti con un pubblico totale di miliardi di richieste al giorno.
Tra i clienti di DataDome ci sono piattaforme come Reddit, Foot Locker, Rakuten, AngelList e molti altri grandi servizi. Se ti occupi di monitoraggio dei prezzi dei concorrenti, parsing delle schede prodotto, raccolta di dati da marketplace esteri o aggregazione di notizie — è molto probabile che tu abbia già incontrato questo sistema.
Segni caratteristici che un sito è protetto da DataDome:
- Una pagina con captcha appare dopo alcune richieste consecutive
- Nella risposta del server è presente l'intestazione
x-datadome-cid - Redirect al dominio
geo.captcha-delivery.com - Risposta HTTP 403 o 429 per richieste frequenti da un singolo IP
- JavaScript challenge al primo accesso (pagina di "verifica del browser")
DataDome opera in tempo reale: ogni richiesta in arrivo viene analizzata in millisecondi. Il sistema decide se consentire l'accesso all'utente, mostrare un captcha o bloccare — ancora prima che il server restituisca il contenuto principale della pagina. È per questo che bypassarlo è più difficile rispetto a semplici blocchi IP.
Come DataDome identifica i bot: meccanismi di protezione
Per capire quali proxy funzionano, è necessario capire cosa analizza DataDome. Il sistema utilizza un approccio multilivello: nessun fattore è l'unico criterio di blocco. La decisione viene presa sulla base di una combinazione di segnali.
1. Reputazione dell'indirizzo IP
La prima cosa che verifica DataDome è la reputazione dell'indirizzo IP attraverso database esterni e interni. Il sistema determina immediatamente se l'IP appartiene a un data center (AWS, Google Cloud, Hetzner, DigitalOcean), a un fornitore VPN o è un vero indirizzo domestico/mobile. Gli IP dei data center ricevono automaticamente un alto "punteggio di sospetto" anche prima dell'analisi del comportamento.
2. Analisi comportamentale
DataDome monitora i modelli di comportamento: velocità delle richieste, sequenza di navigazione delle pagine, tempo tra i clic, movimento del mouse (se presente JavaScript). Un utente reale fa pause, naviga su percorsi logici, a volte torna indietro. Un bot di solito fa richieste a intervalli costanti, su URL rigorosamente definiti, senza deviazioni "casuali".
3. JavaScript fingerprint
Se la richiesta avviene tramite un browser (o un browser headless come Puppeteer/Playwright), DataDome esegue uno script JavaScript che raccoglie il "fingerprint" dell'ambiente: versione del browser, font installati, risoluzione dello schermo, supporto WebGL, canvas fingerprint, presenza di plugin. I browser headless senza mascheramento aggiuntivo vengono facilmente identificati in base a parametri caratteristici.
4. Intestazioni HTTP
Vengono analizzate le intestazioni della richiesta: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua e altri. La discrepanza tra il dichiarato User-Agent e i reali parametri della richiesta è un forte segnale di bot.
5. Apprendimento automatico in tempo reale
Tutti i segnali raccolti vengono elaborati da un modello di ML, addestrato su un enorme insieme di dati di utenti reali e bot. Il modello viene costantemente aggiornato: ciò che funzionava un mese fa potrebbe non funzionare oggi. È per questo che le soluzioni statiche diventano rapidamente obsolete.
Perché i proxy dei data center non funzionano contro DataDome
Questa è la domanda più comune da parte di chi inizia a lavorare con siti protetti. I proxy dei data center sono economici, veloci, con un alto uptime. Sembrerebbe la scelta ideale per il parsing. Ma contro DataDome sono praticamente inutili.
La ragione è semplice: DataDome tiene e utilizza database ASN (sistemi autonomi) di tutti i principali fornitori di hosting. Quando una richiesta proviene da un indirizzo IP appartenente, ad esempio, a una sottorete di Amazon Web Services o OVH, il sistema gli assegna immediatamente lo stato di "sospetto". Anche se il tuo parser imita perfettamente il comportamento umano — l'IP del data center ti mette già in pericolo.
⚠️ È importante capire
I proxy dei data center sono ottimi per compiti in cui la protezione è debole o assente: parsing di dati aperti, lavoro con API senza sistemi anti-bot, test di velocità. Ma per i siti con DataDome, portano a un blocco nel 90%+ dei casi già nelle prime decine di richieste.
Un altro problema sono gli IP "bruciati". Se migliaia di utenti prima di te hanno utilizzato lo stesso indirizzo IP per attività di bot (e nei pool di data center economici questo è normale), DataDome ha già una storia negativa per questo indirizzo. Anche la prima richiesta da un tale IP potrebbe ricevere un blocco.
Proxy residenziali: strumento principale per bypassare DataDome
I proxy residenziali sono indirizzi IP che appartengono a veri utenti domestici di internet. Vengono forniti dai fornitori di servizi internet (Ростелеком, Comcast, Deutsche Telekom, ecc.) e dal punto di vista di DataDome sembrano come persone normali che sono a casa al computer.
È per questo che i proxy residenziali sono lo strumento di lavoro principale per il parsing di siti con DataDome. Superano il controllo iniziale sulla reputazione dell'IP, il che ti dà un "credito di fiducia" per il lavoro successivo.
Cosa considerare nella scelta dei proxy residenziali per DataDome
| Parametro | Cosa è importante | Perché è critico |
|---|---|---|
| Tipo di rotazione | Rotazione per ogni richiesta o sessione di 5-30 minuti | DataDome monitora la storia degli IP — cambi frequenti sono sospetti |
| Geolocalizzazione | IP dal paese del sito target | Richiesta da un altro paese — segnale aggiuntivo di sospetto |
| Dimensione del pool | Milioni di IP, non migliaia | Un piccolo pool si "brucia" rapidamente — DataDome ricorda gli indirizzi attivi |
| Sticky sessions | Possibilità di mantenere un IP per 10-30 minuti | Per il parsing multi-pagina, una sessione deve apparire come un unico utente |
| Velocità | Non meno di 5-10 Mbps per connessione | Proxy lenti aumentano il tempo di richiesta, influenzando i tempi |
Un punto importante: i proxy residenziali non garantiscono il 100% di bypass di DataDome da soli. Risolvono il problema della reputazione dell'IP, ma se il tuo parser fa 100 richieste al minuto da un singolo indirizzo o invia intestazioni errate — DataDome bloccherà comunque. L'IP è solo uno dei livelli di protezione.
Proxy mobili: quando è necessario il massimo della fiducia
I proxy mobili sono indirizzi IP di operatori mobili (reti 4G/5G). Hanno una caratteristica particolare: un singolo indirizzo IP di un operatore mobile può essere utilizzato contemporaneamente da migliaia di utenti reali tramite NAT. DataDome lo sa — e per questo tratta gli IP mobili con la massima fiducia.
Bloccare un IP mobile significa bloccare potenzialmente migliaia di clienti reali dell'operatore — nessun sito normale lo farebbe. È per questo che i proxy mobili offrono la percentuale più alta di richieste riuscite ai siti con DataDome.
Quando scegliere proxy mobili invece di proxy residenziali:
- Il sito è molto aggressivamente protetto — i proxy residenziali portano a blocchi anche con bassa frequenza di richieste
- Stai facendo parsing della versione mobile del sito — IP mobile + User-Agent mobile sembrano organici
- È necessaria l'interazione con le applicazioni — se stai facendo parsing di un'API mobile, l'IP mobile corrisponde logicamente alla richiesta
- Sessioni a lungo termine — i proxy mobili mantengono bene la sessione senza cambiare IP
Lo svantaggio dei proxy mobili è che sono più costosi dei proxy residenziali e di solito hanno un pool di IP più piccolo. Per il parsing su larga scala con migliaia di richieste all'ora, questo può diventare una limitazione. In tali casi, la strategia ottimale è utilizzare proxy mobili per "esplorazione" e pagine complesse, e proxy residenziali per la raccolta di dati massiva.
Strategia di rotazione e ritardi: come non farsi scoprire anche con buoni proxy
Anche con proxy residenziali o mobili si può ricevere un blocco se la strategia delle richieste non è impostata correttamente. DataDome analizza il comportamento a livello di sessione — e i modelli anomali suscitano sospetti indipendentemente dalla qualità dell'IP.
Regole per un parsing sicuro attraverso DataDome
✅ Checklist per un parsing sicuro
- Ritardi tra le richieste: da 3 a 15 secondi (casuali, non fissi)
- Non più di 20-30 richieste da un IP per sessione
- Sticky session: mantieni un IP per un "percorso utente"
- Inizia dalla homepage, poi passa agli URL target
- Imita una navigazione reale: homepage → categoria → prodotto
- Utilizza la geolocalizzazione del proxy che corrisponde alla lingua del sito
- Cambia IP dopo ogni sessione o dopo un blocco
- Non avviare richieste parallele da un singolo IP
Rotazione: quando cambiare IP
Non c'è una risposta universale — tutto dipende dal sito specifico. Ma la logica generale è questa: DataDome ricorda l'attività dell'IP in una finestra mobile (di solito 10-60 minuti). Se in quel lasso di tempo da un indirizzo arrivano troppe richieste sospette — l'IP riceve un ban temporaneo.
La strategia ottimale è ruotare gli IP non in base a un timer, ma al numero di richieste. Ad esempio: 15-25 richieste → cambio IP → pausa di 30-60 secondi → nuova sessione. Questo approccio imita il comportamento di diversi utenti, ognuno dei quali ha visitato alcune pagine e se n'è andato.
Intestazioni e fingerprint: cosa controlla ancora DataDome oltre all'IP
Buoni proxy sono una condizione necessaria, ma non sufficiente per bypassare DataDome. Il sistema analizza l'intera richiesta. Se l'IP è residenziale, ma le intestazioni rivelano un bot — il blocco si verificherà comunque.
Intestazioni critiche
Ecco cosa controlla DataDome nelle intestazioni HTTP e su cosa prestare attenzione:
| Intestazione | Cosa viene controllato | Errore tipico |
|---|---|---|
User-Agent |
Versione attuale del browser | UA obsoleto o UA di librerie Python |
Accept-Language |
La lingua corrisponde alla geolocalizzazione del proxy | Proxy dagli Stati Uniti, ma lingua ru-RU |
sec-ch-ua |
Corrisponde a User-Agent | Assenza dell'intestazione con Chrome dichiarato |
Referer |
Catena di transizioni logica | Richiesta diretta a una pagina profonda senza Referer |
Accept-Encoding |
Set standard del browser | Assenza o set non standard |
Cookie |
Conservazione dei cookie di sessione di DataDome | Ignorare Set-Cookie di DataDome |
Un'attenzione particolare va ai cookie di DataDome. Alla prima richiesta, il sistema imposta il suo cookie (di solito chiamato datadome). Se il tuo parser non conserva e non invia questo cookie nelle richieste successive — DataDome percepisce ogni richiesta come il primo accesso di un nuovo utente, il che è sospetto in caso di alta frequenza.
TLS fingerprint
La protezione avanzata di DataDome analizza anche il TLS fingerprint — le caratteristiche dell'handshake SSL/TLS. Diverse librerie HTTP (requests, curl, axios) hanno set caratteristici di cipher suites e estensioni TLS, che differiscono da quelli dei browser. Se utilizzi la libreria standard Python requests — il suo TLS fingerprint è facilmente identificabile. La soluzione è utilizzare librerie con imitazione del TLS del browser (ad esempio, curl-impersonate o soluzioni specializzate).
Strumenti per lavorare con i siti DataDome
La scelta corretta dello strumento per il parsing è altrettanto importante quanto la scelta del proxy. Diverse attività richiedono approcci diversi. Esaminiamo le principali opzioni in termini di compatibilità con DataDome.
Automazione del browser (Puppeteer, Playwright)
I browser headless teoricamente dovrebbero funzionare bene con DataDome, poiché eseguono JavaScript e formano un "fingerprint" "reale". Nella pratica, il Puppeteer o il Playwright standard vengono facilmente identificati in base a parametri caratteristici: navigator.webdriver = true, assenza di plugin, valori non standard di WebGL. Per bypassare è necessaria una mascheratura aggiuntiva tramite plugin come puppeteer-extra-plugin-stealth.
Browser anti-detect
Per compiti in cui è necessaria un'interazione completa con il sito (non solo parsing, ma anche interazione), i browser anti-detect sono la scelta ottimale. Dolphin Anty, AdsPower, GoLogin e Multilogin creano profili di browser completi con fingerprint realistici. In combinazione con proxy residenziali o mobili, offrono il massimo livello di bypass di DataDome.
Lo schema di connessione in un browser anti-detect è standard: crei un profilo → nelle impostazioni del proxy indichi il tipo (HTTP/SOCKS5), host, porta, nome utente e password del servizio proxy → avvii il profilo. Ogni profilo funziona in un ambiente isolato con un fingerprint unico.
Servizi di parsing specializzati
Esistono servizi pronti (ScrapingBee, Apify, Bright Data Scraping Browser) che si occupano di tutto il lavoro di bypass delle protezioni — tu semplicemente fornisci l'URL e ricevi l'HTML. Utilizzano i propri pool di proxy residenziali e risolvono automaticamente i captcha. Lo svantaggio è l'alto costo per grandi volumi e minore controllo sul processo.
Confronto degli approcci
| Strumento | Efficacia contro DataDome | Difficoltà di configurazione | Scalabilità |
|---|---|---|---|
| Parser HTTP + proxy residenziali | Media | Bassa | Alta |
| Puppeteer/Playwright + stealth + proxy | Alta | Media | Media |
| Browser anti-detect + proxy mobili | Molto alta | Bassa | Bassa |
| Servizi di parsing pronti | Alta | Molto bassa | Alta (costosa) |
| Proxy dei data center (qualsiasi strumento) | Molto bassa | — | — |
Scenario pratico: monitoraggio dei prezzi su un sito protetto
Supponiamo che tu stia monitorando i prezzi dei concorrenti su un marketplace estero protetto da DataDome. Devi raccogliere dati su 5000 prodotti ogni 6 ore. Ecco lo schema ottimale:
- Strumento: Playwright con plugin stealth (risolve automaticamente il JS challenge)
- Proxy: Residenziali con rotazione, geolocalizzazione — paese del sito target
- Sessione: Sticky per 15 minuti, 20 richieste per un IP
- Intestazioni: User-Agent di Chrome attuale, corretto Accept-Language
- Cookie: Conservazione e trasmissione dei cookie di DataDome tra le richieste di una sessione
- Ritardi: Casuali da 4 a 12 secondi tra le richieste
- Inizio della sessione: Iniziare sempre dalla homepage, poi passare ai prodotti
Con questa configurazione, il tasso di successo delle richieste è dell'85-95%, il che è più che sufficiente per un monitoraggio regolare. Il restante 5-15% — richiesta ripetuta tramite un altro IP.
Conclusione e raccomandazioni
DataDome è un sistema di protezione serio, ma non insormontabile. La chiave per lavorare con i siti protetti da essa è un approccio complessivo: il giusto tipo di proxy, intestazioni corrette, comportamento realistico e una strategia di rotazione ben pianificata.
Le principali conclusioni dell'articolo:
- I proxy dei data center non funzionano contro DataDome — vengono bloccati a livello di reputazione IP
- I proxy residenziali sono lo strumento di base per la maggior parte delle attività di parsing
- I proxy mobili offrono la massima fiducia e sono adatti per siti protetti in modo aggressivo
- Buoni proxy sono solo una parte della soluzione: intestazioni, cookie e comportamento sono altrettanto importanti
- I browser anti-detect in combinazione con proxy di qualità offrono i migliori risultati
- La strategia di rotazione e ritardi è critica — anche con proxy residenziali si può ricevere un ban durante un parsing aggressivo
Se ti occupi di monitoraggio dei prezzi, parsing delle schede prodotto o raccolta di dati da siti protetti da DataDome, ti consigliamo di iniziare con proxy residenziali — offrono un equilibrio ottimale tra qualità di bypass della protezione e costo. Per compiti che richiedono il massimo livello di fiducia da parte dei sistemi anti-bot, considera i proxy mobili — soprattutto se lavori con versioni mobili di siti o API di applicazioni mobili.