Proxy per bypassare DataDome: quali tipi funzionano nel 2024

```html

Hai configurato il parser, hai avviato la raccolta dei dati — e dopo pochi minuti ricevi una pagina con un captcha o una risposta vuota. È probabile che il sito sia protetto da DataDome. Questo è uno dei sistemi anti-bot più aggressivi sul mercato, e i normali proxy dei data center non aiutano qui. In questo articolo analizzeremo come DataDome identifica i bot e quali tipi di proxy danno risultati.

Che cos'è DataDome e dove viene utilizzata

DataDome è una piattaforma SaaS commerciale di protezione dai bot, utilizzata da grandi negozi online, portali di notizie, marketplace e servizi di prenotazione in tutto il mondo. L'azienda è stata fondata nel 2015 e attualmente protegge migliaia di siti con un pubblico totale di miliardi di richieste al giorno.

Tra i clienti di DataDome ci sono piattaforme come Reddit, Foot Locker, Rakuten, AngelList e molti altri grandi servizi. Se ti occupi di monitoraggio dei prezzi dei concorrenti, parsing delle schede prodotto, raccolta di dati da marketplace esteri o aggregazione di notizie — è molto probabile che tu abbia già incontrato questo sistema.

Segni caratteristici che un sito è protetto da DataDome:

Una pagina con captcha appare dopo alcune richieste consecutive
Nella risposta del server è presente l'intestazione x-datadome-cid
Redirect al dominio geo.captcha-delivery.com
Risposta HTTP 403 o 429 per richieste frequenti da un singolo IP
JavaScript challenge al primo accesso (pagina di "verifica del browser")

DataDome opera in tempo reale: ogni richiesta in arrivo viene analizzata in millisecondi. Il sistema decide se consentire l'accesso all'utente, mostrare un captcha o bloccare — ancora prima che il server restituisca il contenuto principale della pagina. È per questo che bypassarlo è più difficile rispetto a semplici blocchi IP.

Come DataDome identifica i bot: meccanismi di protezione

Per capire quali proxy funzionano, è necessario capire cosa analizza DataDome. Il sistema utilizza un approccio multilivello: nessun fattore è l'unico criterio di blocco. La decisione viene presa sulla base di una combinazione di segnali.

1. Reputazione dell'indirizzo IP

La prima cosa che verifica DataDome è la reputazione dell'indirizzo IP attraverso database esterni e interni. Il sistema determina immediatamente se l'IP appartiene a un data center (AWS, Google Cloud, Hetzner, DigitalOcean), a un fornitore VPN o è un vero indirizzo domestico/mobile. Gli IP dei data center ricevono automaticamente un alto "punteggio di sospetto" anche prima dell'analisi del comportamento.

2. Analisi comportamentale

DataDome monitora i modelli di comportamento: velocità delle richieste, sequenza di navigazione delle pagine, tempo tra i clic, movimento del mouse (se presente JavaScript). Un utente reale fa pause, naviga su percorsi logici, a volte torna indietro. Un bot di solito fa richieste a intervalli costanti, su URL rigorosamente definiti, senza deviazioni "casuali".

3. JavaScript fingerprint

Se la richiesta avviene tramite un browser (o un browser headless come Puppeteer/Playwright), DataDome esegue uno script JavaScript che raccoglie il "fingerprint" dell'ambiente: versione del browser, font installati, risoluzione dello schermo, supporto WebGL, canvas fingerprint, presenza di plugin. I browser headless senza mascheramento aggiuntivo vengono facilmente identificati in base a parametri caratteristici.

4. Intestazioni HTTP

Vengono analizzate le intestazioni della richiesta: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua e altri. La discrepanza tra il dichiarato User-Agent e i reali parametri della richiesta è un forte segnale di bot.

5. Apprendimento automatico in tempo reale

Tutti i segnali raccolti vengono elaborati da un modello di ML, addestrato su un enorme insieme di dati di utenti reali e bot. Il modello viene costantemente aggiornato: ciò che funzionava un mese fa potrebbe non funzionare oggi. È per questo che le soluzioni statiche diventano rapidamente obsolete.

Perché i proxy dei data center non funzionano contro DataDome

Questa è la domanda più comune da parte di chi inizia a lavorare con siti protetti. I proxy dei data center sono economici, veloci, con un alto uptime. Sembrerebbe la scelta ideale per il parsing. Ma contro DataDome sono praticamente inutili.

La ragione è semplice: DataDome tiene e utilizza database ASN (sistemi autonomi) di tutti i principali fornitori di hosting. Quando una richiesta proviene da un indirizzo IP appartenente, ad esempio, a una sottorete di Amazon Web Services o OVH, il sistema gli assegna immediatamente lo stato di "sospetto". Anche se il tuo parser imita perfettamente il comportamento umano — l'IP del data center ti mette già in pericolo.

⚠️ È importante capire

I proxy dei data center sono ottimi per compiti in cui la protezione è debole o assente: parsing di dati aperti, lavoro con API senza sistemi anti-bot, test di velocità. Ma per i siti con DataDome, portano a un blocco nel 90%+ dei casi già nelle prime decine di richieste.

Un altro problema sono gli IP "bruciati". Se migliaia di utenti prima di te hanno utilizzato lo stesso indirizzo IP per attività di bot (e nei pool di data center economici questo è normale), DataDome ha già una storia negativa per questo indirizzo. Anche la prima richiesta da un tale IP potrebbe ricevere un blocco.

Proxy residenziali: strumento principale per bypassare DataDome

I proxy residenziali sono indirizzi IP che appartengono a veri utenti domestici di internet. Vengono forniti dai fornitori di servizi internet (Ростелеком, Comcast, Deutsche Telekom, ecc.) e dal punto di vista di DataDome sembrano come persone normali che sono a casa al computer.

È per questo che i proxy residenziali sono lo strumento di lavoro principale per il parsing di siti con DataDome. Superano il controllo iniziale sulla reputazione dell'IP, il che ti dà un "credito di fiducia" per il lavoro successivo.

Cosa considerare nella scelta dei proxy residenziali per DataDome

Parametro	Cosa è importante	Perché è critico
Tipo di rotazione	Rotazione per ogni richiesta o sessione di 5-30 minuti	DataDome monitora la storia degli IP — cambi frequenti sono sospetti
Geolocalizzazione	IP dal paese del sito target	Richiesta da un altro paese — segnale aggiuntivo di sospetto
Dimensione del pool	Milioni di IP, non migliaia	Un piccolo pool si "brucia" rapidamente — DataDome ricorda gli indirizzi attivi
Sticky sessions	Possibilità di mantenere un IP per 10-30 minuti	Per il parsing multi-pagina, una sessione deve apparire come un unico utente
Velocità	Non meno di 5-10 Mbps per connessione	Proxy lenti aumentano il tempo di richiesta, influenzando i tempi

Un punto importante: i proxy residenziali non garantiscono il 100% di bypass di DataDome da soli. Risolvono il problema della reputazione dell'IP, ma se il tuo parser fa 100 richieste al minuto da un singolo indirizzo o invia intestazioni errate — DataDome bloccherà comunque. L'IP è solo uno dei livelli di protezione.

Proxy mobili: quando è necessario il massimo della fiducia

I proxy mobili sono indirizzi IP di operatori mobili (reti 4G/5G). Hanno una caratteristica particolare: un singolo indirizzo IP di un operatore mobile può essere utilizzato contemporaneamente da migliaia di utenti reali tramite NAT. DataDome lo sa — e per questo tratta gli IP mobili con la massima fiducia.

Bloccare un IP mobile significa bloccare potenzialmente migliaia di clienti reali dell'operatore — nessun sito normale lo farebbe. È per questo che i proxy mobili offrono la percentuale più alta di richieste riuscite ai siti con DataDome.

Quando scegliere proxy mobili invece di proxy residenziali:

Il sito è molto aggressivamente protetto — i proxy residenziali portano a blocchi anche con bassa frequenza di richieste
Stai facendo parsing della versione mobile del sito — IP mobile + User-Agent mobile sembrano organici
È necessaria l'interazione con le applicazioni — se stai facendo parsing di un'API mobile, l'IP mobile corrisponde logicamente alla richiesta
Sessioni a lungo termine — i proxy mobili mantengono bene la sessione senza cambiare IP

Lo svantaggio dei proxy mobili è che sono più costosi dei proxy residenziali e di solito hanno un pool di IP più piccolo. Per il parsing su larga scala con migliaia di richieste all'ora, questo può diventare una limitazione. In tali casi, la strategia ottimale è utilizzare proxy mobili per "esplorazione" e pagine complesse, e proxy residenziali per la raccolta di dati massiva.

Strategia di rotazione e ritardi: come non farsi scoprire anche con buoni proxy

Anche con proxy residenziali o mobili si può ricevere un blocco se la strategia delle richieste non è impostata correttamente. DataDome analizza il comportamento a livello di sessione — e i modelli anomali suscitano sospetti indipendentemente dalla qualità dell'IP.

Regole per un parsing sicuro attraverso DataDome

✅ Checklist per un parsing sicuro

Ritardi tra le richieste: da 3 a 15 secondi (casuali, non fissi)
Non più di 20-30 richieste da un IP per sessione
Sticky session: mantieni un IP per un "percorso utente"
Inizia dalla homepage, poi passa agli URL target
Imita una navigazione reale: homepage → categoria → prodotto
Utilizza la geolocalizzazione del proxy che corrisponde alla lingua del sito
Cambia IP dopo ogni sessione o dopo un blocco
Non avviare richieste parallele da un singolo IP

Rotazione: quando cambiare IP

Non c'è una risposta universale — tutto dipende dal sito specifico. Ma la logica generale è questa: DataDome ricorda l'attività dell'IP in una finestra mobile (di solito 10-60 minuti). Se in quel lasso di tempo da un indirizzo arrivano troppe richieste sospette — l'IP riceve un ban temporaneo.

La strategia ottimale è ruotare gli IP non in base a un timer, ma al numero di richieste. Ad esempio: 15-25 richieste → cambio IP → pausa di 30-60 secondi → nuova sessione. Questo approccio imita il comportamento di diversi utenti, ognuno dei quali ha visitato alcune pagine e se n'è andato.

Intestazioni e fingerprint: cosa controlla ancora DataDome oltre all'IP

Buoni proxy sono una condizione necessaria, ma non sufficiente per bypassare DataDome. Il sistema analizza l'intera richiesta. Se l'IP è residenziale, ma le intestazioni rivelano un bot — il blocco si verificherà comunque.

Intestazioni critiche

Ecco cosa controlla DataDome nelle intestazioni HTTP e su cosa prestare attenzione:

Intestazione	Cosa viene controllato	Errore tipico
`User-Agent`	Versione attuale del browser	UA obsoleto o UA di librerie Python
`Accept-Language`	La lingua corrisponde alla geolocalizzazione del proxy	Proxy dagli Stati Uniti, ma lingua ru-RU
`sec-ch-ua`	Corrisponde a User-Agent	Assenza dell'intestazione con Chrome dichiarato
`Referer`	Catena di transizioni logica	Richiesta diretta a una pagina profonda senza Referer
`Accept-Encoding`	Set standard del browser	Assenza o set non standard
`Cookie`	Conservazione dei cookie di sessione di DataDome	Ignorare Set-Cookie di DataDome

Un'attenzione particolare va ai cookie di DataDome. Alla prima richiesta, il sistema imposta il suo cookie (di solito chiamato datadome). Se il tuo parser non conserva e non invia questo cookie nelle richieste successive — DataDome percepisce ogni richiesta come il primo accesso di un nuovo utente, il che è sospetto in caso di alta frequenza.

TLS fingerprint

La protezione avanzata di DataDome analizza anche il TLS fingerprint — le caratteristiche dell'handshake SSL/TLS. Diverse librerie HTTP (requests, curl, axios) hanno set caratteristici di cipher suites e estensioni TLS, che differiscono da quelli dei browser. Se utilizzi la libreria standard Python requests — il suo TLS fingerprint è facilmente identificabile. La soluzione è utilizzare librerie con imitazione del TLS del browser (ad esempio, curl-impersonate o soluzioni specializzate).

Strumenti per lavorare con i siti DataDome

La scelta corretta dello strumento per il parsing è altrettanto importante quanto la scelta del proxy. Diverse attività richiedono approcci diversi. Esaminiamo le principali opzioni in termini di compatibilità con DataDome.

Automazione del browser (Puppeteer, Playwright)

I browser headless teoricamente dovrebbero funzionare bene con DataDome, poiché eseguono JavaScript e formano un "fingerprint" "reale". Nella pratica, il Puppeteer o il Playwright standard vengono facilmente identificati in base a parametri caratteristici: navigator.webdriver = true, assenza di plugin, valori non standard di WebGL. Per bypassare è necessaria una mascheratura aggiuntiva tramite plugin come puppeteer-extra-plugin-stealth.

Browser anti-detect

Per compiti in cui è necessaria un'interazione completa con il sito (non solo parsing, ma anche interazione), i browser anti-detect sono la scelta ottimale. Dolphin Anty, AdsPower, GoLogin e Multilogin creano profili di browser completi con fingerprint realistici. In combinazione con proxy residenziali o mobili, offrono il massimo livello di bypass di DataDome.

Lo schema di connessione in un browser anti-detect è standard: crei un profilo → nelle impostazioni del proxy indichi il tipo (HTTP/SOCKS5), host, porta, nome utente e password del servizio proxy → avvii il profilo. Ogni profilo funziona in un ambiente isolato con un fingerprint unico.

Servizi di parsing specializzati

Esistono servizi pronti (ScrapingBee, Apify, Bright Data Scraping Browser) che si occupano di tutto il lavoro di bypass delle protezioni — tu semplicemente fornisci l'URL e ricevi l'HTML. Utilizzano i propri pool di proxy residenziali e risolvono automaticamente i captcha. Lo svantaggio è l'alto costo per grandi volumi e minore controllo sul processo.

Confronto degli approcci

Strumento	Efficacia contro DataDome	Difficoltà di configurazione	Scalabilità
Parser HTTP + proxy residenziali	Media	Bassa	Alta
Puppeteer/Playwright + stealth + proxy	Alta	Media	Media
Browser anti-detect + proxy mobili	Molto alta	Bassa	Bassa
Servizi di parsing pronti	Alta	Molto bassa	Alta (costosa)
Proxy dei data center (qualsiasi strumento)	Molto bassa	—	—

Scenario pratico: monitoraggio dei prezzi su un sito protetto

Supponiamo che tu stia monitorando i prezzi dei concorrenti su un marketplace estero protetto da DataDome. Devi raccogliere dati su 5000 prodotti ogni 6 ore. Ecco lo schema ottimale:

Strumento: Playwright con plugin stealth (risolve automaticamente il JS challenge)
Proxy: Residenziali con rotazione, geolocalizzazione — paese del sito target
Sessione: Sticky per 15 minuti, 20 richieste per un IP
Intestazioni: User-Agent di Chrome attuale, corretto Accept-Language
Cookie: Conservazione e trasmissione dei cookie di DataDome tra le richieste di una sessione
Ritardi: Casuali da 4 a 12 secondi tra le richieste
Inizio della sessione: Iniziare sempre dalla homepage, poi passare ai prodotti

Con questa configurazione, il tasso di successo delle richieste è dell'85-95%, il che è più che sufficiente per un monitoraggio regolare. Il restante 5-15% — richiesta ripetuta tramite un altro IP.

Conclusione e raccomandazioni

DataDome è un sistema di protezione serio, ma non insormontabile. La chiave per lavorare con i siti protetti da essa è un approccio complessivo: il giusto tipo di proxy, intestazioni corrette, comportamento realistico e una strategia di rotazione ben pianificata.

Le principali conclusioni dell'articolo:

I proxy dei data center non funzionano contro DataDome — vengono bloccati a livello di reputazione IP
I proxy residenziali sono lo strumento di base per la maggior parte delle attività di parsing
I proxy mobili offrono la massima fiducia e sono adatti per siti protetti in modo aggressivo
Buoni proxy sono solo una parte della soluzione: intestazioni, cookie e comportamento sono altrettanto importanti
I browser anti-detect in combinazione con proxy di qualità offrono i migliori risultati
La strategia di rotazione e ritardi è critica — anche con proxy residenziali si può ricevere un ban durante un parsing aggressivo

Se ti occupi di monitoraggio dei prezzi, parsing delle schede prodotto o raccolta di dati da siti protetti da DataDome, ti consigliamo di iniziare con proxy residenziali — offrono un equilibrio ottimale tra qualità di bypass della protezione e costo. Per compiti che richiedono il massimo livello di fiducia da parte dei sistemi anti-bot, considera i proxy mobili — soprattutto se lavori con versioni mobili di siti o API di applicazioni mobili.