Você configurou o scraper, iniciou a coleta de dados — e após alguns minutos recebe uma página com captcha ou uma resposta vazia. É bem provável que o site esteja protegido pelo DataDome. Este é um dos sistemas anti-bot mais agressivos do mercado, e proxies comuns de data center não ajudam aqui. Neste artigo, vamos analisar como exatamente o DataDome detecta bots e quais tipos de proxies trazem resultados.
O que é DataDome e onde é aplicado
DataDome é uma plataforma SaaS comercial de proteção contra bots, utilizada por grandes lojas online, portais de notícias, marketplaces e serviços de reserva em todo o mundo. A empresa foi fundada em 2015 e atualmente protege milhares de sites com uma audiência total de bilhões de solicitações por dia.
Entre os clientes do DataDome estão plataformas como Reddit, Foot Locker, Rakuten, AngelList e muitos outros grandes recursos. Se você está envolvido no monitoramento de preços de concorrentes, scraping de páginas de produtos, coleta de dados de marketplaces estrangeiros ou agregação de notícias — é bem provável que você já tenha se deparado com esse sistema.
Características típicas de que um site está protegido pelo DataDome:
- Página com captcha aparece após várias solicitações consecutivas
- No retorno do servidor, há um cabeçalho
x-datadome-cid - Redirecionamento para o domínio
geo.captcha-delivery.com - Resposta HTTP 403 ou 429 em solicitações frequentes de um único IP
- Desafio JavaScript na primeira visita (página de "verificação do navegador")
O DataDome opera em tempo real: cada solicitação recebida é analisada em milissegundos. O sistema decide — permitir o usuário, mostrar captcha ou bloquear — ainda antes que o servidor entregue o conteúdo principal da página. É por isso que contorná-lo é mais difícil do que simples bloqueios de IP.
Como o DataDome identifica bots: mecanismos de proteção
Para entender quais proxies funcionam, é necessário entender o que exatamente o DataDome analisa. O sistema utiliza uma abordagem em múltiplas camadas — nenhum dos fatores é um critério único para bloqueio. A decisão é tomada com base em um conjunto de sinais.
1. Reputação do endereço IP
A primeira coisa que o DataDome verifica é a reputação do endereço IP em bancos de dados externos e internos. O sistema determina instantaneamente se o IP pertence a um data center (AWS, Google Cloud, Hetzner, DigitalOcean), provedor de VPN ou é um endereço residencial/móvel real. IPs de data center automaticamente recebem uma alta "pontuação de suspeita" antes mesmo da análise de comportamento.
2. Análise comportamental
O DataDome rastreia padrões de comportamento: velocidade das solicitações, sequência de páginas visitadas, tempo entre cliques, movimento do mouse (se houver JavaScript). Um usuário real faz pausas, navega por rotas lógicas, às vezes volta. Um bot geralmente faz solicitações em intervalos constantes, por URLs estritamente definidos, sem desvios "aleatórios".
3. JavaScript-fingerprint
Se a solicitação é feita através de um navegador (ou navegador headless como Puppeteer/Playwright), o DataDome executa um script JavaScript que coleta a "impressão digital" do ambiente: versão do navegador, fontes instaladas, resolução de tela, suporte a WebGL, canvas fingerprint, presença de plugins. Navegadores headless sem camuflagem adicional são facilmente identificáveis por parâmetros característicos.
4. Cabeçalhos HTTP
Os cabeçalhos da solicitação são analisados: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua e outros. A discrepância entre o User-Agent declarado e os parâmetros reais da solicitação é um forte sinal de bot.
5. Aprendizado de máquina em tempo real
Todos os sinais coletados são processados por um modelo de ML, que foi treinado em um enorme conjunto de dados sobre usuários reais e bots. O modelo é constantemente atualizado — o que funcionou há um mês pode deixar de funcionar hoje. É por isso que soluções estáticas rapidamente se tornam obsoletas.
Por que proxies de data center não funcionam contra DataDome
Esta é a pergunta mais comum de quem está começando a trabalhar com sites protegidos. Proxies de data center são baratos, rápidos e têm alta disponibilidade. À primeira vista, parecem a escolha ideal para scraping. Mas contra o DataDome, eles são praticamente inúteis.
A razão é simples: o DataDome mantém e utiliza bancos de dados ASN (sistemas autônomos) de todos os principais provedores de hospedagem. Quando uma solicitação chega de um endereço IP pertencente, por exemplo, a uma sub-rede da Amazon Web Services ou OVH, o sistema imediatamente atribui a ele o status de "suspeito". Mesmo que seu scraper imite perfeitamente o comportamento humano — um IP de data center já o coloca em risco.
⚠️ Importante entender
Proxies de data center são ótimos para tarefas onde a proteção é fraca ou inexistente: scraping de dados abertos, trabalho com APIs sem sistemas anti-bot, testes de velocidade. Mas para sites com DataDome, eles resultam em bloqueios em 90%+ dos casos já nas primeiras dezenas de solicitações.
Outro problema são os IPs "queimados". Se milhares de usuários antes de você usaram o mesmo endereço IP para atividades de bot (e em pools de data centers baratos isso é normal), o DataDome já tem um histórico negativo para esse endereço. Mesmo a primeira solicitação de um IP assim pode resultar em bloqueio.
Proxies residenciais: a principal ferramenta para contornar DataDome
Proxies residenciais são endereços IP que pertencem a usuários reais da internet. Eles são fornecidos por provedores de internet (Ростелеком, Comcast, Deutsche Telekom, etc.) e, do ponto de vista do DataDome, parecem como pessoas comuns sentadas em casa em frente ao computador.
É por isso que proxies residenciais são a principal ferramenta de trabalho para scraping de sites com DataDome. Eles passam pela verificação inicial de reputação do IP, o que lhe dá um "crédito de confiança" para trabalhos futuros.
O que considerar ao escolher proxies residenciais para DataDome
| Parâmetro | O que é importante | Por que isso é crítico |
|---|---|---|
| Tipo de rotação | Rotação a cada solicitação ou sessão de 5-30 minutos | O DataDome rastreia o histórico do IP — mudanças muito frequentes também são suspeitas |
| Geolocalização | IP do país do site-alvo | Solicitações de outro país — sinal adicional de suspeita |
| Tamanho do pool | Milhões de IPs, não milhares | Um pool pequeno se "queima" rapidamente — o DataDome memoriza endereços ativos |
| Sessões sticky | Capacidade de manter um IP por 10-30 minutos | Para scraping de múltiplas páginas, uma sessão deve parecer um único usuário |
| Velocidade | Não menos que 5-10 Mbps por conexão | Proxies lentos aumentam o tempo de solicitação, o que afeta os timings |
Um ponto importante: proxies residenciais não garantem 100% de contorno do DataDome por si só. Eles resolvem o problema da reputação do IP, mas se seu scraper faz 100 solicitações por minuto de um único endereço ou envia cabeçalhos incorretos — o DataDome ainda assim bloqueará. O IP é apenas um dos níveis de proteção.
Proxies móveis: quando é necessário o máximo de confiança
Proxies móveis são endereços IP de operadoras móveis (redes 4G/5G). Eles possuem uma característica especial: um único endereço IP de operadora móvel pode ser usado por milhares de usuários reais simultaneamente através de NAT. O DataDome sabe disso — e, portanto, trata os IPs móveis com o máximo de confiança.
Bloquear um IP móvel significa bloquear potencialmente milhares de clientes reais da operadora — nenhum site normal faria isso. É por isso que proxies móveis oferecem a maior porcentagem de solicitações bem-sucedidas para sites com DataDome.
Quando optar por proxies móveis em vez de residenciais:
- O site é muito agressivamente protegido — proxies residenciais resultam em bloqueios mesmo com baixa frequência de solicitações
- Você está fazendo scraping da versão móvel do site — IP móvel + User-Agent móvel parecem orgânicos
- É necessário trabalhar com aplicativos — se você está fazendo scraping de uma API móvel, o IP móvel corresponde logicamente à solicitação
- Sessões de longo prazo — proxies móveis mantêm bem a sessão sem troca de IP
A desvantagem dos proxies móveis é que eles são mais caros que os residenciais e geralmente têm um pool menor de IPs. Para scraping em larga escala com milhares de solicitações por hora, isso pode se tornar uma limitação. Nesses casos, a estratégia ideal é usar proxies móveis para "exploração" e páginas complexas, e proxies residenciais para coleta de dados em massa.
Estratégia de rotação e delays: como não ser detectado mesmo com bons proxies
Mesmo com proxies residenciais ou móveis, você pode ser bloqueado se não estruturar corretamente a estratégia de solicitações. O DataDome analisa o comportamento em nível de sessão — e padrões anômalos levantam suspeitas independentemente da qualidade do IP.
Regras para scraping seguro através do DataDome
✅ Checklist de scraping seguro
- Delays entre solicitações: de 3 a 15 segundos (aleatórios, não fixos)
- Não mais que 20-30 solicitações de um único IP por sessão
- Sessão sticky: mantenha um IP para um "caminho do usuário"
- Comece pela página principal, depois vá para as URLs-alvo
- Imite a navegação real: página principal → categoria → produto
- Use geolocalização de proxies que coincida com o idioma do site
- Troque de IP após cada sessão ou após bloqueio
- Não inicie solicitações paralelas de um único IP
Rotação: quando trocar de IP
Não há uma resposta universal — tudo depende do site específico. Mas a lógica geral é a seguinte: o DataDome memoriza a atividade do IP em uma janela deslizante (geralmente 10-60 minutos). Se, nesse período, um endereço recebeu um número suspeitosamente alto de solicitações — o IP recebe um ban temporário.
A estratégia ideal é rotacionar o IP não por um timer, mas pelo número de solicitações. Por exemplo: 15-25 solicitações → troca de IP → pausa de 30-60 segundos → nova sessão. Essa abordagem imita o comportamento de diferentes usuários, cada um dos quais visitou várias páginas e saiu.
Cabeçalhos e fingerprint: o que mais o DataDome verifica além do IP
Bons proxies são uma condição necessária, mas não suficiente para contornar o DataDome. O sistema analisa toda a solicitação como um todo. Se o IP é residencial, mas os cabeçalhos indicam um bot — o bloqueio ainda ocorrerá.
Cabeçalhos criticamente importantes
Aqui está o que o DataDome verifica nos cabeçalhos HTTP e em que você deve prestar atenção:
| Cabeçalho | O que é verificado | Erro típico |
|---|---|---|
User-Agent |
Versão atual do navegador | UA desatualizado ou UA de biblioteca Python |
Accept-Language |
Idioma coincide com a geolocalização do proxy | Proxy dos EUA, enquanto o idioma é ru-RU |
sec-ch-ua |
Corresponde ao User-Agent | Falta do cabeçalho ao declarar Chrome |
Referer |
Cadeia lógica de transições | Solicitação direta para uma página profunda sem Referer |
Accept-Encoding |
Conjunto padrão do navegador | Falta ou conjunto não padrão |
Cookie |
Preservação de cookies de sessão do DataDome | Ignorando Set-Cookie do DataDome |
Atenção especial — aos cookies do DataDome. Na primeira solicitação, o sistema estabelece seu cookie (geralmente chamado de datadome). Se seu scraper não salva e não envia esse cookie nas solicitações subsequentes — o DataDome percebe cada solicitação como a primeira visita de um novo usuário, o que é suspeito em alta frequência.
TLS fingerprint
A proteção avançada do DataDome também analisa o TLS fingerprint — características do handshake SSL/TLS. Diferentes bibliotecas HTTP (requests, curl, axios) têm conjuntos característicos de cipher suites e extensões TLS que diferem dos navegadores. Se você usar a biblioteca padrão Python requests — seu fingerprint TLS é facilmente identificável. A solução é usar bibliotecas que imitam o TLS de navegadores (por exemplo, curl-impersonate ou soluções especializadas).
Ferramentas para trabalhar com sites protegidos pelo DataDome
A escolha correta da ferramenta para scraping é tão importante quanto a escolha do proxy. Diferentes tarefas exigem abordagens diferentes. Vamos analisar as principais opções em termos de compatibilidade com o DataDome.
Automação de navegador (Puppeteer, Playwright)
Navegadores headless teoricamente devem funcionar bem com o DataDome, pois executam JavaScript e formam uma "impressão digital" real. Na prática, o Puppeteer ou Playwright padrão são facilmente identificáveis por parâmetros característicos: navigator.webdriver = true, ausência de plugins, valores não padrão de WebGL. Para contornar, é necessária camuflagem adicional através de plugins como puppeteer-extra-plugin-stealth.
Navegadores anti-detect
Para tarefas que exigem trabalho completo com o site (não apenas scraping, mas também interação), navegadores anti-detect são a escolha ideal. Dolphin Anty, AdsPower, GoLogin e Multilogin criam perfis de navegador completos com impressões digitais realistas. Em conjunto com proxies residenciais ou móveis, eles oferecem o máximo nível de contorno do DataDome.
O esquema de conexão em um navegador anti-detect é padrão: você cria um perfil → nas configurações de proxy, indica o tipo (HTTP/SOCKS5), host, porta, login e senha do serviço de proxy → inicia o perfil. Cada perfil opera em um ambiente isolado com uma impressão digital única.
Serviços de scraping especializados
Existem serviços prontos (ScrapingBee, Apify, Bright Data Scraping Browser) que cuidam de todo o trabalho de contornar as proteções — você simplesmente fornece a URL e recebe o HTML. Eles usam seus próprios pools de proxies residenciais e resolvem captchas automaticamente. A desvantagem — alto custo em grandes volumes e menor controle sobre o processo.
Comparação de abordagens
| Ferramenta | Efetividade contra DataDome | Dificuldade de configuração | Escalabilidade |
|---|---|---|---|
| Parser HTTP + proxies residenciais | Média | Baixa | Alta |
| Puppeteer/Playwright + stealth + proxy | Alta | Média | Média |
| Navegador anti-detect + proxies móveis | Muito alta | Baixa | Baixa |
| Serviços de scraping prontos | Alta | Muito baixa | Alta (cara) |
| Proxies de data center (qualquer ferramenta) | Muito baixa | — | — |
Cenário prático: monitoramento de preços em um site protegido
Suponha que você esteja monitorando os preços dos concorrentes em um marketplace estrangeiro protegido pelo DataDome. Você precisa coletar dados de 5000 produtos a cada 6 horas. Aqui está o esquema ideal:
- Ferramenta: Playwright com plugin stealth (resolve automaticamente o desafio JS)
- Proxy: Residenciais com rotação, geolocalização — país do site-alvo
- Sessão: Sticky por 15 minutos, 20 solicitações por IP
- Cabeçalhos: User-Agent do Chrome atual, Accept-Language correto
- Cookies: Preservação e transmissão de cookies do DataDome entre solicitações de uma sessão
- Delays: Aleatórios de 4 a 12 segundos entre solicitações
- Início da sessão: Sempre começar pela página principal, depois ir para os produtos
Com essa configuração, a taxa de sucesso das solicitações é de 85-95%, o que é mais do que suficiente para monitoramento regular. Os 5-15% restantes — são solicitações repetidas através de outro IP.
Conclusão e recomendações
O DataDome é um sistema de proteção sério, mas não intransponível. A chave para um trabalho bem-sucedido com sites sob sua proteção é uma abordagem abrangente: o tipo certo de proxy, cabeçalhos corretos, comportamento realista e uma estratégia de rotação inteligente.
Principais conclusões do artigo:
- Proxies de data center não funcionam contra DataDome — eles são bloqueados no nível de reputação do IP
- Proxies residenciais são a ferramenta básica para a maioria das tarefas de scraping
- Proxies móveis oferecem a máxima confiança e são adequados para sites agressivamente protegidos
- Boas proxies são apenas parte da solução: cabeçalhos, cookies e comportamento são igualmente importantes
- Navegadores anti-detect em conjunto com proxies de qualidade oferecem os melhores resultados
- A estratégia de rotação e delays é criticamente importante — mesmo com proxies residenciais, você pode ser banido ao fazer scraping agressivo
Se você está envolvido no monitoramento de preços, scraping de páginas de produtos ou coleta de dados de sites protegidos pelo DataDome, recomendamos começar com proxies residenciais — eles oferecem um equilíbrio ideal entre qualidade de contorno de proteção e custo. Para tarefas que exigem o máximo nível de confiança por parte dos sistemas anti-bot, considere proxies móveis — especialmente se você estiver trabalhando com versões móveis de sites ou APIs de aplicativos móveis.