Proxy para eludir DataDome: qué tipos funcionan en 2024.

```html

Has configurado tu scraper, has iniciado la recolección de datos — y después de unos minutos recibes una página con captcha o una respuesta vacía. Lo más probable es que el sitio esté protegido por DataDome. Este es uno de los sistemas anti-bots más agresivos del mercado, y los proxies comunes de centros de datos no ayudan aquí. En este artículo, analizaremos cómo DataDome detecta bots y qué tipos de proxies dan resultados.

Qué es DataDome y dónde se aplica

DataDome es una plataforma SaaS comercial de protección contra bots, utilizada por grandes tiendas en línea, portales de noticias, marketplaces y servicios de reservas en todo el mundo. La empresa fue fundada en 2015 y actualmente protege miles de sitios con una audiencia total de miles de millones de solicitudes al día.

Entre los clientes de DataDome se encuentran plataformas como Reddit, Foot Locker, Rakuten, AngelList y muchos otros recursos importantes. Si te dedicas al monitoreo de precios de competidores, scraping de fichas de productos, recolección de datos de marketplaces extranjeros o agregación de noticias, es muy probable que ya te hayas encontrado con este sistema.

Características típicas de que un sitio está protegido por DataDome:

Una página con captcha aparece después de varias solicitudes consecutivas
En la respuesta del servidor hay un encabezado x-datadome-cid
Redirección al dominio geo.captcha-delivery.com
Respuesta HTTP 403 o 429 al realizar solicitudes frecuentes desde una IP
Desafío de JavaScript en la primera visita (página de "verificación del navegador")

DataDome opera en tiempo real: cada solicitud entrante se analiza en milisegundos. El sistema decide — permitir al usuario, mostrar un captcha o bloquear — incluso antes de que el servidor entregue el contenido principal de la página. Por eso, eludirlo es más difícil que las simples bloqueos de IP.

Cómo DataDome identifica bots: mecanismos de protección

Para entender qué proxies funcionan, es necesario comprender qué analiza DataDome. El sistema utiliza un enfoque de múltiples niveles — ninguno de los factores es un criterio único para el bloqueo. La decisión se toma en función de una combinación de señales.

1. Reputación de la dirección IP

Lo primero que verifica DataDome es la reputación de la dirección IP a través de bases de datos externas e internas. El sistema determina instantáneamente si la IP pertenece a un centro de datos (AWS, Google Cloud, Hetzner, DigitalOcean), a un proveedor de VPN o es una dirección real de hogar/móvil. Las IP de centros de datos automáticamente reciben una alta "puntuación de sospecha" incluso antes de analizar el comportamiento.

2. Análisis de comportamiento

DataDome rastrea patrones de comportamiento: velocidad de solicitudes, secuencia de páginas visitadas, tiempo entre clics, movimiento del ratón (si hay JavaScript). Un usuario real hace pausas, navega por rutas lógicas y a veces regresa. Un bot generalmente hace solicitudes a intervalos constantes, a URL estrictamente definidos, sin desviaciones "aleatorias".

3. JavaScript-fingerprint

Si la solicitud se realiza a través de un navegador (o un navegador sin cabeza como Puppeteer/Playwright), DataDome ejecuta un script de JavaScript que recopila un "fingerprint" del entorno: versión del navegador, fuentes instaladas, resolución de pantalla, soporte de WebGL, fingerprint de canvas, presencia de plugins. Los navegadores sin cabeza sin camuflaje adicional son fácilmente detectables por parámetros característicos.

4. Encabezados HTTP

Se analizan los encabezados de la solicitud: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua y otros. La discrepancia entre el User-Agent declarado y los parámetros reales de la solicitud es una señal fuerte de un bot.

5. Aprendizaje automático en tiempo real

Todas las señales recopiladas son procesadas por un modelo de ML, que ha sido entrenado en un enorme conjunto de datos sobre usuarios reales y bots. El modelo se actualiza constantemente — lo que funcionaba hace un mes puede dejar de funcionar hoy. Por eso, las soluciones estáticas se vuelven obsoletas rápidamente.

Por qué los proxies de centros de datos no funcionan contra DataDome

Esta es la pregunta más frecuente de aquellos que recién comienzan a trabajar con sitios protegidos. Los proxies de centros de datos son baratos, rápidos y tienen un alto tiempo de actividad. Aparentemente, son la elección ideal para el scraping. Pero contra DataDome son prácticamente inútiles.

La razón es simple: DataDome mantiene y utiliza bases de datos ASN (sistemas autónomos) de todos los principales proveedores de hosting. Cuando una solicitud proviene de una dirección IP que pertenece, por ejemplo, a una subred de Amazon Web Services o OVH, el sistema inmediatamente le asigna el estado de "sospechoso". Incluso si tu scraper imita perfectamente el comportamiento humano — la IP de un centro de datos ya te pone en riesgo.

⚠️ Es importante entender

Los proxies de centros de datos son excelentes para tareas donde la protección es débil o inexistente: scraping de datos abiertos, trabajo con API sin sistemas anti-bots, pruebas de velocidad. Pero para sitios con DataDome, generan bloqueos en más del 90% de los casos ya en las primeras decenas de solicitudes.

Otro problema son las IP "quemadas". Si miles de usuarios antes que tú han utilizado la misma dirección IP para actividades de bots (y en los pools de centros de datos baratos esto es la norma), DataDome ya tiene un historial negativo para esa dirección. Incluso la primera solicitud desde tal IP puede recibir un bloqueo.

Proxies residenciales: la herramienta principal para eludir DataDome

Los proxies residenciales son direcciones IP que pertenecen a usuarios reales de Internet en casa. Son proporcionados por proveedores de Internet (Rostelecom, Comcast, Deutsche Telekom, etc.) y desde la perspectiva de DataDome parecen ser personas normales sentadas en casa frente a sus computadoras.

Por eso, los proxies residenciales son la herramienta principal para el scraping de sitios con DataDome. Pasan la verificación inicial de reputación de IP, lo que te da un "crédito de confianza" para el trabajo posterior.

Qué considerar al elegir proxies residenciales para DataDome

Parámetro	Qué es importante	Por qué es crítico
Tipo de rotación	Rotación por cada solicitud o sesión de 5 a 30 minutos	DataDome rastrea el historial de IP — un cambio demasiado frecuente también es sospechoso
Geolocalización	IP del país del sitio objetivo	Una solicitud desde otro país es una señal adicional de sospecha
Tamaño del pool	Millones de IP, no miles	Un pool pequeño se "quema" rápidamente — DataDome recuerda las direcciones activas
Sesiones pegajosas	Posibilidad de mantener una IP durante 10-30 minutos	Para scraping de múltiples páginas, una sesión debe parecer un solo usuario
Velocidad	No menos de 5-10 Mbps por conexión	Los proxies lentos aumentan el tiempo de solicitud, lo que afecta los tiempos

Un punto importante: los proxies residenciales no garantizan un 100% de elusión de DataDome por sí solos. Resuelven el problema de la reputación de IP, pero si tu scraper hace 100 solicitudes por minuto desde una sola dirección o envía encabezados incorrectos, DataDome aún bloqueará. La IP es solo uno de los niveles de protección.

Proxies móviles: cuándo se necesita la máxima confianza

Los proxies móviles son direcciones IP de operadores móviles (redes 4G/5G). Tienen una característica especial: una dirección IP de un operador móvil puede ser utilizada por miles de usuarios reales simultáneamente a través de NAT. DataDome lo sabe — y por eso trata las IP móviles con la máxima confianza.

Bloquear una IP móvil significa bloquear potencialmente a miles de clientes reales del operador — ningún sitio web normal haría eso. Por eso, los proxies móviles ofrecen el porcentaje más alto de solicitudes exitosas a sitios con DataDome.

Cuándo elegir proxies móviles en lugar de residenciales:

El sitio está muy agresivamente protegido — los proxies residenciales generan bloqueos incluso con baja frecuencia de solicitudes
Estás scrapeando la versión móvil del sitio — IP móvil + User-Agent móvil parecen orgánicos
Se necesita trabajar con aplicaciones — si scrapeas una API móvil, la IP móvil corresponde lógicamente a la solicitud
Sesiones a largo plazo — los proxies móviles mantienen bien la sesión sin cambiar de IP

La desventaja de los proxies móviles es que son más caros que los residenciales y generalmente tienen un pool de IP más pequeño. Para scraping a gran escala con miles de solicitudes por hora, esto puede ser una limitación. En tales casos, la estrategia óptima es usar proxies móviles para "exploración" y páginas complejas, y proxies residenciales para la recolección masiva de datos.

Estrategia de rotación y retrasos: cómo no ser detectado incluso con buenos proxies

Incluso con proxies residenciales o móviles, puedes recibir un bloqueo si no estableces correctamente la estrategia de solicitudes. DataDome analiza el comportamiento a nivel de sesión — y patrones anómalos generan sospechas independientemente de la calidad de la IP.

Reglas para un scraping seguro a través de DataDome

✅ Lista de verificación para un scraping seguro

Retrasos entre solicitudes: de 3 a 15 segundos (aleatorios, no fijos)
No más de 20-30 solicitudes desde una IP por sesión
Sesión pegajosa: mantén una IP para un "camino de usuario"
Comienza desde la página principal, luego pasa a las URL objetivo
Imita la navegación real: principal → categoría → producto
Usa la geolocalización del proxy que coincida con el idioma del sitio
Cambia de IP después de cada sesión o después de un bloqueo
No inicies solicitudes paralelas desde una IP

Rotación: cuándo cambiar de IP

No hay una respuesta universal — todo depende del sitio específico. Pero la lógica general es esta: DataDome recuerda la actividad de la IP en una ventana deslizante (generalmente de 10 a 60 minutos). Si durante ese tiempo se han recibido un número sospechosamente alto de solicitudes desde una dirección, la IP recibe un baneo temporal.

La estrategia óptima es rotar la IP no por temporizador, sino por cantidad de solicitudes. Por ejemplo: 15-25 solicitudes → cambio de IP → pausa de 30-60 segundos → nueva sesión. Este enfoque imita el comportamiento de diferentes usuarios, cada uno de los cuales visitó varias páginas y se fue.

Encabezados y fingerprint: qué más verifica DataDome además de la IP

Tener buenos proxies es necesario, pero no suficiente para eludir DataDome. El sistema analiza toda la solicitud en su conjunto. Si la IP es residencial, pero los encabezados indican un bot, el bloqueo aún ocurrirá.

Encabezados críticamente importantes

Esto es lo que DataDome verifica en los encabezados HTTP y en qué debes prestar atención:

Encabezado	Qué se verifica	Error típico
`User-Agent`	Versión actual del navegador	UA obsoleto o UA de biblioteca Python
`Accept-Language`	El idioma coincide con la geolocalización del proxy	Proxy de EE.UU., pero idioma ru-RU
`sec-ch-ua`	Coincide con el User-Agent	Falta el encabezado declarado como Chrome
`Referer`	Cadena lógica de transiciones	Solicitud directa a una página profunda sin Referer
`Accept-Encoding`	Conjunto estándar del navegador	Falta o conjunto no estándar
`Cookie`	Almacenamiento de cookies de sesión de DataDome	Ignorar Set-Cookie de DataDome

Presta especial atención a las cookies de DataDome. En la primera solicitud, el sistema establece su cookie (generalmente llamada datadome). Si tu scraper no guarda y no envía esta cookie en solicitudes posteriores, DataDome percibe cada solicitud como la primera visita de un nuevo usuario, lo que es sospechoso en sí mismo a alta frecuencia.

TLS fingerprint

La protección avanzada de DataDome también analiza el TLS fingerprint — características del apretón de manos SSL/TLS. Diferentes bibliotecas HTTP (requests, curl, axios) tienen conjuntos característicos de suites de cifrado y extensiones TLS que difieren de los navegadores. Si usas la biblioteca estándar de Python requests, su fingerprint TLS se identifica fácilmente. La solución es usar bibliotecas que imiten el TLS de un navegador (por ejemplo, curl-impersonate o soluciones especializadas).

Herramientas para trabajar con sitios web protegidos por DataDome

La elección correcta de la herramienta para el scraping es tan importante como la elección de proxies. Diferentes tareas requieren diferentes enfoques. Analicemos las principales opciones desde el punto de vista de la compatibilidad con DataDome.

Automatización del navegador (Puppeteer, Playwright)

Los navegadores sin cabeza deberían funcionar bien con DataDome, ya que ejecutan JavaScript y generan un fingerprint "real". En la práctica, Puppeteer o Playwright estándar son fácilmente identificables por parámetros característicos: navigator.webdriver = true, falta de plugins, valores no estándar de WebGL. Para eludir esto, se necesita un camuflaje adicional a través de plugins como puppeteer-extra-plugin-stealth.

Navegadores anti-detección

Para tareas donde se necesita una interacción completa con el sitio (no solo scraping, sino también interacción), los navegadores anti-detección son la mejor opción. Dolphin Anty, AdsPower, GoLogin y Multilogin crean perfiles de navegador completos con fingerprints realistas. En combinación con proxies residenciales o móviles, ofrecen el máximo nivel de elusión de DataDome.

El esquema de conexión en un navegador anti-detección es estándar: creas un perfil → en la configuración del proxy indicas el tipo (HTTP/SOCKS5), host, puerto, usuario y contraseña del servicio proxy → inicias el perfil. Cada perfil opera en un entorno aislado con un fingerprint único.

Servicios de scraping especializados

Existen servicios listos (ScrapingBee, Apify, Bright Data Scraping Browser) que se encargan de todo el trabajo de eludir las protecciones — simplemente proporcionas la URL y obtienes HTML. Utilizan sus propios pools de proxies residenciales y resuelven automáticamente los captchas. La desventaja es el alto costo en grandes volúmenes y menor control sobre el proceso.

Comparación de enfoques

Herramienta	Efectividad contra DataDome	Dificultad de configuración	Escalabilidad
Scraper HTTP + proxies residenciales	Media	Baja	Alta
Puppeteer/Playwright + stealth + proxy	Alta	Media	Media
Navegador anti-detección + proxies móviles	Muy alta	Baja	Baja
Servicios de scraping listos	Alta	Muy baja	Alta (cara)
Proxies de centros de datos (cualquier herramienta)	Muy baja	—	—

Escenario práctico: monitoreo de precios en un sitio protegido

Supongamos que estás monitoreando los precios de competidores en un marketplace extranjero protegido por DataDome. Necesitas recolectar datos de 5000 productos cada 6 horas. Aquí está el esquema óptimo:

Herramienta: Playwright con plugin stealth (resuelve automáticamente el desafío de JS)
Proxy: Residenciales con rotación, geolocalización — país del sitio objetivo
Sesión: Pegajosa durante 15 minutos, 20 solicitudes por IP
Encabezados: User-Agent de Chrome actual, Accept-Language correcto
Cookies: Almacenamiento y transmisión de cookies de DataDome entre solicitudes de una misma sesión
Retrasos: Aleatorios de 4 a 12 segundos entre solicitudes
Inicio de sesión: Siempre comenzar desde la página principal, luego pasar a los productos

Con esta configuración, la tasa de éxito de las solicitudes es del 85-95%, lo cual es suficiente para un monitoreo regular. El 5-15% restante son solicitudes repetidas a través de otra IP.

Conclusión y recomendaciones

DataDome es un sistema de protección serio, pero no insuperable. La clave para trabajar con sitios bajo su protección es un enfoque integral: el tipo correcto de proxy, encabezados correctos, comportamiento realista y una estrategia de rotación adecuada.

Principales conclusiones del artículo:

Los proxies de centros de datos no funcionan contra DataDome — son bloqueados a nivel de reputación de IP
Los proxies residenciales son la herramienta básica para la mayoría de las tareas de scraping
Los proxies móviles ofrecen la máxima confianza y son adecuados para sitios con protección agresiva
Los buenos proxies son solo parte de la solución: los encabezados, las cookies y el comportamiento son igualmente importantes
Los navegadores anti-detección en combinación con proxies de calidad ofrecen los mejores resultados
La estrategia de rotación y retrasos es críticamente importante — incluso con proxies residenciales se puede recibir un baneo al hacer scraping agresivo

Si te dedicas al monitoreo de precios, scraping de fichas de productos o recolección de datos de sitios protegidos por DataDome, te recomendamos comenzar con proxies residenciales — ofrecen un equilibrio óptimo entre la calidad de elusión de la protección y el costo. Para tareas que requieren el máximo nivel de confianza por parte de los sistemas anti-bots, considera proxies móviles — especialmente si trabajas con versiones móviles de sitios o APIs de aplicaciones móviles.