Ocurrió lo que la industria había estado esperando durante al menos un año: hay más máquinas en Internet que personas. El 3 de junio de 2026, Cloudflare publicó datos de su red Radar, según los cuales los sistemas automatizados generaron por primera vez en la historia la mayoría de todas las solicitudes HTTP al contenido web — 57,5% frente a 42,5% de usuarios vivos. NBC News, citando el mismo informe, presentó una proporción casi idéntica — 57,4% a 42,6%. No se trata de un error estadístico ni de un aumento puntual, sino de un cambio registrado en una tendencia de muchos años.
Lo más notable es cuán rápido ocurrió esto. Solo tres meses antes de la publicación, durante una conferencia en SXSW, el CEO de Cloudflare, Matthew Prince, aseguró que el punto de cruce no llegaría antes de 2027. Comentando las cifras recientes, admitió: "Bueno, sucedió más rápido de lo que había predicho". La frontera se alcanzó más de un año antes de la predicción del mismo hombre que hizo esa predicción.
Quién convirtió la web en territorio de bots
El principal culpable no son los clásicos rastreadores de búsqueda ni los bots de spam, sino la IA agente: programas semi-autónomos que realizan tareas para asistentes como ChatGPT y Gemini. La lógica es simple y despiadada para los servidores: donde un humano hace un par de clics, un agente de IA recorre miles de páginas para recopilar contexto y dar una respuesta. Cada "excursión" de este tipo implica decenas y cientos de solicitudes, que en las estadísticas se acumulan en una avalancha.
La escala del crecimiento es evidente en los rastreadores individuales. Según las mediciones de Cloudflare, el tráfico de GPTBot de OpenAI creció un 305% en un año. Si observamos la cuota dentro de todo el tráfico de IA, la imagen es la misma: GPTBot subió del 4,7% (julio de 2024) al 11,7% (julio de 2025). En mayo de 2026, los rastreadores de IA especializados representaban el 20,3% de las solicitudes de bots, y otros 6,5% provenían de bots de búsqueda de IA — en total, casi 27% de todo el tráfico de bots ya alimenta directamente a los modelos de lenguaje. Este tráfico se distribuye de la siguiente manera: 51,8% — recopilación de datos para entrenamiento, 35,7% — modo mixto (entrenamiento más entrega de respuestas), y solo alrededor del 9% — búsqueda pura.
La carga en la infraestructura ha dejado de ser una abstracción. La Fundación Wikimedia informó que desde enero de 2024, el consumo de ancho de banda para la entrega de multimedia ha aumentado en un 50%, y 65% del tráfico más intensivo en recursos es generado por bots, aunque solo representan el 35% de las visualizaciones de páginas. En otras palabras, las máquinas están consumiendo desproporcionadamente mucho tráfico costoso, sin devolver nada al propietario del sitio.
Por qué la web abierta cierra puertas
La reacción de las plataformas ha sido predecible: si los bots no generan impresiones publicitarias ni clics, comienzan a ser detenidos. Para agosto de 2025, más de 2,5 millones de sitios prohibieron completamente el uso de sus datos para el entrenamiento de IA. En los cinco meses posteriores a julio de 2025, solo la red Cloudflare bloqueó alrededor de 416 mil millones de solicitudes de bots de IA. GPTBot se convirtió en el rastreador más "baneado" en los archivos robots.txt — aparece en el 5,52% de todas las reglas DISALLOW.
El desequilibrio es evidente en la llamada relación crawl-to-referral — cuántas páginas extrae un bot por cada clic que se devuelve. Para el Googlebot de referencia, esta relación es de aproximadamente 4,9:1. Para GPTBot, es de 1276:1, y para ClaudeBot llegó a casi 24,000:1, antes de mejorar a aproximadamente 11,000:1. Para el propietario de un sitio, esto significa lo siguiente: la IA toma miles y devuelve unidades.
Pero simplemente bloquear significa perder ingresos potenciales, por lo que Cloudflare propuso un tercer camino. Su sistema Pay-Per-Crawl utiliza un estado HTTP olvidado desde hace tiempo 402 "Payment Required": en lugar de cerrar completamente el acceso al bot, el sitio puede cobrarle por el acceso. La propia empresa actúa como intermediaria y procesa los pagos. La mecánica es de tres niveles: Block (con un clic, por defecto para nuevos dominios), Charge (acceso de pago según la tarifa del propietario) y Allow (acceso abierto con análisis detallado). Según Cloudflare, los clientes ya están generando más de mil millones de códigos 402 al día.
La tendencia va más allá de una sola empresa. El 7 de abril de 2026, GoDaddy — uno de los mayores proveedores de alojamiento del mundo — integró la herramienta Cloudflare AI Crawl Control en su plataforma. La directora de estrategia de Cloudflare, Stephanie Cohen, lo formuló así: "Al proporcionar a los propietarios de sitios herramientas como AI Crawl Control y estándares abiertos, estamos sentando las bases para un nuevo modelo de negocio en Internet". Dado que aproximadamente el 20% de todos los sitios del mundo funcionan detrás de un proxy inverso de Cloudflare, se trata de un cambio tectónico en las reglas del juego.
La guerra de las máscaras: por qué los bloqueos no afectan a todos por igual
Un matiz clave que a menudo se pasa por alto en los titulares llamativos: las nuevas barreras están dirigidas principalmente a los bots que se presentan honestamente y provienen de rangos de IP de centros de datos. Un rastreador con un User-Agent explícito como "GPTBot" y una dirección de la nube de AWS es un blanco fácil para los WAF y los categorizadores de tráfico. Precisamente sobre estos se aplican los bloqueos millonarios.
El problema es que no todos cumplen las reglas. El índice AI Agent Index de MIT CSAIL para 2025 y las observaciones de Cloudflare coinciden: aproximadamente la mitad del tráfico de IA simplemente ignora robots.txt. Y el estándar llms.txt, que debía convertirse en un "menú cortés" para los modelos, no es leído en producción por ninguna gran empresa de IA hasta el primer trimestre de 2026. Es significativa la historia de agosto de 2025: Cloudflare acusó públicamente a Perplexity de rastreo encubierto — rotación de User-Agent y camuflaje como un navegador normal para eludir las prohibiciones en robots.txt. Perplexity rechazó las acusaciones, pero el caso mostró claramente hacia dónde se dirige la industria.
La conclusión para aquellos que recopilan datos públicos no autenticados legalmente es paradójica: cuanto más agresivamente las plataformas eliminan a los "ruidosos" rastreadores de centros de datos, mayor es el valor del tráfico que parece un humano normal. Una solicitud que proviene de una IP residencial o móvil, con una huella de navegador normal y un ritmo humano, es indistinguible para los sistemas anti-bots de un visitante — y pasa donde un bot en la nube recibe un baneo instantáneo.
Qué significa esto para el web scraping en la práctica
Si su negocio depende de la recopilación de datos — monitoreo de precios, análisis de SERP, agregación de reseñas, entrenamiento de modelos en fuentes abiertas — las conclusiones del informe de Cloudflare deben tomarse como una guía de acción.
- Proxies de centros de datos sin camuflaje — zona de riesgo. Si envía solicitudes desde rangos de nube evidentes y no gestiona la huella, cae exactamente en la categoría que está bajo el fuego principal. Para tareas que no son sensibles a la reputación (API internas, fuentes amigables, páginas públicas simples) los proxies de centros de datos siguen siendo rápidos y baratos, pero para sitios protegidos su ciclo de vida se acorta.
- IPs residenciales — nuevo nivel básico. Para un scraping serio de sitios protegidos, los proxies residenciales ofrecen ese perfil "humano" que los sistemas anti-bots permiten por defecto. Esto ya no es una opción premium, sino un mínimo higiénico.
- Proxies móviles — para los objetivos más difíciles. Las redes sociales y las plataformas con análisis de comportamiento son especialmente estrictas con la fuente de conexión. Los proxies móviles con IP reales de operadores y su mecánica de rotación ofrecen la máxima "invisibilidad" donde incluso las direcciones residenciales están bajo sospecha.
- Prepárese para el acceso de pago. Pay-Per-Crawl con el código 402 no es un experimento temporal: mil millones de tales respuestas al día indican que el modelo ha echado raíces. Parte de los datos en los próximos años estará disponible solo por dinero o solo para aquellos que pueden parecer tráfico orgánico.
Un escenario separado es la infraestructura propia. Para volúmenes pequeños y tareas privadas, tiene sentido levantar su propio nodo: hemos detallado cómo construir un servidor proxy doméstico en Raspberry Pi en una noche y por un par de miles de rublos. Esto no reemplazará un pool de millones de direcciones, pero cubre necesidades básicas y ayuda a entender la mecánica desde adentro.
Conclusión
La cifra del 57,5% es un hito simbólico, pero detrás de ella hay un cambio real de era. Internet, que durante décadas se construyó para el lector humano, se está reconfigurando cada vez más rápido para la máquina consumidora de datos, y las plataformas responden con barricadas: bloqueos, puertas de enlace de pago y autenticación criptográfica de bots. La web abierta no desaparece — se estratifica. El acceso libre permanece para aquellos que juegan según las reglas o pueden parecer un usuario normal; todo lo demás se va detrás de un muro de pago o bajo baneo. Para la industria de la recopilación de datos, esto significa una cosa: la calidad y "humanidad" de su tráfico se convierten no en una ventaja competitiva, sino en una condición de supervivencia.
```