Twitter (ahora X) está luchando activamente contra el scraping automático de datos: bloquea direcciones IP, limita la cantidad de solicitudes y prohíbe cuentas ante actividades sospechosas. Si estás recopilando datos para investigaciones de mercado, monitoreo de menciones de marca o análisis de competidores, necesitas una estrategia adecuada para trabajar con proxies y herramientas de anti-detección.
En esta guía, analizaremos cómo configurar un scraping seguro de Twitter/X, qué tipos de proxies elegir para diferentes tareas y cómo evitar bloqueos al raspar perfiles en masa.
Por qué Twitter/X bloquea el scraping y cómo funciona
Tras el rebranding a X, la plataforma ha endurecido significativamente su política respecto a la recopilación automática de datos. El sistema de protección analiza varios parámetros simultáneamente, y el bloqueo puede ocurrir incluso con trabajo manual si no se siguen las medidas de precaución.
Principales desencadenantes de bloqueos en Twitter/X
1. Exceso de límites de tasa. Twitter establece límites estrictos en la cantidad de solicitudes por minuto. Para los usuarios no autorizados, esto es aproximadamente 180 solicitudes cada 15 minutos, y para los autorizados, hasta 900 solicitudes. Si excede esto, recibirá un error 429 (Too Many Requests), y ante violaciones sistemáticas, se bloqueará la dirección IP.
2. Patrones de comportamiento sospechosos. Si abres perfiles a una velocidad de 10 por minuto, desplazas las páginas a la misma velocidad o realizas acciones sin pausas, el sistema reconocerá un bot. Un usuario real hace pausas, lee contenido y a veces se distrae.
3. Uso de una sola IP para múltiples cuentas. Si desde una dirección IP acceden de 5 a 10 cuentas diferentes en un corto período de tiempo, esto es una señal de alerta. Twitter puede bloquear todas las cuentas en cadena (chain-ban).
4. Falta de huella digital (fingerprint). La plataforma recopila datos sobre el navegador: versión, extensiones, resolución de pantalla, zona horaria, WebGL, Canvas. Si estos datos no coinciden con el dispositivo real o son idénticos en varias cuentas, esto es motivo de sospecha.
⚠️ Importante: Tras la compra de Twitter por Elon Musk y el rebranding a X, el sistema de protección se ha vuelto más agresivo. Incluso el acceso a la API ahora es de pago (desde $100/mes por la tarifa básica), y el scraping gratuito a través de la interfaz web se rastrea de manera especialmente estricta.
Cómo Twitter/X detecta la automatización
El sistema de protección utiliza un análisis de múltiples niveles:
- Análisis de User-Agent y encabezados. Si los encabezados de las solicitudes HTTP no coinciden con un navegador real o contienen rastros de automatización (por ejemplo, Selenium, Puppeteer en User-Agent), la solicitud se bloquea.
- Verificación de JavaScript. Twitter utiliza activamente llamadas de JavaScript para verificar que la página sea abierta por un navegador real y no por un simple cliente HTTP.
- Análisis del comportamiento del ratón y del teclado. La plataforma rastrea los movimientos del cursor, la velocidad de desplazamiento y los patrones de clics. Los bots generalmente se mueven en líneas rectas o no mueven el ratón en absoluto.
- Reputación de la dirección IP. Si la IP está en una lista negra (centro de datos de un proveedor de hosting conocido, proveedor de proxies con mala reputación), la confianza en ella disminuye.
Qué proxies son adecuados para raspar Twitter/X: comparación de tipos
La elección del tipo de proxy depende de tus tareas: scraping masivo de datos públicos, trabajo con cuentas autorizadas o monitoreo de competidores. Analicemos cada tipo y su aplicación para Twitter/X.
Proxies residenciales: la mejor opción para trabajar con cuentas
Los proxies residenciales utilizan direcciones IP de usuarios domésticos reales, proporcionadas por proveedores de internet. Para Twitter/X, esta es la opción más segura, ya que la plataforma no puede distinguir este tráfico del de un usuario normal.
Cuándo usar proxies residenciales para Twitter/X:
- Trabajo con cuentas autorizadas (inicio de sesión, scraping de perfiles privados)
- Monitoreo a largo plazo de cuentas o hashtags específicos
- Scraping con alta intensidad (cuando necesitas minimizar el riesgo de baneo)
- Recopilación de datos de diferentes regiones geográficas (por ejemplo, para analizar tendencias regionales)
Ventajas: Máximo nivel de confianza de Twitter/X, bajo porcentaje de bloqueos, posibilidad de trabajar con captchas (generalmente no ocurren), soporte para sesiones pegajosas (una IP durante 10-30 minutos).
Desventajas: Costo más alto (generalmente pago por tráfico, desde $7-15 por 1 GB), velocidad inferior a la de los centros de datos.
Proxies móviles: para máxima protección de cuentas
Los proxies móviles utilizan direcciones IP de operadores móviles (4G/5G). Este es el tipo de IP más confiable para redes sociales, ya que Twitter/X rara vez bloquea IPs móviles; detrás de una dirección pueden estar miles de usuarios reales.
Cuándo usar proxies móviles para Twitter/X:
- Trabajo con cuentas valiosas que no se pueden perder
- Scraping después de bloqueos previos (cuando se necesita máxima protección)
- Automatización de acciones: likes, retweets, seguimientos (aunque esto viola los Términos de Servicio de Twitter)
- Eludir bloqueos severos por IP (las IPs móviles casi nunca están en listas negras)
Ventajas: Máximo nivel de confianza, riesgo prácticamente nulo de baneo por IP, posibilidad de rotación de IP a través del modo "avión" (cambio de IP cada 5-10 minutos).
Desventajas: El tipo de proxy más caro (desde $50-100 por una IP al mes), número limitado de IPs disponibles, velocidad depende de la calidad de la conexión móvil.
Proxies de centros de datos: para scraping masivo de datos públicos
Los proxies de centros de datos son direcciones IP de servidores de proveedores de hosting. Son rápidos y baratos, pero Twitter/X los considera sospechosos.
Cuándo se pueden usar centros de datos para Twitter/X:
- Scraping de perfiles públicos sin autorización (funcionalidad limitada)
- Recopilación de datos puntual con baja intensidad
- Pruebas de scripts de scraping antes de lanzarlos en proxies residenciales
- Trabajo a través de la API oficial (si tienes acceso de pago)
Ventajas: Bajo costo (desde $1-3 por IP al mes), alta velocidad (hasta 1 Gbps), estabilidad de conexión.
Desventajas: Alto riesgo de bloqueos, a menudo se requiere resolver captchas, no son adecuados para trabajar con cuentas autorizadas, muchas IPs ya están en listas negras de Twitter/X.
Tabla comparativa de tipos de proxies para Twitter/X
| Parámetro | Residenciales | Móviles | Centros de datos |
|---|---|---|---|
| Nivel de confianza de Twitter/X | Alto | Muy alto | Bajo |
| Riesgo de bloqueo | Bajo (5-10%) | Mínimo (1-3%) | Alto (30-50%) |
| Trabajo con cuentas | ✅ Sí | ✅ Sí | ❌ No recomendado |
| Velocidad | Media (10-50 Mbps) | Media (5-30 Mbps) | Alta (100-1000 Mbps) |
| Costo | $7-15 por 1 GB | $50-100 por IP/mes | $1-3 por IP/mes |
| Mejor aplicación | Scraping con autorización | Cuentas valiosas | Datos públicos |
Límites de tasa de Twitter/X: cómo no exceder los límites de solicitudes
Twitter/X establece restricciones estrictas en la cantidad de solicitudes para prevenir la sobrecarga de servidores y la recopilación automática de datos. Si superas los límites, recibirás un bloqueo temporal (de 15 minutos a varias horas) o un baneo permanente de IP/cuenta.
Límites actuales de Twitter/X (2024)
Tras la introducción de la suscripción de pago X Premium, los límites se dividieron en varias categorías:
| Tipo de cuenta | Visualización de tweets/día | Solicitudes API (15 min) |
|---|---|---|
| No autorizado | Acceso limitado | ~180 solicitudes |
| Cuenta gratuita | 600-1000 tweets | ~300 solicitudes |
| X Premium ($8/mes) | 6000-10000 tweets | ~900 solicitudes |
| Verificada (antigua) | Sin límites estrictos | ~900 solicitudes |
Importante: Estos límites se aplican no solo a la API, sino también a la visualización normal a través de la interfaz web. Si estás raspando a través de un navegador emulando acciones de usuario, estas restricciones aún se aplican.
Cómo eludir los límites de tasa al raspar
1. Rotación de direcciones IP. Utiliza un grupo de proxies con rotación automática. Para proxies residenciales, la frecuencia óptima de cambio es cada 50-100 solicitudes o cada 10-15 minutos. Esto permite distribuir la carga entre diferentes IP y no exceder los límites en una sola dirección.
2. Uso de múltiples cuentas. Si necesitas recopilar un gran volumen de datos, crea de 5 a 10 cuentas de Twitter/X y distribuye el scraping entre ellas. Cada cuenta debe trabajar a través de su proxy único y tener una huella digital (fingerprint) separada.
3. Retrasos entre solicitudes. No hagas solicitudes a la máxima velocidad. Agrega pausas aleatorias:
- Entre la visualización de perfiles: 3-7 segundos
- Entre el desplazamiento del feed: 2-5 segundos
- Entre la búsqueda por hashtags: 5-10 segundos
- Pausas largas cada 50-100 acciones: 30-60 segundos
4. Almacenamiento en caché de datos. No solicites los mismos datos nuevamente. Guarda los resultados del scraping en una base de datos y verifica si el perfil ya ha sido procesado.
💡 Consejo: Si recibes un error 429 (Too Many Requests), no intentes repetir la solicitud de inmediato. Haz una pausa de al menos 15 minutos, y lo mejor es cambiar la dirección IP a través de la rotación de proxies. Los intentos repetidos pueden llevar a un baneo permanente.
Configuración de un navegador anti-detección para un scraping seguro
Los navegadores anti-detección permiten crear huellas digitales únicas (fingerprints) para cada cuenta de Twitter/X, lo cual es crítico para un scraping seguro. Sin esto, la plataforma puede vincular varias cuentas entre sí y bloquearlas en cadena.
Navegadores anti-detección populares para Twitter/X
Dolphin Anty — una de las opciones más populares entre los arbitrajistas y especialistas en SMM. La tarifa gratuita permite crear hasta 10 perfiles, lo cual es suficiente para tareas pequeñas de scraping.
AdsPower — un buen equilibrio entre funcionalidad y precio. Tiene automatización incorporada a través de RPA (Automatización de Procesos Robóticos), lo que permite configurar el scraping sin escribir código.
Multilogin — solución premium con el máximo nivel de protección. Utilizada por grandes agencias, pero es costosa (desde €99/mes). Justificada solo para scraping profesional de grandes volúmenes de datos.
GoLogin — opción económica con buena calidad de fingerprints. Tiene una aplicación móvil para trabajar con cuentas sobre la marcha.
Configuración paso a paso del perfil para scraping de Twitter/X (ejemplo con Dolphin Anty)
Paso 1: Crear un nuevo perfil de navegador
- Abre Dolphin Anty y haz clic en "Crear perfil"
- Selecciona el sistema operativo: Windows, macOS o Linux (elige el que coincida con tu dispositivo real o el más popular entre los usuarios de Twitter)
- Indica el nombre del perfil: por ejemplo, "Twitter Parser US #1"
Paso 2: Configuración del proxy
- En la sección "Proxy", selecciona el tipo: HTTP, HTTPS o SOCKS5 (SOCKS5 es preferible para Twitter/X)
- Ingresa los datos del proxy: dirección IP, puerto, nombre de usuario, contraseña
- Haz clic en "Verificar proxy" — asegúrate de que el estado sea verde y la geolocalización correcta
- Importante: utiliza un proxy separado para cada cuenta de Twitter/X
Paso 3: Configuración de fingerprint (huella digital)
- User-Agent: selecciona un User-Agent real de la versión actual de Chrome (por ejemplo, Chrome 120 en Windows 10)
- Resolución de pantalla: utiliza resoluciones populares (1920x1080, 1366x768, 1440x900) — no pongas valores exóticos
- Zona horaria: debe coincidir con la geolocalización del proxy (si el proxy es de EE. UU./Nueva York, establece EST)
- Idioma del navegador: corresponde a la región (en-US para EE. UU., en-GB para el Reino Unido)
- WebRTC: desactívalo o reemplázalo por la IP del proxy (de lo contrario, puede filtrarse la IP real)
- Canvas y WebGL: utiliza el modo "Noise" (agregar ruido) — esto crea una huella única para cada perfil
Paso 4: Configuraciones adicionales de seguridad
- Desactiva el autocompletado de contraseñas (Twitter puede verificar la existencia de datos guardados)
- Limpia las cookies después de cada sesión de scraping
- No uses extensiones de navegador — crean fingerprints únicos y pueden revelar automatización
- Activa "Do Not Track" (DNT) — muchos usuarios reales lo utilizan
⚠️ Error crítico: ¡No uses la misma huella digital para varias cuentas! Twitter/X puede detectar fácilmente fingerprints idénticos y bloquear todas las cuentas relacionadas. Cada perfil en el navegador anti-detección debe tener parámetros únicos.
Herramientas para raspar Twitter/X: desde soluciones listas hasta código
La elección de la herramienta depende de tus habilidades técnicas y del volumen de tareas. Analicemos las opciones desde servicios simples sin código hasta scripts profesionales.
Servicios de scraping de Twitter/X listos (sin código)
Phantombuster — servicio en la nube de automatización con plantillas listas para Twitter/X. Permite raspar perfiles, seguidores, tweets por hashtags. La configuración toma de 5 a 10 minutos: eliges una plantilla, indicas parámetros (hashtag, lista de cuentas), conectas un proxy y lo inicias.
Apify — mercado de scrapers listos. Hay varios actores (scripts listos) para Twitter/X: scraping de perfiles, recopilación de tweets, monitoreo de menciones. Funciona a través de la nube, soporta proxies, tiene una tarifa gratuita con limitaciones.
Octoparse — constructor visual de scrapers. Abres Twitter/X en la interfaz del programa, haces clic en los elementos que necesitas recopilar (nombre, bio, número de seguidores), y el programa crea el script automáticamente. Es adecuado para tareas simples, pero puede no manejar estructuras de páginas complejas.
Automatización a través de RPA en navegadores anti-detección
Algunos navegadores anti-detección (AdsPower, Octo Browser) tienen herramientas RPA (Automatización de Procesos Robóticos) incorporadas, que permiten grabar y reproducir acciones de usuario.
Cómo funciona:
- Abres Twitter/X en el navegador anti-detección
- Activar el modo de grabación de acciones
- Realizas las acciones necesarias: abres un perfil, copias datos, pasas al siguiente
- Detienes la grabación — el navegador ha creado un script
- Cargas una lista de cuentas para raspar y ejecutas el script en un ciclo
Ventajas: no requiere habilidades de programación, funciona a través de un navegador real (alto nivel de elusión de protección), fácil de agregar retrasos aleatorios y emulación de comportamiento.
Raspado a través de código: Python + Selenium/Playwright
Para tareas más complejas y control total sobre el proceso, utiliza programación. Python es el lenguaje más popular para scraping gracias a su rica ecosistema de bibliotecas.
Bibliotecas principales:
- Selenium — automatización del navegador, funciona con Chrome/Firefox, soporta proxies y emulación de acciones de usuario
- Playwright — alternativa moderna a Selenium, más rápida y estable, soporta modo sin cabeza
- Tweepy — biblioteca para trabajar con la API oficial de Twitter (requiere acceso de pago)
- Twint — scraping de Twitter sin API (atención: Twitter bloquea activamente este método, funciona de manera inestable)
Ejemplo de script básico en Python + Selenium:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
import random
# Configuración del proxy
proxy = "123.45.67.89:8080" # Reemplaza con tu proxy
chrome_options = Options()
chrome_options.add_argument(f'--proxy-server={proxy}')
chrome_options.add_argument('--disable-blink-features=AutomationControlled')
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
# Inicialización del navegador
driver = webdriver.Chrome(options=chrome_options)
# Abrimos el perfil de Twitter
driver.get('https://twitter.com/elonmusk')
time.sleep(random.uniform(3, 7)) # Retraso aleatorio
# Raspamos datos del perfil
try:
name = driver.find_element(By.XPATH, '//div[@data-testid="UserName"]').text
bio = driver.find_element(By.XPATH, '//div[@data-testid="UserDescription"]').text
followers = driver.find_element(By.XPATH, '//a[contains(@href, "/followers")]/span').text
print(f"Nombre: {name}")
print(f"Bio: {bio}")
print(f"Seguidores: {followers}")
except Exception as e:
print(f"Error de raspado: {e}")
driver.quit()
Puntos importantes al trabajar con código:
- Agrega
time.sleep(random.uniform(3, 7))entre acciones — esto emula el comportamiento de un usuario real - Usa
--disable-blink-features=AutomationControlledpara ocultar signos de automatización - Cambia el User-Agent a uno real:
chrome_options.add_argument('user-agent=Mozilla/5.0...') - Maneja errores a través de try/except — Twitter/X cambia frecuentemente la estructura de las páginas
- Guarda los resultados en una base de datos (SQLite, PostgreSQL) o archivo CSV
Calentamiento de cuentas de Twitter/X antes del scraping masivo
Si utilizas nuevas cuentas de Twitter/X para scraping, no puedes comenzar de inmediato con la recopilación masiva de datos. La plataforma rastrea la "edad" de la cuenta y su actividad; las nuevas cuentas con comportamiento agresivo son bloqueadas primero.
Plan de calentamiento de cuenta (7-14 días)
Día 1-3: Configuración básica y actividad mínima
- Completa el perfil: avatar, bio, enlace al sitio (usa datos reales, no dejes el perfil vacío)
- Suscríbete a 5-10 cuentas populares de tu nicho
- Desplázate por el feed durante 2-3 minutos, da 2-3 likes
- Haz 1-2 retweets
- No realices más de 10 acciones al día
Día 4-7: Aumento de la actividad
- Suscríbete a 10-15 cuentas más
- Publica 1-2 tweets propios (pueden ser simples, tipo "¡Hola Twitter!")
- Aumenta la cantidad de likes a 5-10 al día
- Comienza a ver perfiles de otros usuarios (5-10 perfiles al día)
- Agrega a favoritos algunos tweets
Día 8-14: Preparación para el scraping
- Suscríbete a 20-30 cuentas, para que el número total de suscripciones sea de 50-70
- Publica 1 tweet cada 2-3 días
- Visualiza 10-20 perfiles al día
- Usa la búsqueda por hashtags (pero no raspares aún — solo busca y lee)
- En el día 12-14 puedes comenzar un scraping ligero: 20-30 perfiles al día con pausas
💡 Consejo: Si compras cuentas de Twitter/X (cuentas de granja), elige aquellas que tengan al menos 3-6 meses, con perfil completo e historial de actividad. Estas cuentas se pueden usar para scraping de inmediato, pero aún así comienza con volúmenes pequeños.
Señales de una cuenta "calentada"
- Edad de la cuenta: mínimo 14 días, mejor 30+ días
- Número de suscripciones: 50-100 (no demasiado, no demasiado poco)
- Número de seguidores: 5-20 (incluso unos pocos seguidores reales aumentan la confianza)
- Historial de tweets: mínimo 5-10 publicaciones
- Likes y retweets: 20-50 acciones en el historial
- Perfil completo: avatar, bio, posiblemente un enlace
Lista de verificación de scraping seguro: 12 reglas para protegerse contra bloqueos
Reunamos todas las recomendaciones en una lista de verificación única que debes seguir al raspar Twitter/X:
✅ Lista de verificación de seguridad
1. Usa proxies de calidad
- Para trabajar con cuentas: proxies residenciales o móviles
- Un proxy = una cuenta (no mezcles)
- Verifica la geolocalización del proxy antes de usarlo
2. Configura huellas digitales únicas
- Usa un navegador anti-detección (Dolphin Anty, AdsPower, Multilogin)
- Cada cuenta = conjunto único de parámetros (User-Agent, resolución, zona horaria)
- Desactiva WebRTC o reemplázalo por la IP del proxy
3. Cumple con los límites de tasa
- No más de 300-500 solicitudes por hora desde una cuenta
- Agrega retrasos aleatorios: 3-7 segundos entre acciones
- Haz pausas largas cada 50-100 acciones (30-60 segundos)
4. Calienta nuevas cuentas
- Mínimo 7-14 días antes del scraping activo
- Completa el perfil y crea un historial de actividad
- Comienza con volúmenes pequeños: 20-30 perfiles al día
5. Emula el comportamiento de un usuario real
- Agrega movimientos aleatorios del ratón
- Desplaza las páginas a diferentes velocidades
- A veces distrae: abre otras pestañas, haz pausas
6. Rota las direcciones IP
- Cambia la IP cada 50-100 solicitudes o cada 10-15 minutos
- Usa sesiones pegajosas para estabilidad (una IP durante 10-30 minutos)
- No vuelvas a una IP demasiado frecuentemente
7. Maneja errores correctamente
- Ante el error 429 (Too Many Requests) — pausa de al menos 15 minutos
- Ante el error 403 (Forbidden) — cambia la IP y verifica la huella digital
- Ante captchas — resuélvelos manualmente o a través de servicios (2Captcha, AntiCaptcha)
8. Almacena datos en caché
- Guarda los resultados en una base de datos
- No raspares los mismos perfiles nuevamente
- Lleva registros: qué perfiles se han procesado, cuándo, con qué resultado
9. Distribuye la carga
- Usa 5-10 cuentas para grandes volúmenes de scraping
- Cada cuenta trabaja a su propio ritmo (no las sincronices)
- Raspa en diferentes momentos del día (no todas las cuentas al mismo tiempo)
10. Trabaja en horas de máxima actividad
- Raspa en horas laborales de la geolocalización objetivo (9:00-18:00 hora local)
- Evita el scraping nocturno (00:00-06:00) — esto es sospechoso
11. Monitorea el estado de las cuentas
- Verifica las cuentas diariamente: si están bloqueadas, si hay advertencias
- Si una cuenta recibe una advertencia — reduce la actividad durante 3-7 días
- Lleva estadísticas: cuántos perfiles ha raspado cada cuenta, si hubo problemas
12. No raspares mensajes directos ni datos privados
- Recopila solo datos públicos: perfiles, tweets, suscripciones
- No intentes eludir cuentas privadas
- Cumple con los Términos de Servicio de Twitter/X (aunque el scraping los viola, minimiza los riesgos)