Proxies para el scraping de AliExpress: cómo eludir bloqueos.

```html

AliExpress lucha activamente contra la recopilación automática de datos: los scrapers reciben captchas, bloqueos temporales por IP y requisitos de autorización. Si estás monitoreando precios de competidores, buscando productos de tendencia para dropshipping o recopilando una base de datos para un marketplace, sin proxies correctamente configurados, el trabajo se convierte en una lucha constante contra los bloqueos.

En esta guía, analizaremos cómo elegir proxies para el scraping de AliExpress, configurar la rotación de direcciones IP, eludir sistemas anti-bots y automatizar la recopilación de datos sobre productos, precios y reseñas sin el riesgo de ser bloqueado.

Por qué AliExpress bloquea el scraping y cómo funciona

AliExpress utiliza un sistema de protección de múltiples niveles contra la recopilación automática de datos. La plataforma pierde dinero cuando los competidores copian masivamente los catálogos, y los servidores se sobrecargan debido a los bots. Por lo tanto, la protección se mejora constantemente y se vuelve más agresiva.

Métodos principales de detección de scrapers:

Frecuencia de solicitudes desde una IP — si en un minuto llegan más de 50 solicitudes desde una dirección, el sistema muestra automáticamente un captcha o bloquea temporalmente la IP durante 30-60 minutos.
Análisis de comportamiento — los bots abren páginas demasiado rápido (0.5-1 segundo), no mueven el ratón, no desplazan la página, no hacen clic en los elementos de la interfaz.
Falta de cookies — los usuarios normales acumulan cookies al visitar el sitio, los scrapers a menudo trabajan con sesiones limpias.
User-Agent sospechoso — versiones antiguas de navegadores, bibliotecas de servidor (Python-requests, curl), falta de dispositivos móviles en las estadísticas.
Fingerprint del navegador — AliExpress recopila huellas digitales: resolución de pantalla, zona horaria, fuentes instaladas, WebGL, Canvas. Huellas digitales idénticas desde diferentes IP son un signo de bot.

Cuando el sistema detecta actividad sospechosa, aplica una gradación de bloqueos: primero muestra un captcha, luego un bloqueo temporal de IP de 1-2 horas, y en caso de violaciones repetidas, un bloqueo de 24 horas o permanente.

Importante: AliExpress utiliza Cloudflare y su propio sistema anti-bots. Analizan no solo la IP, sino también el TLS-fingerprint (versión del protocolo, orden de cifrados) — incluso con proxies se puede ser bloqueado si se utilizan clientes HTTP obsoletos.

Qué tipos de proxies son adecuados para el scraping de AliExpress

La elección del tipo de proxy depende del volumen de scraping, el presupuesto y los requisitos de calidad de los datos. Analicemos cada tipo con escenarios de uso reales.

Tipo de proxy	Velocidad	Riesgo de bloqueo	Cuándo usar
Proxies de centros de datos	Alta (50-150 ms)	Alto	Scraping rápido de datos públicos con rotación frecuente de IP
Proxies residenciales	Media (200-500 ms)	Bajo	Scraping a largo plazo, recopilación de datos con autorización
Proxies móviles	Media (300-700 ms)	Muy bajo	Scraping desde la versión móvil, elusión de bloqueos severos

Proxies de centros de datos para scraping rápido

Son adecuados cuando necesitas recopilar rápidamente un gran volumen de datos: precios de 10000+ productos, características de categorías, lista de vendedores. La velocidad de respuesta de 50-150 ms permite hacer de 5 a 10 solicitudes por segundo desde una IP.

Escenario de uso: Tienes una tienda de dropshipping en Shopify y necesitas actualizar diariamente los precios de 5000 productos de AliExpress. Compras un pool de 50-100 IP de centros de datos con rotación cada 10-15 solicitudes. En 2-3 horas recopilas todos los datos, el costo de los proxies es de 50-100$ al mes.

Contras: AliExpress conoce los rangos de IP de los centros de datos y los trata con desconfianza. Se necesita una rotación agresiva (cambiar IP cada 5-10 solicitudes) y emulación de comportamiento (retrasos aleatorios de 2-5 segundos entre solicitudes).

Proxies residenciales para scraping estable

Los proxies residenciales tienen IP de usuarios domésticos reales — los proveedores los asignan a personas físicas. AliExpress no puede distinguir una solicitud a través de este proxy de una solicitud de un comprador normal. Esto reduce el riesgo de bloqueos de 5 a 10 veces en comparación con los centros de datos.

Escenario de uso: Estás monitoreando los precios de competidores para tu tienda en Ozon. Necesitas verificar diariamente 200-300 productos, comparando precios en AliExpress y con proveedores rusos. Usas 10-20 IP residenciales con rotación cada 50-100 solicitudes. El scraping toma 30-40 minutos, sin bloqueos durante meses.

Ventajas: Puedes trabajar desde una IP durante más tiempo (100-200 solicitudes en lugar de 10-20), menos captchas, posibilidad de autorización y trabajo con el panel de control del vendedor.

Proxies móviles para elusión de bloqueos severos

Las IP móviles (3G/4G/5G de operadores) tienen la máxima confianza — AliExpress no puede bloquear subredes enteras de operadores móviles, lo que bloquearía a millones de compradores reales. Una IP móvil puede ser utilizada por cientos de dispositivos (NAT), por lo que incluso un scraping agresivo parece actividad de diferentes usuarios.

Escenario de uso: Ya has sido bloqueado por IP residenciales en una región determinada y necesitas urgentemente recopilar datos para un informe al cliente. Adquieres 2-3 proxies móviles y haces scraping a través de la versión móvil del sitio (m.aliexpress.com). Incluso con un scraping agresivo (1 solicitud por segundo) no hay bloqueos.

Contras: Más caros que los residenciales en 2-3 veces, menor velocidad (300-700 ms de retraso), la IP puede cambiar al reconectar con el operador.

Configuración de la rotación de IP: frecuencia de cambio y timeouts

La correcta rotación de IP es clave para un scraping a largo plazo sin bloqueos. Un cambio demasiado frecuente parece sospechoso y agota los proxies, mientras que uno demasiado raro conduce a bloqueos.

Frecuencia recomendada de rotación por tipos de proxies

Tipo de proxy	Solicitudes por 1 IP	Retraso entre solicitudes	Tiempo de vida de la sesión
Centros de datos	5-15 solicitudes	2-5 segundos	1-3 minutos
Residenciales	50-150 solicitudes	3-8 segundos	10-30 minutos
Móviles	100-300 solicitudes	1-3 segundos	30-60 minutos

Estrategias de rotación para diferentes tareas

1. Scraping rápido de catálogo (10000+ productos en una hora)

Utiliza un pool de 100-200 IP de centros de datos
Rotación cada 5-10 solicitudes
Flujos paralelos: 10-20 solicitudes simultáneas desde diferentes IP
Retraso entre solicitudes: 1-2 segundos (simulación de un usuario rápido)
Si recibes un captcha en la IP, exclúyela del pool durante 2-3 horas

2. Monitoreo diario de precios (500-1000 productos)

Utiliza 10-20 IP residenciales
Rotación cada 50-100 solicitudes
Solicitudes secuenciales con un retraso de 3-5 segundos
Guarda cookies entre solicitudes desde una IP
Imita el comportamiento: a veces abre la página principal, categorías

3. Scraping con autorización (panel de control del vendedor)

Una IP residencial o móvil por cuenta
Sin rotación durante la sesión (30-60 minutos)
Retraso de 5-10 segundos entre solicitudes
Emulación completa del navegador: guardado de cookies, localStorage, fingerprint

Consejo: Añade aleatoriedad a los retrasos. En lugar de 3 segundos fijos, usa un rango de 2-5 segundos. Esto hace que el patrón de solicitudes sea menos predecible para los sistemas anti-bots.

Elusión de sistemas anti-bots: User-Agent, cookies y fingerprint

Cambiar IP solo resuelve parte del problema. AliExpress analiza decenas de parámetros de solicitudes y comportamiento para distinguir un bot de un humano. Analicemos qué se necesita configurar además de los proxies.

User-Agent y encabezados HTTP

El User-Agent informa al servidor qué navegador y sistema operativo están haciendo la solicitud. Los scrapers a menudo utilizan valores predeterminados de bibliotecas (Python-requests/2.28.0), que se detectan instantáneamente.

Configuración correcta del User-Agent:

Utiliza versiones actuales de navegadores populares: Chrome 120+, Firefox 121+, Safari 17+
Cambia el User-Agent al rotar IP — una IP no debe mostrar diferentes navegadores
Agrega User-Agents móviles en una proporción del 40-50% (la mitad del tráfico de AliExpress proviene de dispositivos móviles)
Copia el conjunto completo de encabezados de un navegador real: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests

Ejemplo de encabezados correctos para escritorio:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1

Ejemplo para dispositivo móvil:

User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br

Trabajo con cookies y sesiones

AliExpress establece cookies en la primera visita: identificador de sesión, configuraciones de idioma y moneda, tokens de seguimiento. Los scrapers sin cookies parecen sospechosos — un usuario normal las acumula al navegar por el sitio.

Trabajo correcto con cookies:

Antes de hacer scraping, abre la página principal y guarda todas las cookies
Utiliza estas cookies para todas las solicitudes posteriores desde la misma IP
Al cambiar de IP, comienza una nueva sesión con nuevas cookies
Guarda cookies entre ejecuciones del scraper — esto simula un usuario recurrente
Actualiza cookies cada 1-2 horas (abre nuevamente la página principal)

Fingerprint del navegador y TLS-fingerprint

Los modernos sistemas anti-bots recopilan una huella digital del navegador — una combinación de decenas de parámetros que identifica de manera única el dispositivo. Incluso desde diferentes IP, una huella digital idéntica revela un bot.

Qué incluye el fingerprint del navegador:

Resolución de pantalla y profundidad de color
Zona horaria y idioma del sistema
Lista de fuentes instaladas
Fingerprint de WebGL y Canvas (forma única de renderizar gráficos)
Contexto de audio (fingerprint de AudioContext)
Lista de plugins del navegador
Soporte para WebRTC, Battery API y otras API modernas

Las bibliotecas HTTP simples (requests, axios, curl) no tienen estos parámetros — trabajan a nivel de protocolo sin renderizado. Para un scraping serio se necesitan herramientas con un navegador completo.

Soluciones para emular un navegador:

Selenium + undetected-chromedriver — ejecuta un Chrome real con modificaciones para eludir la detección
Puppeteer + puppeteer-extra-plugin-stealth — biblioteca de Node.js con plugins para enmascarar la automatización
Playwright — alternativa moderna a Selenium con mejor rendimiento
Navegadores antidetección — Dolphin Anty, AdsPower, Multilogin (para trabajar a través de la interfaz)

Importante: El TLS-fingerprint (huella digital de la conexión SSL) también se analiza. Las versiones antiguas de Python y Node.js utilizan conjuntos de cifrados obsoletos que revelan un bot. Utiliza versiones actuales de bibliotecas o curl_cffi para simular navegadores modernos.

Herramientas listas para el scraping de AliExpress

Escribir un scraper desde cero solo tiene sentido para tareas específicas. Para la recopilación estándar de datos (productos, precios, reseñas) hay soluciones listas que ahorran semanas de desarrollo.

Servicios comerciales con API

1. ScraperAPI (scrape.do, scrapingbee.com)

Servicios en la nube que se encargan de todo el trabajo con proxies y elusión de protección. Envías la URL del producto de AliExpress y ellos devuelven HTML o JSON con los datos.

Ventajas: no necesitas tus propios proxies, elusión automática de captchas, scrapers listos para sitios populares
Desventajas: caro en grandes volúmenes (desde 50$ por 100K solicitudes), dependencia de un servicio externo
Cuándo usar: tareas puntuales, prototipado, volúmenes pequeños (hasta 10K productos al mes)

2. Bright Data (luminati.io)

El mayor proveedor de proxies con sus propias herramientas para scraping. Proporcionan no solo proxies, sino también conjuntos de datos listos de AliExpress (bases de datos de productos actualizadas).

Ventajas: enorme pool de IP (72+ millones residenciales), infraestructura para clientes empresariales
Desventajas: muy caro (desde 500$ al mes), tarificación complicada
Cuándo usar: grandes negocios con presupuesto, scraping constante de grandes volúmenes

Soluciones de código abierto

1. Scrapy + scrapy-rotating-proxies

Un marco popular para scraping en Python. Soporta solicitudes asíncronas, rotación automática de proxies, exportación a CSV/JSON/base de datos.

Ejemplo de configuración de proxies en Scrapy:

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:[email protected]:8000',
    'http://user:[email protected]:8000',
    'http://user:[email protected]:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

# Configuraciones para eludir el bloqueo
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300  # tiempo de bloqueo del proxy en segundos

2. Puppeteer + puppeteer-extra-plugin-stealth

Para sitios con protección agresiva (como AliExpress) se necesita un navegador completo. Puppeteer controla Chrome a través del Protocolo DevTools, el plugin stealth enmascara las señales de automatización.

// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8000',
      '--no-sandbox',
      '--disable-setuid-sandbox'
    ]
  });

  const page = await browser.newPage();
  
  // Autenticación del proxy
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });

  // Establecer un viewport realista
  await page.setViewport({
    width: 1920,
    height: 1080,
    deviceScaleFactor: 1
  });

  // Scraping del producto
  await page.goto('https://www.aliexpress.com/item/1234567890.html', {
    waitUntil: 'networkidle2'
  });

  const productData = await page.evaluate(() => {
    return {
      title: document.querySelector('.product-title-text')?.innerText,
      price: document.querySelector('.product-price-value')?.innerText,
      rating: document.querySelector('.overview-rating-average')?.innerText
    };
  });

  console.log(productData);
  await browser.close();
})();

Aplicaciones de escritorio para usuarios no técnicos

1. Octoparse

Un scraper visual sin código: haces clic en los elementos de la página, el programa recuerda la estructura y recopila los datos. Soporte integrado para proxies y programador de tareas.

Ventajas: no necesitas programar, funciona con contenido dinámico, versión en la nube para trabajo en segundo plano
Desventajas: limitaciones en la versión gratuita (10K filas al mes), a veces no maneja bien la protección compleja
Precio: desde 75$ al mes para el plan Standard

2. ParseHub

Análogo de Octoparse con una interfaz más simple. Funciona bien con AliExpress gracias a plantillas integradas para sitios populares.

Ventajas: tarifa gratuita para 200 páginas, configuración simple de proxies
Desventajas: funcionamiento lento en la versión gratuita, no hay funciones avanzadas (API, webhooks)

Geo-targeting: cómo scrapear precios para diferentes países

AliExpress muestra diferentes precios, surtido y condiciones de entrega dependiendo del país del usuario. Si trabajas con dropshipping internacional o comparas precios para diferentes mercados, necesitas proxies de regiones específicas.

Cómo AliExpress determina el país del usuario

La plataforma utiliza varias fuentes de datos:

Dirección IP — el principal método, determina el país por geolocalización de la IP
Cookies — guarda el país seleccionado en aep_usuc_f (se puede sustituir)
Encabezado Accept-Language — idioma del navegador, pero no es un factor determinante
Moneda en URL — parámetros ?currency=USD o subdominios (ru.aliexpress.com)

Para un scraping confiable de precios de un país específico, es necesario utilizar proxies de esa región. Solo sustituir cookies no siempre funciona — AliExpress prioriza la geolocalización de IP.

Regiones populares para scraping y sus características

País	Características de precios	Por qué scrapear
EE.UU.	Precios en USD, a menudo más bajos que en Europa	Dropshipping en EE.UU., comparación con Amazon
Rusia	Precios en RUB, consideración de aranceles y IVA	Comparación con Wildberries, Ozon
Alemania	Precios en EUR, entrega rápida desde almacenes de la UE	Dropshipping en Europa, eBay.de
Brasil	Precios altos debido a aranceles, pero gran demanda	E-commerce local (Mercado Livre)

Configuración de geo-targeting a través de proxies

La mayoría de los proveedores de proxies residenciales y móviles permiten elegir el país (e incluso la ciudad) a través de parámetros de conexión o API.

Ejemplo de selección de país a través del nombre de usuario del proxy:

# Formato: username-country-código_pais
proxy_us = "http://username-country-us:[email protected]:8000"
proxy_de = "http://username-country-de:[email protected]:8000"
proxy_br = "http://username-country-br:[email protected]:8000"

# Scraping del precio para EE.UU.
response_us = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_us, "https": proxy_us}
)

# Scraping del precio para Alemania
response_de = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_de, "https": proxy_de}
)

Además, ajusta los encabezados según la región:

Accept-Language: en-US para EE.UU., de-DE para Alemania, pt-BR para Brasil
Utiliza el subdominio correspondiente: ru.aliexpress.com para Rusia, de.aliexpress.com para Alemania
Verifica la moneda en la respuesta — si ves una moneda diferente, significa que el geo-targeting no funcionó

Errores comunes al hacer scraping y cómo evitarlos

Incluso con proxies y configuraciones correctas, se pueden obtener bloqueos debido a errores en la lógica del scraping. Analicemos problemas y soluciones frecuentes.

Error 1: Scraping demasiado agresivo

Problema: El scraper hace 100 solicitudes por minuto desde una IP, tratando de recopilar datos más rápido. AliExpress detecta esto como un ataque DDoS y bloquea la IP.

Solución: Añade retrasos y limita el número de solicitudes. Para proxies residenciales, una velocidad segura es de 10-20 solicitudes por minuto desde una IP (1 solicitud cada 3-6 segundos). Es mejor hacer scraping durante más tiempo que perder proxies.

Error 2: Ignorar captchas y errores

Problema: El scraper recibe una página con captcha, pero continúa scrapeando como si fuera contenido normal. Como resultado, miles de registros vacíos en la base de datos.

Solución: Verifica la respuesta del servidor antes de hacer scraping. Si en el HTML hay palabras como "captcha", "Acceso Denegado" o código de respuesta 403/429, deja de usar esa IP durante 1-2 horas.

def is_blocked(html):
    blocked_keywords = ['captcha', 'access denied', 'too many requests']
    return any(keyword in html.lower() for keyword in blocked_keywords)

response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
    print(f"Proxy {proxy} is blocked, switching...")
    # Excluimos el proxy del pool por 2 horas
    blocked_proxies[proxy] = time.time() + 7200
    continue

Error 3: Scraping de datos obsoletos

Problema: AliExpress almacena en caché las páginas a través de CDN (Cloudflare). El scraper recibe datos de 2-3 horas de antigüedad en lugar de precios actuales.

Solución: Añade un parámetro aleatorio en la URL para eludir la caché, o utiliza el encabezado Cache-Control: no-cache.

import random
import time

# Añadimos timestamp en la URL para eludir la caché
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"

# O utilizamos el encabezado
headers = {
    'Cache-Control': 'no-cache',
    'Pragma': 'no-cache'
}

Error 4: Manejo incorrecto del contenido dinámico

Problema: Los precios y características de los productos en AliExpress se cargan a través de JavaScript después de que se carga la página. Una simple solicitud HTTP recibe una plantilla HTML vacía sin datos.

Solución: Utiliza un navegador sin cabeza (Selenium, Puppeteer, Playwright) que ejecute JavaScript y espere a que se cargue completamente el contenido. O encuentra un endpoint de API que devuelva datos en JSON — a menudo está disponible a través de DevTools en Network.

Error 5: Falta de registro y monitoreo

Problema: El scraper funciona durante una semana, recopila datos, pero nadie verifica la calidad. Resulta que el 30% de los registros están vacíos debido a cambios en la estructura del sitio.

Solución: Registra todos los eventos importantes — solicitudes exitosas, errores, bloqueos de proxies, cambios en la estructura de datos. Configura alertas cuando el número de errores supere el 10%.

Checklist antes de lanzar el scraper:
✅ Retrasos entre solicitudes configurados (3-8 segundos para proxies residenciales)
✅ Rotación de IP funcionando (no más de 50-100 solicitudes por IP)
✅ User-Agent actual y cambia junto con la IP
✅ Cookies guardadas y reutilizadas
✅ Hay verificación de captcha y bloqueos
✅ Registro y monitoreo configurados
✅ Lanzamiento de prueba en 100 productos realizado con éxito

Conclusión

El scraping de AliExpress requiere un enfoque integral: los proxies correctos son solo una parte de la solución. Se necesita una rotación adecuada de IP, emulación de un navegador real, trabajo con cookies y fingerprint, así como un monitoreo constante de la calidad de los datos. Un scraping demasiado agresivo llevará a bloqueos incluso con proxies caros, mientras que una configuración correcta permitirá recopilar datos durante meses sin problemas.

Para la mayoría de las tareas (monitoreo de precios de competidores, recopilación de catálogos para dropshipping, análisis de tendencias), la opción óptima son proxies residenciales con rotación cada 50-100 solicitudes. Proporcionan un equilibrio entre velocidad de trabajo y nivel de confianza por parte de AliExpress. Si el presupuesto es limitado y se necesita alta velocidad, comienza con proxies de centros de datos, pero prepárate para bloqueos más frecuentes y la necesidad de rotación agresiva.

Recuerda: la calidad de los proxies es más importante que su cantidad. 10 IP residenciales de calidad con la configuración correcta darán mejores resultados que 100 proxies baratos de centros de datos con un alto porcentaje de bloqueos. Invierte tiempo en configurar la emulación del navegador, el registro y el monitoreo — esto se traducirá en un funcionamiento estable del scraper sin problemas constantes con captchas y bloqueos.

```

Proxies para scraping de AliExpress: cómo recopilar datos de productos sin bloqueos