O AliExpress está ativamente combatendo a coleta automática de dados — os scrapers recebem captchas, bans temporários por IP e exigências de autenticação. Se você está monitorando os preços dos concorrentes, procurando produtos em tendência para dropshipping ou coletando uma base de dados para um marketplace, sem proxies configurados corretamente, o trabalho se torna uma luta constante contra bloqueios.
Neste guia, vamos analisar como escolher um proxy para scraping do AliExpress, configurar a rotação de endereços IP, contornar sistemas anti-bot e automatizar a coleta de dados sobre produtos, preços e avaliações sem o risco de ser banido.
Por que o AliExpress bloqueia scraping e como isso funciona
O AliExpress utiliza um sistema de proteção em múltiplas camadas contra a coleta automática de dados. A plataforma perde dinheiro quando concorrentes copiam catálogos em massa, e os servidores ficam sobrecarregados com bots. Portanto, a proteção está em constante aprimoramento e se torna mais agressiva.
Métodos principais de detecção de scrapers:
- Frequência de solicitações de um único IP — se mais de 50 solicitações chegam em um minuto de um único endereço, o sistema automaticamente exibe um captcha ou bloqueia temporariamente o IP por 30-60 minutos
- Análise de comportamento — bots abrem páginas muito rapidamente (0.5-1 segundo), não movem o mouse, não rolam, não clicam em elementos da interface
- Ausência de cookies — usuários normais acumulam cookies ao visitar o site, scrapers frequentemente operam com uma sessão limpa
- User-Agent suspeito — versões antigas de navegadores, bibliotecas de servidor (Python-requests, curl), ausência de dispositivos móveis nas estatísticas
- Fingerprint do navegador — o AliExpress coleta impressões digitais: resolução da tela, fuso horário, fontes instaladas, WebGL, Canvas. Impressões digitais idênticas de diferentes IPs são um sinal de bot
Quando o sistema detecta atividade suspeita, aplica uma gradação de bloqueios: primeiro exibe um captcha, depois um ban temporário de IP por 1-2 horas, em caso de violações repetidas — ban por um dia ou permanente.
Importante: O AliExpress utiliza Cloudflare e seu próprio sistema anti-bot. Eles analisam não apenas o IP, mas também o TLS-fingerprint (versão do protocolo, ordem de cifras) — mesmo com proxies, é possível ser banido se usar clientes HTTP desatualizados.
Quais tipos de proxies são adequados para scraping do AliExpress
A escolha do tipo de proxy depende do volume de scraping, orçamento e requisitos de qualidade dos dados. Vamos analisar cada tipo com cenários reais de uso.
| Tipo de proxy | Velocidade | Risco de bloqueio | Quando usar |
|---|---|---|---|
| Proxies de data center | Alta (50-150 ms) | Alto | Scraping rápido de dados públicos com rotação frequente de IP |
| Proxies residenciais | Média (200-500 ms) | Baixo | Scraping de longo prazo, coleta de dados com autenticação |
| Proxies móveis | Média (300-700 ms) | Muito baixo | Scraping da versão móvel, contornando bloqueios severos |
Proxies de data center para scraping rápido
Adequados quando é necessário coletar rapidamente um grande volume de dados: preços de 10.000+ produtos, características de categorias, lista de vendedores. A velocidade de resposta de 50-150 ms permite fazer 5-10 solicitações por segundo de um único IP.
Cenário de uso: Você tem uma loja de dropshipping no Shopify e precisa atualizar diariamente os preços de 5.000 produtos do AliExpress. Você compra um pool de 50-100 IPs de data center com rotação a cada 10-15 solicitações. Em 2-3 horas, você coleta todos os dados, com custos de proxy de 50-100$ por mês.
Desvantagens: O AliExpress conhece os intervalos de IPs de data center e os considera suspeitos. É necessária uma rotação agressiva (mudar IP a cada 5-10 solicitações) e emulação de comportamento (atrasos aleatórios de 2-5 segundos entre solicitações).
Proxies residenciais para scraping estável
Proxies residenciais têm IPs de usuários domésticos reais — os provedores os atribuem a pessoas físicas. O AliExpress não consegue distinguir uma solicitação através de tal proxy de uma solicitação de um comprador comum. Isso reduz o risco de bloqueios em 5-10 vezes em comparação com data centers.
Cenário de uso: Você monitora os preços dos concorrentes para sua loja no Ozon. É necessário verificar diariamente 200-300 produtos, comparando preços no AliExpress e com fornecedores russos. Você usa 10-20 IPs residenciais com rotação a cada 50-100 solicitações. O scraping leva de 30 a 40 minutos, sem bloqueios por meses.
Vantagens: É possível trabalhar de um único IP por mais tempo (100-200 solicitações em vez de 10-20), menos captchas, possibilidade de autenticação e trabalho com a conta pessoal do vendedor.
Proxies móveis para contornar bloqueios severos
IPs móveis (3G/4G/5G de operadores) têm a máxima confiança — o AliExpress não pode bloquear sub-redes inteiras de operadores móveis, pois isso bloquearia milhões de compradores reais. Um único IP móvel pode ser usado por centenas de dispositivos (NAT), portanto, mesmo um scraping agressivo parece atividade de diferentes usuários.
Cenário de uso: Você já foi banido por IPs residenciais em uma determinada região e precisa urgentemente coletar dados para um relatório ao cliente. Você adquire 2-3 proxies móveis e faz scraping através da versão móvel do site (m.aliexpress.com). Mesmo com scraping agressivo (1 solicitação por segundo), não há bloqueios.
Desvantagens: Mais caros que os residenciais em 2-3 vezes, menor velocidade (300-700 ms de atraso), o IP pode mudar ao reconectar ao operador.
Configuração de rotação de IP: frequência de troca e timeouts
A rotação correta de IP é a chave para scraping de longo prazo sem bloqueios. Trocas muito frequentes parecem suspeitas e consomem proxies, enquanto trocas muito raras levam a bans.
Frequência de rotação recomendada por tipo de proxy
| Tipo de proxy | Solicitações por 1 IP | Atraso entre solicitações | Tempo de vida da sessão |
|---|---|---|---|
| Data centers | 5-15 solicitações | 2-5 segundos | 1-3 minutos |
| Residenciais | 50-150 solicitações | 3-8 segundos | 10-30 minutos |
| Móveis | 100-300 solicitações | 1-3 segundos | 30-60 minutos |
Estratégias de rotação para diferentes tarefas
1. Scraping rápido de catálogo (10.000+ produtos em uma hora)
- Use um pool de 100-200 IPs de data center
- Rotação a cada 5-10 solicitações
- Fluxos paralelos: 10-20 solicitações simultâneas de diferentes IPs
- Atraso entre solicitações: 1-2 segundos (simulando um usuário rápido)
- Se receber um captcha no IP — exclua-o do pool por 2-3 horas
2. Monitoramento diário de preços (500-1000 produtos)
- Use 10-20 IPs residenciais
- Rotação a cada 50-100 solicitações
- Solicitações sequenciais com atraso de 3-5 segundos
- Mantenha cookies entre solicitações de um único IP
- Imite o comportamento: às vezes abra a página inicial, categorias
3. Scraping com autenticação (conta pessoal do vendedor)
- Um IP residencial ou móvel por conta
- Sem rotação durante a sessão (30-60 minutos)
- Atraso de 5-10 segundos entre solicitações
- Emulação completa do navegador: salvamento de cookies, localStorage, fingerprint
Dica: Adicione aleatoriedade aos atrasos. Em vez de 3 segundos fixos, use um intervalo de 2-5 segundos. Isso torna o padrão de solicitações menos previsível para sistemas anti-bot.
Contornando sistemas anti-bot: User-Agent, cookies e fingerprint
Mudar o IP resolve apenas parte do problema. O AliExpress analisa dezenas de parâmetros de solicitações e comportamentos para distinguir um bot de um humano. Vamos analisar o que precisa ser configurado além do proxy.
User-Agent e cabeçalhos HTTP
O User-Agent informa ao servidor qual navegador e sistema operacional estão fazendo a solicitação. Scrapers frequentemente usam valores padrão de bibliotecas (Python-requests/2.28.0), que são rapidamente identificáveis.
Configuração correta do User-Agent:
- Use versões atuais de navegadores populares: Chrome 120+, Firefox 121+, Safari 17+
- Mude o User-Agent ao rotacionar IP — um IP não deve mostrar diferentes navegadores
- Adicione User-Agents móveis em uma proporção de 40-50% (metade do tráfego do AliExpress é de dispositivos móveis)
- Copie o conjunto completo de cabeçalhos de um navegador real: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests
Exemplo de cabeçalhos corretos para desktop:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Exemplo para dispositivo móvel:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Trabalhando com cookies e sessões
O AliExpress define cookies na primeira visita: identificador de sessão, configurações de idioma e moeda, tokens para rastreamento. Scrapers sem cookies parecem suspeitos — um usuário normal acumula cookies ao navegar pelo site.
Trabalho correto com cookies:
- Antes do scraping, abra a página inicial e salve todos os cookies
- Use esses cookies para todas as solicitações subsequentes do mesmo IP
- Ao mudar de IP — inicie uma nova sessão com novos cookies
- Salve cookies entre execuções do scraper — isso imita um usuário retornando
- Atualize cookies a cada 1-2 horas (reabra a página inicial)
Fingerprint do navegador e TLS-fingerprint
Sistemas modernos anti-bot coletam a impressão digital do navegador — uma combinação de dezenas de parâmetros que identifica de forma única o dispositivo. Mesmo de diferentes IPs, a mesma impressão digital indica um bot.
O que compõe a impressão digital do navegador:
- Resolução da tela e profundidade de cor
- Fuso horário e idioma do sistema
- Lista de fontes instaladas
- Fingerprint do WebGL e Canvas (forma única de renderizar gráficos)
- Contexto de áudio (fingerprint do AudioContext)
- Lista de plugins do navegador
- Suporte a WebRTC, Battery API e outras APIs modernas
Bibliotecas HTTP simples (requests, axios, curl) não têm esses parâmetros — elas operam no nível do protocolo sem renderização. Para scraping sério, são necessárias ferramentas com um navegador completo.
Soluções para emulação de navegador:
- Selenium + undetected-chromedriver — executa o Chrome real com modificações para contornar a detecção
- Puppeteer + puppeteer-extra-plugin-stealth — biblioteca Node.js com plugins para mascarar a automação
- Playwright — alternativa moderna ao Selenium com melhor desempenho
- Navegadores antidetect — Dolphin Anty, AdsPower, Multilogin (para trabalhar através da interface)
Importante: O TLS-fingerprint (impressão digital da conexão SSL) também é analisado. Versões antigas do Python e Node.js usam conjuntos de cifras desatualizados, que indicam um bot. Use versões atuais das bibliotecas ou curl_cffi para imitar navegadores modernos.
Ferramentas prontas para scraping do AliExpress
Escrever um scraper do zero faz sentido apenas para tarefas específicas. Para coleta padrão de dados (produtos, preços, avaliações), existem soluções prontas que economizam semanas de desenvolvimento.
Serviços comerciais com API
1. ScraperAPI (scrape.do, scrapingbee.com)
Serviços em nuvem que cuidam de todo o trabalho com proxies e contorno de proteção. Você envia a URL do produto do AliExpress, e eles retornam HTML ou JSON com os dados.
- Vantagens: não precisa de proxies próprios, contorno automático de captchas, scrapers prontos para sites populares
- Desvantagens: caro em grandes volumes (a partir de 50$ por 100K solicitações), dependência de um serviço externo
- Quando usar: tarefas pontuais, prototipagem, volumes pequenos (até 10K produtos por mês)
2. Bright Data (luminati.io)
O maior provedor de proxies com suas próprias ferramentas para scraping. Oferecem não apenas proxies, mas também conjuntos de dados prontos do AliExpress (bases de produtos atualizadas).
- Vantagens: enorme pool de IPs (72+ milhões residenciais), infraestrutura para clientes Enterprise
- Desvantagens: muito caro (a partir de 500$ por mês), tarifação complexa
- Quando usar: grandes negócios com orçamento, scraping constante de grandes volumes
Soluções open-source
1. Scrapy + scrapy-rotating-proxies
Um framework popular para scraping em Python. Suporta solicitações assíncronas, rotação automática de proxies, exportação para CSV/JSON/banco de dados.
Exemplo de configuração de proxies no Scrapy:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# Configurações para contornar ban
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # tempo de ban do proxy em segundos
2. Puppeteer + puppeteer-extra-plugin-stealth
Para sites com proteção agressiva (como o AliExpress), é necessário um navegador completo. O Puppeteer controla o Chrome através do DevTools Protocol, e o plugin stealth mascara os sinais de automação.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// Autenticação do proxy
await page.authenticate({
username: 'user',
password: 'pass'
});
// Definindo um viewport realista
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// Scraping do produto
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
Aplicativos desktop para usuários não técnicos
1. Octoparse
Um scraper visual sem código — você clica nos elementos da página, o programa memoriza a estrutura e coleta os dados. Suporte embutido para proxies e agendador de tarefas.
- Vantagens: não precisa programar, funciona com conteúdo dinâmico, versão em nuvem para trabalho em segundo plano
- Desvantagens: limitações na versão gratuita (10K linhas por mês), às vezes não lida bem com proteção complexa
- Preço: a partir de 75$ por mês para o plano Standard
2. ParseHub
Análogo ao Octoparse com uma interface mais simples. Funciona bem com o AliExpress devido aos templates embutidos para sites populares.
- Vantagens: plano gratuito para 200 páginas, configuração simples de proxies
- Desvantagens: trabalho lento na versão gratuita, sem funções avançadas (API, webhooks)
Geo-targeting: como coletar preços para diferentes países
O AliExpress mostra preços diferentes, sortimento e condições de entrega dependendo do país do usuário. Se você trabalha com dropshipping internacional ou compara preços para diferentes mercados, precisa de proxies de regiões específicas.
Como o AliExpress determina o país do usuário
A plataforma utiliza várias fontes de dados:
- Endereço IP — principal método, determina o país pela geolocalização do IP
- Cookies — salva o país selecionado em aep_usuc_f (pode ser substituído)
- Cabeçalho Accept-Language — idioma do navegador, mas não é um fator determinante
- Moeda na URL — parâmetros ?currency=USD ou subdomínios (ru.aliexpress.com)
Para um scraping confiável de preços de um país específico, é necessário usar proxies dessa região. Apenas substituir cookies nem sempre funciona — o AliExpress prioriza a geolocalização do IP.
Regiões populares para scraping e suas características
| País | Características de preços | Por que coletar |
|---|---|---|
| EUA | Preços em USD, frequentemente mais baixos que na Europa | Dropshipping nos EUA, comparação com a Amazon |
| Rússia | Preços em RUB, consideração de tarifas e IVA | Comparação com Wildberries, Ozon |
| Alemanha | Preços em EUR, entrega rápida de armazéns da UE | Dropshipping na Europa, eBay.de |
| Brasil | Preços altos devido a tarifas, mas grande demanda | E-commerce local (Mercado Livre) |
Configuração de geo-targeting através de proxies
A maioria dos provedores de proxies residenciais e móveis permite escolher o país (e até a cidade) através de parâmetros de conexão ou API.
Exemplo de escolha do país através do username do proxy:
# Formato: username-country-código_do_país
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# Scraping do preço para os EUA
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# Scraping do preço para a Alemanha
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
Além disso, ajuste os cabeçalhos para a região:
- Accept-Language: en-US para os EUA, de-DE para a Alemanha, pt-BR para o Brasil
- Use o subdomínio correspondente: ru.aliexpress.com para a Rússia, de.aliexpress.com para a Alemanha
- Verifique a moeda na resposta — se você vê uma moeda diferente, significa que o geo-targeting não funcionou
Erros comuns ao fazer scraping e como evitá-los
Mesmo com proxies e configurações corretas, é possível receber bloqueios devido a erros na lógica de scraping. Vamos analisar problemas frequentes e soluções.
Erro 1: Scraping muito agressivo
Problema: O scraper faz 100 solicitações por minuto de um único IP, tentando coletar dados mais rapidamente. O AliExpress detecta isso como um ataque DDoS e bloqueia o IP.
Solução: Adicione atrasos e limite o número de solicitações. Para proxies residenciais, uma velocidade segura é de 10-20 solicitações por minuto de um único IP (1 solicitação a cada 3-6 segundos). É melhor fazer scraping por mais tempo do que perder proxies.
Erro 2: Ignorar captchas e erros
Problema: O scraper recebe uma página com captcha, mas continua a fazer scraping como se fosse conteúdo normal. Como resultado — milhares de registros vazios no banco de dados.
Solução: Verifique a resposta do servidor antes de fazer scraping. Se no HTML houver palavras "captcha", "Access Denied" ou código de resposta 403/429 — pare de usar esse IP por 1-2 horas.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"Proxy {proxy} is blocked, switching...")
# Exclua o proxy do pool por 2 horas
blocked_proxies[proxy] = time.time() + 7200
continue
Erro 3: Scraping de dados desatualizados
Problema: O AliExpress cacheia páginas através de CDN (Cloudflare). O scraper recebe dados com 2-3 horas de atraso em vez de preços atuais.
Solução: Adicione um parâmetro aleatório na URL para contornar o cache, ou use o cabeçalho Cache-Control: no-cache.
import random
import time
# Adicionando timestamp na URL para contornar o cache
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# Ou use o cabeçalho
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
Erro 4: Tratamento incorreto de conteúdo dinâmico
Problema: Preços e características de produtos no AliExpress são carregados via JavaScript após o carregamento da página. Uma simples solicitação HTTP recebe um template HTML vazio sem dados.
Solução: Use um navegador headless (Selenium, Puppeteer, Playwright) que execute JavaScript e aguarde o carregamento completo do conteúdo. Ou encontre um endpoint de API que retorne dados em JSON — frequentemente está disponível através do DevTools na aba Network.
Erro 5: Ausência de logging e monitoramento
Problema: O scraper funciona por uma semana, coletando dados, mas ninguém verifica a qualidade. Descobre-se que 30% dos registros estão vazios devido a mudanças na estrutura do site.
Solução: Registre todos os eventos importantes — solicitações bem-sucedidas, erros, bloqueios de proxies, mudanças na estrutura de dados. Configure alertas quando o número de erros ultrapassar 10%.
Checklist antes de iniciar o scraper:
✅ Atrasos entre solicitações configurados (3-8 segundos para proxies residenciais)
✅ A rotação de IP está funcionando (não mais de 50-100 solicitações por IP)
✅ User-Agent é atual e muda junto com o IP
✅ Cookies são salvos e reutilizados
✅ Há verificação para captchas e bloqueios
✅ Logging e monitoramento estão configurados
✅ O teste em 100 produtos foi bem-sucedido
Conclusão
O scraping do AliExpress requer uma abordagem abrangente: proxies corretos são apenas parte da solução. É necessária uma rotação inteligente de IP, emulação de um navegador real, trabalho com cookies e fingerprint, além de monitoramento constante da qualidade dos dados. Um scraping muito agressivo levará a bloqueios mesmo com proxies caros, enquanto uma configuração correta permitirá coletar dados por meses sem problemas.
Para a maioria das tarefas (monitoramento de preços de concorrentes, coleta de catálogos para dropshipping, análise de tendências), a escolha ideal são proxies residenciais com rotação a cada 50-100 solicitações. Eles oferecem um equilíbrio entre velocidade de operação e nível de confiança por parte do AliExpress. Se o orçamento for limitado e a alta velocidade for necessária — comece com proxies de data center, mas esteja preparado para bloqueios mais frequentes e a necessidade de rotação agressiva.
Lembre-se: a qualidade dos proxies é mais importante do que a quantidade. 10 IPs residenciais de qualidade com a configuração correta trarão melhores resultados do que 100 proxies baratos de data center com uma alta taxa de bloqueios. Invista tempo na configuração da emulação do navegador, logging e monitoramento — isso se pagará com um funcionamento estável do scraper sem problemas constantes com captchas e bans.