AliExpress combatte attivamente la raccolta automatica di dati: i parser ricevono captcha, ban temporanei per IP e richieste di autorizzazione. Se monitori i prezzi dei concorrenti, cerchi prodotti di tendenza per il dropshipping o raccogli dati per un marketplace, senza proxy configurati correttamente, il lavoro si trasforma in una continua lotta contro i blocchi.
In questa guida analizzeremo come scegliere un proxy per il parsing di AliExpress, configurare la rotazione degli indirizzi IP, bypassare i sistemi anti-bot e automatizzare la raccolta di dati su prodotti, prezzi e recensioni senza il rischio di essere bannati.
Perché AliExpress blocca il parsing e come funziona
AliExpress utilizza un sistema di protezione multilivello contro la raccolta automatica di dati. La piattaforma perde denaro quando i concorrenti copiano massicciamente i cataloghi, e i server si sovraccaricano a causa dei bot. Pertanto, la protezione viene costantemente migliorata e diventa più aggressiva.
Principali metodi di rilevamento dei parser:
- Frequenza delle richieste da un IP — se in un minuto arrivano 50+ richieste da un unico indirizzo, il sistema mostra automaticamente un captcha o blocca temporaneamente l'IP per 30-60 minuti
- Analisi del comportamento — i bot aprono le pagine troppo rapidamente (0.5-1 secondo), non muovono il mouse, non scorrono, non cliccano sugli elementi dell'interfaccia
- Assenza di cookies — gli utenti normali accumulano cookies durante la navigazione sul sito, i parser spesso lavorano con sessioni pulite
- User-Agent sospetto — versioni obsolete dei browser, librerie server (Python-requests, curl), assenza di dispositivi mobili nelle statistiche
- Fingerprint del browser — AliExpress raccoglie il fingerprint: risoluzione dello schermo, fuso orario, font installati, WebGL, Canvas. Fingerprint identici da IP diversi — segno di un bot
Quando il sistema rileva un'attività sospetta, applica una gradazione di blocchi: prima mostra un captcha, poi un ban temporaneo dell'IP per 1-2 ore, in caso di violazioni ripetute — ban per un giorno o permanente.
Importante: AliExpress utilizza Cloudflare e un proprio sistema anti-bot. Analizzano non solo l'IP, ma anche il TLS-fingerprint (versione del protocollo, ordine dei cipher) — anche con proxy si può essere bannati se si utilizzano client HTTP obsoleti.
Quali tipi di proxy sono adatti per il parsing di AliExpress
La scelta del tipo di proxy dipende dal volume di parsing, dal budget e dai requisiti di qualità dei dati. Analizziamo ogni tipo con scenari reali di utilizzo.
| Tipo di proxy | Velocità | Rischio di blocco | Quando utilizzare |
|---|---|---|---|
| Proxy dei data center | Alta (50-150 ms) | Alta | Parsing rapido di dati pubblici con frequente rotazione IP |
| Proxy residenziali | Media (200-500 ms) | Basso | Parsing a lungo termine, raccolta di dati con autorizzazione |
| Proxy mobili | Media (300-700 ms) | Molto basso | Parsing dalla versione mobile, bypass di blocchi severi |
Proxy dei data center per un parsing veloce
Adatti quando è necessario raccogliere rapidamente un grande volume di dati: prezzi su 10000+ prodotti, caratteristiche delle categorie, elenco dei venditori. La velocità di risposta di 50-150 ms consente di effettuare 5-10 richieste al secondo da un unico IP.
Scenario di utilizzo: Hai un negozio di dropshipping su Shopify e devi aggiornare quotidianamente i prezzi su 5000 prodotti da AliExpress. Acquisti un pool di 50-100 IP dei data center con rotazione ogni 10-15 richieste. In 2-3 ore raccogli tutti i dati, i costi per i proxy sono di 50-100$ al mese.
Contro: AliExpress conosce gli intervalli di IP dei data center e li considera sospetti. È necessaria una rotazione aggressiva (cambiare IP ogni 5-10 richieste) e un'emulazione del comportamento (ritardi casuali di 2-5 secondi tra le richieste).
Proxy residenziali per un parsing stabile
I proxy residenziali hanno IP di utenti domestici reali — i fornitori li assegnano a persone fisiche. AliExpress non può distinguere una richiesta tramite un proxy di questo tipo da una richiesta di un normale acquirente. Questo riduce il rischio di blocchi di 5-10 volte rispetto ai data center.
Scenario di utilizzo: Monitori i prezzi dei concorrenti per il tuo negozio su Ozon. Devi controllare ogni giorno 200-300 prodotti, confrontare i prezzi su AliExpress e con i fornitori russi. Utilizzi 10-20 IP residenziali con rotazione ogni 50-100 richieste. Il parsing richiede 30-40 minuti, senza blocchi per mesi.
Pro: Puoi lavorare dallo stesso IP più a lungo (100-200 richieste invece di 10-20), meno captcha, possibilità di autorizzazione e lavoro con il pannello personale del venditore.
Proxy mobili per bypassare blocchi severi
Gli IP mobili (3G/4G/5G degli operatori) hanno la massima fiducia — AliExpress non può bloccare intere sottoreti degli operatori mobili, questo bloccherebbe milioni di acquirenti reali. Un singolo IP mobile può essere utilizzato da centinaia di dispositivi (NAT), quindi anche un parsing aggressivo appare come un'attività di diversi utenti.
Scenario di utilizzo: Sei già stato bannato per IP residenziali in una certa regione e hai bisogno urgentemente di raccogliere dati per un report al cliente. Prendi 2-3 proxy mobili, parsando tramite la versione mobile del sito (m.aliexpress.com). Anche con un parsing aggressivo (1 richiesta al secondo) non ci sono blocchi.
Contro: Più costosi dei residenziali di 2-3 volte, minore velocità (300-700 ms di latenza), l'IP può cambiare al riaggancio dell'operatore.
Impostazione della rotazione IP: frequenza di cambio e timeout
Una corretta rotazione degli IP è la chiave per un parsing a lungo termine senza blocchi. Cambiare troppo frequentemente appare sospetto e consuma i proxy, mentre cambiare troppo raramente porta a ban.
Frequenza di rotazione consigliata per tipo di proxy
| Tipo di proxy | Richieste per 1 IP | Ritardo tra le richieste | Tempo di vita della sessione |
|---|---|---|---|
| Data center | 5-15 richieste | 2-5 secondi | 1-3 minuti |
| Residenziali | 50-150 richieste | 3-8 secondi | 10-30 minuti |
| Mobili | 100-300 richieste | 1-3 secondi | 30-60 minuti |
Strategie di rotazione per diverse attività
1. Parsing rapido del catalogo (10000+ prodotti in un'ora)
- Utilizza un pool di 100-200 IP dei data center
- Rotazione ogni 5-10 richieste
- Flussi paralleli: 10-20 richieste simultanee da IP diversi
- Ritardo tra le richieste: 1-2 secondi (simulazione di un utente veloce)
- Se ricevi un captcha su un IP — escludilo dal pool per 2-3 ore
2. Monitoraggio quotidiano dei prezzi (500-1000 prodotti)
- Utilizza 10-20 IP residenziali
- Rotazione ogni 50-100 richieste
- Richieste sequenziali con ritardo di 3-5 secondi
- Conserva i cookies tra le richieste dallo stesso IP
- Imita il comportamento: a volte apri la homepage, le categorie
3. Parsing con autorizzazione (pannello personale del venditore)
- Un IP residenziale o mobile per account
- Senza rotazione durante la sessione (30-60 minuti)
- Ritardo di 5-10 secondi tra le richieste
- Emulazione completa del browser: salvataggio di cookies, localStorage, fingerprint
Consiglio: Aggiungi casualità nei ritardi. Invece di 3 secondi fissi, utilizza un intervallo di 2-5 secondi. Questo rende il pattern delle richieste meno prevedibile per i sistemi anti-bot.
Bypass dei sistemi anti-bot: User-Agent, cookies e fingerprint
Cambiare IP risolve solo parte del problema. AliExpress analizza decine di parametri delle richieste e del comportamento per distinguere un bot da un umano. Analizziamo cosa è necessario configurare oltre ai proxy.
User-Agent e intestazioni HTTP
L'User-Agent informa il server quale browser e sistema operativo stanno effettuando la richiesta. I parser spesso utilizzano valori predefiniti delle librerie (Python-requests/2.28.0), che vengono immediatamente rilevati.
Configurazione corretta dell'User-Agent:
- Utilizza versioni aggiornate dei browser più popolari: Chrome 120+, Firefox 121+, Safari 17+
- Cambia l'User-Agent durante la rotazione degli IP — un IP non deve mostrare browser diversi
- Aggiungi User-Agent mobili in proporzione 40-50% (metà del traffico di AliExpress proviene da dispositivi mobili)
- Copia l'intero set di intestazioni da un browser reale: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests
Esempio di intestazioni corrette per desktop:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Esempio per dispositivo mobile:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Lavorare con cookies e sessioni
AliExpress imposta cookies al primo accesso: identificatore di sessione, impostazioni di lingua e valuta, token per il tracciamento. I parser senza cookies appaiono sospetti — un utente normale li accumula navigando nel sito.
Corretta gestione dei cookies:
- Prima del parsing, apri la homepage e salva tutti i cookies
- Utilizza questi cookies per tutte le richieste successive dallo stesso IP
- Quando cambi IP — inizia una nuova sessione con nuovi cookies
- Conserva i cookies tra le esecuzioni del parser — questo simula un utente di ritorno
- Aggiorna i cookies ogni 1-2 ore (riapri la homepage)
Fingerprint del browser e TLS-fingerprint
I moderni sistemi anti-bot raccolgono un'impronta digitale del browser — una combinazione di decine di parametri che identifica univocamente il dispositivo. Anche da IP diversi, lo stesso fingerprint rivela un bot.
Cosa include il fingerprint del browser:
- Risoluzione dello schermo e profondità del colore
- Fuso orario e lingua del sistema
- Elenco dei font installati
- Fingerprint WebGL e Canvas (modo unico di rendering della grafica)
- Contesto audio (fingerprint AudioContext)
- Elenco dei plugin del browser
- Supporto per WebRTC, Battery API e altre API moderne
Le semplici librerie HTTP (requests, axios, curl) non hanno questi parametri — lavorano a livello di protocollo senza rendering. Per un parsing serio sono necessari strumenti con un browser completo.
Soluzioni per l'emulazione del browser:
- Selenium + undetected-chromedriver — avvia Chrome reale con modifiche per bypassare il rilevamento
- Puppeteer + puppeteer-extra-plugin-stealth — libreria Node.js con plugin per mascherare l'automazione
- Playwright — alternativa moderna a Selenium con migliori prestazioni
- Browser antidetect — Dolphin Anty, AdsPower, Multilogin (per lavorare tramite interfaccia)
Importante: Anche il TLS-fingerprint (impronta della connessione SSL) viene analizzato. Le versioni obsolete di Python e Node.js utilizzano set di cipher obsoleti, che rivelano un bot. Utilizza versioni aggiornate delle librerie o curl_cffi per emulare i browser moderni.
Strumenti pronti per il parsing di AliExpress
Scrivere un parser da zero ha senso solo per compiti specifici. Per la raccolta standard di dati (prodotti, prezzi, recensioni) ci sono soluzioni pronte che risparmiano settimane di sviluppo.
Servizi commerciali con API
1. ScraperAPI (scrape.do, scrapingbee.com)
Servizi cloud che si occupano di tutto il lavoro con i proxy e il bypass della protezione. Inviate loro l'URL del prodotto AliExpress e restituiscono HTML o JSON con i dati.
- Pro: non servono proxy propri, bypass automatico dei captcha, parser pronti per siti popolari
- Contro: costosi per grandi volumi (da 50$ per 100K richieste), dipendenza da un servizio esterno
- Quando utilizzare: compiti occasionali, prototipazione, piccoli volumi (fino a 10K prodotti al mese)
2. Bright Data (luminati.io)
Il più grande fornitore di proxy con strumenti propri per il parsing. Offrono non solo proxy, ma anche dataset pronti con AliExpress (basi di dati aggiornate sui prodotti).
- Pro: enorme pool di IP (72+ milioni residenziali), infrastruttura per clienti Enterprise
- Contro: molto costoso (da 500$ al mese), tariffazione complessa
- Quando utilizzare: grandi aziende con budget, parsing costante di grandi volumi
Soluzioni open-source
1. Scrapy + scrapy-rotating-proxies
Framework popolare per il parsing in Python. Supporta richieste asincrone, rotazione automatica dei proxy, esportazione in CSV/JSON/database.
Esempio di configurazione dei proxy in Scrapy:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# Impostazioni per bypassare il ban
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # tempo di ban del proxy in secondi
2. Puppeteer + puppeteer-extra-plugin-stealth
Per siti con protezione aggressiva (come AliExpress) è necessario un browser completo. Puppeteer controlla Chrome tramite il DevTools Protocol, il plugin stealth maschera i segni di automazione.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// Autenticazione del proxy
await page.authenticate({
username: 'user',
password: 'pass'
});
// Impostazione di un viewport realistico
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// Parsing del prodotto
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
Applicazioni desktop per utenti non tecnici
1. Octoparse
Parser visivo senza codice — clicchi sugli elementi della pagina, il programma memorizza la struttura e raccoglie i dati. Supporto integrato per proxy e pianificatore di attività.
- Pro: non è necessario programmare, funziona con contenuti dinamici, versione cloud per lavoro in background
- Contro: limitazioni nella versione gratuita (10K righe al mese), a volte non riesce a gestire protezioni complesse
- Prezzo: da 75$ al mese per il piano Standard
2. ParseHub
Analogo di Octoparse con un'interfaccia più semplice. Funziona bene con AliExpress grazie a modelli integrati per siti popolari.
- Pro: piano gratuito per 200 pagine, semplice configurazione dei proxy
- Contro: lavoro lento nella versione gratuita, mancanza di funzioni avanzate (API, webhooks)
Geo-targeting: come parsare i prezzi per diversi paesi
AliExpress mostra prezzi, assortimento e condizioni di spedizione diversi a seconda del paese dell'utente. Se lavori con il dropshipping internazionale o confronti i prezzi per diversi mercati, hai bisogno di proxy da regioni specifiche.
Come AliExpress determina il paese dell'utente
La piattaforma utilizza diverse fonti di dati:
- Indirizzo IP — il modo principale, determina il paese tramite la geolocalizzazione dell'IP
- Cookies — salva il paese selezionato in aep_usuc_f (può essere sostituito)
- Intestazione Accept-Language — lingua del browser, ma non è un fattore determinante
- Valuta nell'URL — parametri ?currency=USD o sottodomini (ru.aliexpress.com)
Per un parsing affidabile dei prezzi di un paese specifico, è necessario utilizzare proxy di quella regione. Sostituire solo i cookies non sempre funziona — AliExpress dà priorità alla geolocalizzazione IP.
Regioni popolari per il parsing e le loro caratteristiche
| Paese | Caratteristiche dei prezzi | Perché parsare |
|---|---|---|
| USA | Prezzi in USD, spesso inferiori rispetto all'Europa | Dropshipping negli USA, confronto con Amazon |
| Russia | Prezzi in RUB, considerazione di dazi e IVA | Confronto con Wildberries, Ozon |
| Germania | Prezzi in EUR, spedizione veloce dai magazzini EU | Dropshipping in Europa, eBay.de |
| Brasile | Prezzi elevati a causa dei dazi, ma alta domanda | E-commerce locale (Mercado Livre) |
Impostazione del geo-targeting tramite proxy
La maggior parte dei fornitori di proxy residenziali e mobili consente di scegliere il paese (e persino la città) tramite parametri di connessione o API.
Esempio di scelta del paese tramite username del proxy:
# Formato: username-country-codice_paese
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# Parsing del prezzo per gli USA
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# Parsing del prezzo per la Germania
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
Inoltre, imposta le intestazioni in base alla regione:
- Accept-Language: en-US per gli USA, de-DE per la Germania, pt-BR per il Brasile
- Utilizza il sottodominio appropriato: ru.aliexpress.com per la Russia, de.aliexpress.com per la Germania
- Controlla la valuta nella risposta — se vedi una valuta errata, significa che il geo-targeting non ha funzionato
Errori comuni nel parsing e come evitarli
Anche con i proxy e le impostazioni corrette, è possibile ricevere blocchi a causa di errori nella logica di parsing. Analizziamo problemi frequenti e soluzioni.
Errore 1: Parsing troppo aggressivo
Problema: Il parser effettua 100 richieste al minuto da un unico IP, cercando di raccogliere dati più velocemente. AliExpress rileva questo come un attacco DDoS e blocca l'IP.
Soluzione: Aggiungi ritardi e limita il numero di richieste. Per i proxy residenziali, una velocità sicura è di 10-20 richieste al minuto da un unico IP (1 richiesta ogni 3-6 secondi). È meglio parsare più a lungo che perdere i proxy.
Errore 2: Ignorare captcha e errori
Problema: Il parser riceve una pagina con captcha, ma continua a parsarla come contenuto normale. Di conseguenza, si ottengono migliaia di record vuoti nel database.
Soluzione: Controlla la risposta del server prima del parsing. Se nell'HTML ci sono parole come "captcha", "Access Denied" o codice di risposta 403/429 — smetti di utilizzare questo IP per 1-2 ore.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"Proxy {proxy} is blocked, switching...")
# Escludiamo il proxy dal pool per 2 ore
blocked_proxies[proxy] = time.time() + 7200
continue
Errore 3: Parsing di dati obsoleti
Problema: AliExpress memorizza le pagine tramite CDN (Cloudflare). Il parser riceve dati vecchi di 2-3 ore invece dei prezzi attuali.
Soluzione: Aggiungi un parametro casuale nell'URL per bypassare la cache, oppure utilizza l'intestazione Cache-Control: no-cache.
import random
import time
# Aggiungi timestamp nell'URL per bypassare la cache
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# Oppure utilizza l'intestazione
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
Errore 4: Errata gestione dei contenuti dinamici
Problema: Prezzi e caratteristiche dei prodotti su AliExpress vengono caricati tramite JavaScript dopo il caricamento della pagina. Una semplice richiesta HTTP ottiene un template HTML vuoto senza dati.
Soluzione: Utilizza un browser headless (Selenium, Puppeteer, Playwright) che esegue JavaScript e attende il caricamento completo del contenuto. Oppure trova un endpoint API che restituisce dati in JSON — spesso è accessibile tramite DevTools in Network.
Errore 5: Mancanza di logging e monitoraggio
Problema: Il parser funziona per una settimana, raccoglie dati, ma nessuno controlla la qualità. Risulta che il 30% dei record è vuoto a causa di cambiamenti nella struttura del sito.
Soluzione: Registra tutti gli eventi importanti — richieste riuscite, errori, blocchi dei proxy, cambiamenti nella struttura dei dati. Imposta avvisi quando il numero di errori supera il 10%.
Checklist prima di avviare il parser:
✅ Ritardi tra le richieste impostati (3-8 secondi per i proxy residenziali)
✅ La rotazione IP funziona (non più di 50-100 richieste per un IP)
✅ User-Agent aggiornato e cambia insieme all'IP
✅ I cookies vengono salvati e riutilizzati
✅ C'è un controllo per captcha e blocchi
✅ Logging e monitoraggio sono impostati
✅ Il test di avvio su 100 prodotti è andato a buon fine
Conclusione
Il parsing di AliExpress richiede un approccio complesso: i proxy corretti sono solo una parte della soluzione. È necessaria una rotazione intelligente degli IP, un'emulazione di un browser reale, la gestione di cookies e fingerprint, nonché un monitoraggio costante della qualità dei dati. Un parsing troppo aggressivo porterà a blocchi anche con proxy costosi, mentre una configurazione corretta consentirà di raccogliere dati per mesi senza problemi.
Per la maggior parte delle attività (monitoraggio dei prezzi dei concorrenti, raccolta di cataloghi per il dropshipping, analisi delle tendenze) la scelta ottimale sono i proxy residenziali con rotazione ogni 50-100 richieste. Offrono un equilibrio tra velocità di lavoro e livello di fiducia da parte di AliExpress. Se il budget è limitato e serve alta velocità, inizia con i proxy dei data center, ma preparati a blocchi più frequenti e alla necessità di una rotazione aggressiva.
Ricorda: la qualità dei proxy è più importante della loro quantità. 10 IP residenziali di qualità con la configurazione corretta daranno risultati migliori rispetto a 100 proxy dei data center economici con un alto tasso di blocchi. Investi tempo nella configurazione dell'emulazione del browser, nel logging e nel monitoraggio — ne varrà la pena per un funzionamento stabile del parser senza problemi costanti con captcha e ban.