Torna al blog

Proxy per il scraping di AliExpress: come raccogliere dati sui prodotti senza blocchi

Analizziamo come impostare un parsing sicuro dei cataloghi di AliExpress tramite proxy: quali tipi di IP utilizzare, come evitare i blocchi e automatizzare la raccolta di dati su prodotti e prezzi.

📅23 gennaio 2026
```html

AliExpress combatte attivamente la raccolta automatica di dati: i parser ricevono captcha, ban temporanei per IP e richieste di autorizzazione. Se monitori i prezzi dei concorrenti, cerchi prodotti di tendenza per il dropshipping o raccogli dati per un marketplace, senza proxy configurati correttamente, il lavoro si trasforma in una continua lotta contro i blocchi.

In questa guida analizzeremo come scegliere un proxy per il parsing di AliExpress, configurare la rotazione degli indirizzi IP, bypassare i sistemi anti-bot e automatizzare la raccolta di dati su prodotti, prezzi e recensioni senza il rischio di essere bannati.

Perché AliExpress blocca il parsing e come funziona

AliExpress utilizza un sistema di protezione multilivello contro la raccolta automatica di dati. La piattaforma perde denaro quando i concorrenti copiano massicciamente i cataloghi, e i server si sovraccaricano a causa dei bot. Pertanto, la protezione viene costantemente migliorata e diventa più aggressiva.

Principali metodi di rilevamento dei parser:

  • Frequenza delle richieste da un IP — se in un minuto arrivano 50+ richieste da un unico indirizzo, il sistema mostra automaticamente un captcha o blocca temporaneamente l'IP per 30-60 minuti
  • Analisi del comportamento — i bot aprono le pagine troppo rapidamente (0.5-1 secondo), non muovono il mouse, non scorrono, non cliccano sugli elementi dell'interfaccia
  • Assenza di cookies — gli utenti normali accumulano cookies durante la navigazione sul sito, i parser spesso lavorano con sessioni pulite
  • User-Agent sospetto — versioni obsolete dei browser, librerie server (Python-requests, curl), assenza di dispositivi mobili nelle statistiche
  • Fingerprint del browser — AliExpress raccoglie il fingerprint: risoluzione dello schermo, fuso orario, font installati, WebGL, Canvas. Fingerprint identici da IP diversi — segno di un bot

Quando il sistema rileva un'attività sospetta, applica una gradazione di blocchi: prima mostra un captcha, poi un ban temporaneo dell'IP per 1-2 ore, in caso di violazioni ripetute — ban per un giorno o permanente.

Importante: AliExpress utilizza Cloudflare e un proprio sistema anti-bot. Analizzano non solo l'IP, ma anche il TLS-fingerprint (versione del protocollo, ordine dei cipher) — anche con proxy si può essere bannati se si utilizzano client HTTP obsoleti.

Quali tipi di proxy sono adatti per il parsing di AliExpress

La scelta del tipo di proxy dipende dal volume di parsing, dal budget e dai requisiti di qualità dei dati. Analizziamo ogni tipo con scenari reali di utilizzo.

Tipo di proxy Velocità Rischio di blocco Quando utilizzare
Proxy dei data center Alta (50-150 ms) Alta Parsing rapido di dati pubblici con frequente rotazione IP
Proxy residenziali Media (200-500 ms) Basso Parsing a lungo termine, raccolta di dati con autorizzazione
Proxy mobili Media (300-700 ms) Molto basso Parsing dalla versione mobile, bypass di blocchi severi

Proxy dei data center per un parsing veloce

Adatti quando è necessario raccogliere rapidamente un grande volume di dati: prezzi su 10000+ prodotti, caratteristiche delle categorie, elenco dei venditori. La velocità di risposta di 50-150 ms consente di effettuare 5-10 richieste al secondo da un unico IP.

Scenario di utilizzo: Hai un negozio di dropshipping su Shopify e devi aggiornare quotidianamente i prezzi su 5000 prodotti da AliExpress. Acquisti un pool di 50-100 IP dei data center con rotazione ogni 10-15 richieste. In 2-3 ore raccogli tutti i dati, i costi per i proxy sono di 50-100$ al mese.

Contro: AliExpress conosce gli intervalli di IP dei data center e li considera sospetti. È necessaria una rotazione aggressiva (cambiare IP ogni 5-10 richieste) e un'emulazione del comportamento (ritardi casuali di 2-5 secondi tra le richieste).

Proxy residenziali per un parsing stabile

I proxy residenziali hanno IP di utenti domestici reali — i fornitori li assegnano a persone fisiche. AliExpress non può distinguere una richiesta tramite un proxy di questo tipo da una richiesta di un normale acquirente. Questo riduce il rischio di blocchi di 5-10 volte rispetto ai data center.

Scenario di utilizzo: Monitori i prezzi dei concorrenti per il tuo negozio su Ozon. Devi controllare ogni giorno 200-300 prodotti, confrontare i prezzi su AliExpress e con i fornitori russi. Utilizzi 10-20 IP residenziali con rotazione ogni 50-100 richieste. Il parsing richiede 30-40 minuti, senza blocchi per mesi.

Pro: Puoi lavorare dallo stesso IP più a lungo (100-200 richieste invece di 10-20), meno captcha, possibilità di autorizzazione e lavoro con il pannello personale del venditore.

Proxy mobili per bypassare blocchi severi

Gli IP mobili (3G/4G/5G degli operatori) hanno la massima fiducia — AliExpress non può bloccare intere sottoreti degli operatori mobili, questo bloccherebbe milioni di acquirenti reali. Un singolo IP mobile può essere utilizzato da centinaia di dispositivi (NAT), quindi anche un parsing aggressivo appare come un'attività di diversi utenti.

Scenario di utilizzo: Sei già stato bannato per IP residenziali in una certa regione e hai bisogno urgentemente di raccogliere dati per un report al cliente. Prendi 2-3 proxy mobili, parsando tramite la versione mobile del sito (m.aliexpress.com). Anche con un parsing aggressivo (1 richiesta al secondo) non ci sono blocchi.

Contro: Più costosi dei residenziali di 2-3 volte, minore velocità (300-700 ms di latenza), l'IP può cambiare al riaggancio dell'operatore.

Impostazione della rotazione IP: frequenza di cambio e timeout

Una corretta rotazione degli IP è la chiave per un parsing a lungo termine senza blocchi. Cambiare troppo frequentemente appare sospetto e consuma i proxy, mentre cambiare troppo raramente porta a ban.

Frequenza di rotazione consigliata per tipo di proxy

Tipo di proxy Richieste per 1 IP Ritardo tra le richieste Tempo di vita della sessione
Data center 5-15 richieste 2-5 secondi 1-3 minuti
Residenziali 50-150 richieste 3-8 secondi 10-30 minuti
Mobili 100-300 richieste 1-3 secondi 30-60 minuti

Strategie di rotazione per diverse attività

1. Parsing rapido del catalogo (10000+ prodotti in un'ora)

  • Utilizza un pool di 100-200 IP dei data center
  • Rotazione ogni 5-10 richieste
  • Flussi paralleli: 10-20 richieste simultanee da IP diversi
  • Ritardo tra le richieste: 1-2 secondi (simulazione di un utente veloce)
  • Se ricevi un captcha su un IP — escludilo dal pool per 2-3 ore

2. Monitoraggio quotidiano dei prezzi (500-1000 prodotti)

  • Utilizza 10-20 IP residenziali
  • Rotazione ogni 50-100 richieste
  • Richieste sequenziali con ritardo di 3-5 secondi
  • Conserva i cookies tra le richieste dallo stesso IP
  • Imita il comportamento: a volte apri la homepage, le categorie

3. Parsing con autorizzazione (pannello personale del venditore)

  • Un IP residenziale o mobile per account
  • Senza rotazione durante la sessione (30-60 minuti)
  • Ritardo di 5-10 secondi tra le richieste
  • Emulazione completa del browser: salvataggio di cookies, localStorage, fingerprint

Consiglio: Aggiungi casualità nei ritardi. Invece di 3 secondi fissi, utilizza un intervallo di 2-5 secondi. Questo rende il pattern delle richieste meno prevedibile per i sistemi anti-bot.

Bypass dei sistemi anti-bot: User-Agent, cookies e fingerprint

Cambiare IP risolve solo parte del problema. AliExpress analizza decine di parametri delle richieste e del comportamento per distinguere un bot da un umano. Analizziamo cosa è necessario configurare oltre ai proxy.

User-Agent e intestazioni HTTP

L'User-Agent informa il server quale browser e sistema operativo stanno effettuando la richiesta. I parser spesso utilizzano valori predefiniti delle librerie (Python-requests/2.28.0), che vengono immediatamente rilevati.

Configurazione corretta dell'User-Agent:

  • Utilizza versioni aggiornate dei browser più popolari: Chrome 120+, Firefox 121+, Safari 17+
  • Cambia l'User-Agent durante la rotazione degli IP — un IP non deve mostrare browser diversi
  • Aggiungi User-Agent mobili in proporzione 40-50% (metà del traffico di AliExpress proviene da dispositivi mobili)
  • Copia l'intero set di intestazioni da un browser reale: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests

Esempio di intestazioni corrette per desktop:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1

Esempio per dispositivo mobile:

User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br

Lavorare con cookies e sessioni

AliExpress imposta cookies al primo accesso: identificatore di sessione, impostazioni di lingua e valuta, token per il tracciamento. I parser senza cookies appaiono sospetti — un utente normale li accumula navigando nel sito.

Corretta gestione dei cookies:

  • Prima del parsing, apri la homepage e salva tutti i cookies
  • Utilizza questi cookies per tutte le richieste successive dallo stesso IP
  • Quando cambi IP — inizia una nuova sessione con nuovi cookies
  • Conserva i cookies tra le esecuzioni del parser — questo simula un utente di ritorno
  • Aggiorna i cookies ogni 1-2 ore (riapri la homepage)

Fingerprint del browser e TLS-fingerprint

I moderni sistemi anti-bot raccolgono un'impronta digitale del browser — una combinazione di decine di parametri che identifica univocamente il dispositivo. Anche da IP diversi, lo stesso fingerprint rivela un bot.

Cosa include il fingerprint del browser:

  • Risoluzione dello schermo e profondità del colore
  • Fuso orario e lingua del sistema
  • Elenco dei font installati
  • Fingerprint WebGL e Canvas (modo unico di rendering della grafica)
  • Contesto audio (fingerprint AudioContext)
  • Elenco dei plugin del browser
  • Supporto per WebRTC, Battery API e altre API moderne

Le semplici librerie HTTP (requests, axios, curl) non hanno questi parametri — lavorano a livello di protocollo senza rendering. Per un parsing serio sono necessari strumenti con un browser completo.

Soluzioni per l'emulazione del browser:

  • Selenium + undetected-chromedriver — avvia Chrome reale con modifiche per bypassare il rilevamento
  • Puppeteer + puppeteer-extra-plugin-stealth — libreria Node.js con plugin per mascherare l'automazione
  • Playwright — alternativa moderna a Selenium con migliori prestazioni
  • Browser antidetect — Dolphin Anty, AdsPower, Multilogin (per lavorare tramite interfaccia)

Importante: Anche il TLS-fingerprint (impronta della connessione SSL) viene analizzato. Le versioni obsolete di Python e Node.js utilizzano set di cipher obsoleti, che rivelano un bot. Utilizza versioni aggiornate delle librerie o curl_cffi per emulare i browser moderni.

Strumenti pronti per il parsing di AliExpress

Scrivere un parser da zero ha senso solo per compiti specifici. Per la raccolta standard di dati (prodotti, prezzi, recensioni) ci sono soluzioni pronte che risparmiano settimane di sviluppo.

Servizi commerciali con API

1. ScraperAPI (scrape.do, scrapingbee.com)

Servizi cloud che si occupano di tutto il lavoro con i proxy e il bypass della protezione. Inviate loro l'URL del prodotto AliExpress e restituiscono HTML o JSON con i dati.

  • Pro: non servono proxy propri, bypass automatico dei captcha, parser pronti per siti popolari
  • Contro: costosi per grandi volumi (da 50$ per 100K richieste), dipendenza da un servizio esterno
  • Quando utilizzare: compiti occasionali, prototipazione, piccoli volumi (fino a 10K prodotti al mese)

2. Bright Data (luminati.io)

Il più grande fornitore di proxy con strumenti propri per il parsing. Offrono non solo proxy, ma anche dataset pronti con AliExpress (basi di dati aggiornate sui prodotti).

  • Pro: enorme pool di IP (72+ milioni residenziali), infrastruttura per clienti Enterprise
  • Contro: molto costoso (da 500$ al mese), tariffazione complessa
  • Quando utilizzare: grandi aziende con budget, parsing costante di grandi volumi

Soluzioni open-source

1. Scrapy + scrapy-rotating-proxies

Framework popolare per il parsing in Python. Supporta richieste asincrone, rotazione automatica dei proxy, esportazione in CSV/JSON/database.

Esempio di configurazione dei proxy in Scrapy:

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:pass@proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'http://user:pass@proxy3.example.com:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

# Impostazioni per bypassare il ban
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300  # tempo di ban del proxy in secondi

2. Puppeteer + puppeteer-extra-plugin-stealth

Per siti con protezione aggressiva (come AliExpress) è necessario un browser completo. Puppeteer controlla Chrome tramite il DevTools Protocol, il plugin stealth maschera i segni di automazione.

// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8000',
      '--no-sandbox',
      '--disable-setuid-sandbox'
    ]
  });

  const page = await browser.newPage();
  
  // Autenticazione del proxy
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });

  // Impostazione di un viewport realistico
  await page.setViewport({
    width: 1920,
    height: 1080,
    deviceScaleFactor: 1
  });

  // Parsing del prodotto
  await page.goto('https://www.aliexpress.com/item/1234567890.html', {
    waitUntil: 'networkidle2'
  });

  const productData = await page.evaluate(() => {
    return {
      title: document.querySelector('.product-title-text')?.innerText,
      price: document.querySelector('.product-price-value')?.innerText,
      rating: document.querySelector('.overview-rating-average')?.innerText
    };
  });

  console.log(productData);
  await browser.close();
})();

Applicazioni desktop per utenti non tecnici

1. Octoparse

Parser visivo senza codice — clicchi sugli elementi della pagina, il programma memorizza la struttura e raccoglie i dati. Supporto integrato per proxy e pianificatore di attività.

  • Pro: non è necessario programmare, funziona con contenuti dinamici, versione cloud per lavoro in background
  • Contro: limitazioni nella versione gratuita (10K righe al mese), a volte non riesce a gestire protezioni complesse
  • Prezzo: da 75$ al mese per il piano Standard

2. ParseHub

Analogo di Octoparse con un'interfaccia più semplice. Funziona bene con AliExpress grazie a modelli integrati per siti popolari.

  • Pro: piano gratuito per 200 pagine, semplice configurazione dei proxy
  • Contro: lavoro lento nella versione gratuita, mancanza di funzioni avanzate (API, webhooks)

Geo-targeting: come parsare i prezzi per diversi paesi

AliExpress mostra prezzi, assortimento e condizioni di spedizione diversi a seconda del paese dell'utente. Se lavori con il dropshipping internazionale o confronti i prezzi per diversi mercati, hai bisogno di proxy da regioni specifiche.

Come AliExpress determina il paese dell'utente

La piattaforma utilizza diverse fonti di dati:

  • Indirizzo IP — il modo principale, determina il paese tramite la geolocalizzazione dell'IP
  • Cookies — salva il paese selezionato in aep_usuc_f (può essere sostituito)
  • Intestazione Accept-Language — lingua del browser, ma non è un fattore determinante
  • Valuta nell'URL — parametri ?currency=USD o sottodomini (ru.aliexpress.com)

Per un parsing affidabile dei prezzi di un paese specifico, è necessario utilizzare proxy di quella regione. Sostituire solo i cookies non sempre funziona — AliExpress dà priorità alla geolocalizzazione IP.

Regioni popolari per il parsing e le loro caratteristiche

Paese Caratteristiche dei prezzi Perché parsare
USA Prezzi in USD, spesso inferiori rispetto all'Europa Dropshipping negli USA, confronto con Amazon
Russia Prezzi in RUB, considerazione di dazi e IVA Confronto con Wildberries, Ozon
Germania Prezzi in EUR, spedizione veloce dai magazzini EU Dropshipping in Europa, eBay.de
Brasile Prezzi elevati a causa dei dazi, ma alta domanda E-commerce locale (Mercado Livre)

Impostazione del geo-targeting tramite proxy

La maggior parte dei fornitori di proxy residenziali e mobili consente di scegliere il paese (e persino la città) tramite parametri di connessione o API.

Esempio di scelta del paese tramite username del proxy:

# Formato: username-country-codice_paese
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"

# Parsing del prezzo per gli USA
response_us = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_us, "https": proxy_us}
)

# Parsing del prezzo per la Germania
response_de = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_de, "https": proxy_de}
)

Inoltre, imposta le intestazioni in base alla regione:

  • Accept-Language: en-US per gli USA, de-DE per la Germania, pt-BR per il Brasile
  • Utilizza il sottodominio appropriato: ru.aliexpress.com per la Russia, de.aliexpress.com per la Germania
  • Controlla la valuta nella risposta — se vedi una valuta errata, significa che il geo-targeting non ha funzionato

Errori comuni nel parsing e come evitarli

Anche con i proxy e le impostazioni corrette, è possibile ricevere blocchi a causa di errori nella logica di parsing. Analizziamo problemi frequenti e soluzioni.

Errore 1: Parsing troppo aggressivo

Problema: Il parser effettua 100 richieste al minuto da un unico IP, cercando di raccogliere dati più velocemente. AliExpress rileva questo come un attacco DDoS e blocca l'IP.

Soluzione: Aggiungi ritardi e limita il numero di richieste. Per i proxy residenziali, una velocità sicura è di 10-20 richieste al minuto da un unico IP (1 richiesta ogni 3-6 secondi). È meglio parsare più a lungo che perdere i proxy.

Errore 2: Ignorare captcha e errori

Problema: Il parser riceve una pagina con captcha, ma continua a parsarla come contenuto normale. Di conseguenza, si ottengono migliaia di record vuoti nel database.

Soluzione: Controlla la risposta del server prima del parsing. Se nell'HTML ci sono parole come "captcha", "Access Denied" o codice di risposta 403/429 — smetti di utilizzare questo IP per 1-2 ore.

def is_blocked(html):
    blocked_keywords = ['captcha', 'access denied', 'too many requests']
    return any(keyword in html.lower() for keyword in blocked_keywords)

response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
    print(f"Proxy {proxy} is blocked, switching...")
    # Escludiamo il proxy dal pool per 2 ore
    blocked_proxies[proxy] = time.time() + 7200
    continue

Errore 3: Parsing di dati obsoleti

Problema: AliExpress memorizza le pagine tramite CDN (Cloudflare). Il parser riceve dati vecchi di 2-3 ore invece dei prezzi attuali.

Soluzione: Aggiungi un parametro casuale nell'URL per bypassare la cache, oppure utilizza l'intestazione Cache-Control: no-cache.

import random
import time

# Aggiungi timestamp nell'URL per bypassare la cache
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"

# Oppure utilizza l'intestazione
headers = {
    'Cache-Control': 'no-cache',
    'Pragma': 'no-cache'
}

Errore 4: Errata gestione dei contenuti dinamici

Problema: Prezzi e caratteristiche dei prodotti su AliExpress vengono caricati tramite JavaScript dopo il caricamento della pagina. Una semplice richiesta HTTP ottiene un template HTML vuoto senza dati.

Soluzione: Utilizza un browser headless (Selenium, Puppeteer, Playwright) che esegue JavaScript e attende il caricamento completo del contenuto. Oppure trova un endpoint API che restituisce dati in JSON — spesso è accessibile tramite DevTools in Network.

Errore 5: Mancanza di logging e monitoraggio

Problema: Il parser funziona per una settimana, raccoglie dati, ma nessuno controlla la qualità. Risulta che il 30% dei record è vuoto a causa di cambiamenti nella struttura del sito.

Soluzione: Registra tutti gli eventi importanti — richieste riuscite, errori, blocchi dei proxy, cambiamenti nella struttura dei dati. Imposta avvisi quando il numero di errori supera il 10%.

Checklist prima di avviare il parser:
✅ Ritardi tra le richieste impostati (3-8 secondi per i proxy residenziali)
✅ La rotazione IP funziona (non più di 50-100 richieste per un IP)
✅ User-Agent aggiornato e cambia insieme all'IP
✅ I cookies vengono salvati e riutilizzati
✅ C'è un controllo per captcha e blocchi
✅ Logging e monitoraggio sono impostati
✅ Il test di avvio su 100 prodotti è andato a buon fine

Conclusione

Il parsing di AliExpress richiede un approccio complesso: i proxy corretti sono solo una parte della soluzione. È necessaria una rotazione intelligente degli IP, un'emulazione di un browser reale, la gestione di cookies e fingerprint, nonché un monitoraggio costante della qualità dei dati. Un parsing troppo aggressivo porterà a blocchi anche con proxy costosi, mentre una configurazione corretta consentirà di raccogliere dati per mesi senza problemi.

Per la maggior parte delle attività (monitoraggio dei prezzi dei concorrenti, raccolta di cataloghi per il dropshipping, analisi delle tendenze) la scelta ottimale sono i proxy residenziali con rotazione ogni 50-100 richieste. Offrono un equilibrio tra velocità di lavoro e livello di fiducia da parte di AliExpress. Se il budget è limitato e serve alta velocità, inizia con i proxy dei data center, ma preparati a blocchi più frequenti e alla necessità di una rotazione aggressiva.

Ricorda: la qualità dei proxy è più importante della loro quantità. 10 IP residenziali di qualità con la configurazione corretta daranno risultati migliori rispetto a 100 proxy dei data center economici con un alto tasso di blocchi. Investi tempo nella configurazione dell'emulazione del browser, nel logging e nel monitoraggio — ne varrà la pena per un funzionamento stabile del parser senza problemi costanti con captcha e ban.

```