Come bypassare l'antibot di Amazon: proxy e metodi per il parsing

```html

Amazon è uno dei marketplace più protetti al mondo. Il suo sistema antibot blocca il 90% dei tentativi di raccolta automatica di dati su prezzi, disponibilità e posizioni dei prodotti. Per i venditori e i marketer, questo è un problema critico: senza dati aggiornati sui concorrenti, non è possibile correggere la strategia di pricing e rimanere redditizi.

In questa guida analizzeremo i meccanismi tecnici di protezione di Amazon, mostreremo metodi collaudati per aggirare l'antibot e configureremo un sistema di monitoraggio dei prezzi che funziona stabilmente per mesi senza blocchi.

Perché Amazon blocca il parsing: meccanismi di protezione

Amazon perde milioni di dollari a causa del parsing: i concorrenti copiano i dati sui prodotti, i prezzi, le recensioni, e i venditori disonesti utilizzano l'automazione per manipolare le posizioni. Per questo motivo, l'azienda investe enormi somme in sistemi antibot che operano su più livelli contemporaneamente.

Componenti principali della protezione di Amazon:

AWS WAF (Web Application Firewall) — analizza il traffico in ingresso e blocca indirizzi IP sospetti a livello di rete. Monitora la frequenza delle richieste, la geografia, la reputazione dell'IP.
Cloudfront CDN — rete di distribuzione dei contenuti distribuita con algoritmi di filtraggio dei bot. Controlla le intestazioni delle richieste, i cookie, i fingerprint TLS del browser.
Sistema di gestione dei bot — utilizza l'apprendimento automatico per analizzare il comportamento degli utenti. Monitora i movimenti del mouse, la velocità di scorrimento, i modelli di clic.
CAPTCHA e pagine di challenge — vengono mostrate in caso di attività sospette. Richiedono di risolvere un rompicapo o di inserire un CAPTCHA per continuare.
Rate limiting — severe limitazioni sul numero di richieste da un singolo IP: di solito 10-20 richieste al minuto per gli utenti non autenticati.

Tutti questi sistemi lavorano insieme e scambiano dati. Se anche solo uno di essi sospetta un bot, l'IP finisce nella blacklist per 24-48 ore, e a volte anche per sempre.

Importante: Amazon mostra prezzi diversi per diverse regioni e tipi di utenti. Il blocco non significa solo mancanza di accesso, ma anche ricezione di dati non aggiornati, il che è critico per il monitoraggio dei concorrenti.

Come Amazon identifica i bot: 7 segnali principali

Il sistema antibot di Amazon analizza decine di parametri per ogni richiesta. Ecco i segnali chiave con cui riconosce l'automazione:

1. Reputazione dell'indirizzo IP

Amazon mantiene un database di indirizzi IP di data center, servizi VPN, proxy pubblici. Le richieste provenienti da tali indirizzi ricevono maggiore attenzione o vengono bloccate immediatamente. Il sistema monitora anche la storia delle attività: se da un IP vengono effettuate troppe richieste a pagine di prodotti, ciò è sospetto.

Cosa viene controllato: appartenenza a noti data center (AWS, Google Cloud, DigitalOcean), presenza in database di proxy pubblici, numero di richieste nell'ultima ora, geografia (richieste da paesi inaspettati).

2. User-Agent e intestazioni HTTP

Molti parser utilizzano User-Agent standard delle librerie: python-requests/2.28.0 o non inviano affatto questa intestazione. Amazon riconosce immediatamente tali richieste.

Segnali sospetti: assenza di intestazioni Accept-Language, Accept-Encoding; incongruenza tra User-Agent e altre intestazioni (ad esempio, User-Agent di Chrome, ma intestazioni come Firefox); assenza di Referer durante la navigazione tra le pagine; versioni obsolete dei browser.

3. Fingerprinting TLS/SSL

Durante l'instaurazione di una connessione HTTPS, il browser invia un insieme di parametri di crittografia (cipher suites, extensions, versione TLS). Questo insieme è unico per ogni browser. Librerie come requests o curl hanno fingerprint diversi da quelli dei browser reali — Amazon lo rileva.

4. JavaScript e Canvas fingerprinting

Amazon carica codice JavaScript che raccoglie informazioni sul browser: risoluzione dello schermo, font installati, funzioni WebGL supportate, parametri Canvas. Client HTTP semplici non eseguono JavaScript e si rivelano immediatamente.

5. Cookies e sessioni

Amazon imposta numerosi cookie al primo accesso: session-id, ubid-main, x-main e altri. L'assenza di questi cookie o i loro valori non corretti sono un segno di bot. Inoltre, il sistema monitora la durata della sessione: un utente reale non effettua 100 richieste in 30 secondi.

6. Modelli di comportamento

Una persona reale apre la home page, cerca un prodotto, naviga tra le categorie, legge le descrizioni, torna indietro. Un bot richiede immediatamente URL specifici di prodotti in una sequenza perfetta senza ritardi.

Modelli sospetti: richieste solo a pagine di prodotti senza visitare la home; sequenza perfetta di URL (product1, product2, product3...); assenza di richieste a risorse statiche (immagini, CSS, JS); intervalli identici tra le richieste.

7. Frequenza delle richieste

Anche con un'emulazione perfetta del browser, una frequenza di richieste troppo alta rivelerà un bot. Amazon monitora il numero di richieste da un IP al minuto, all'ora, al giorno. Il superamento dei limiti (di solito 10-20 richieste/minuto per gli ospiti) porta al blocco.

Scelta dei proxy per aggirare l'antibot: residenziali vs data center

La scelta corretta del tipo di proxy rappresenta il 70% del successo nell'aggirare la protezione di Amazon. Analizziamo i tre tipi principali e la loro applicabilità per il parsing del marketplace.

Tipo di proxy	Livello di fiducia di Amazon	Velocità	Applicazione
Residenziali	Molto alto (IP reali di utenti domestici)	Media (50-150 ms)	Parsing principale, grandi volumi
Mobile	Massimo (IP di operatori mobili)	Bassa (200-500 ms)	Aggirare blocchi severi, account
Data center	Basso (Amazon conosce questi IP)	Molto alta (10-30 ms)	Test, compiti una tantum

Proxy residenziali — la scelta ottimale

Per un parsing stabile di Amazon, si raccomandano proxy residenziali — utilizzano indirizzi IP di veri utenti domestici, che Amazon non può bloccare in massa senza rischiare di bloccare veri acquirenti.

Vantaggi dei proxy residenziali per Amazon:

IP appartenenti a fornitori di servizi Internet (Comcast, AT&T, Verizon negli USA), non a data center
Basso tasso di blocchi: meno del 2% con una corretta configurazione della rotazione
Possibilità di scegliere la geografia: USA, Regno Unito, Germania e altri paesi per ottenere prezzi locali
Supporto per sessioni sticky: un IP può essere utilizzato per 10-30 minuti per simulare un utente reale

Parametri importanti nella scelta dei proxy residenziali:

Dimensione del pool di IP: almeno 1 milione di indirizzi per una rotazione efficace
Geografia: scegliere il paese in cui opera Amazon (USA, Regno Unito, Germania, Giappone, ecc.)
Tipo di rotazione: supporto per sessioni sticky con una durata di 10-30 minuti
Protocollo: HTTP/HTTPS e SOCKS5 per compatibilità con diversi strumenti

Quando utilizzare proxy mobili

I proxy mobili utilizzano IP di operatori mobili (4G/5G). Amazon praticamente non blocca mai tali indirizzi, poiché dietro un singolo IP possono esserci migliaia di utenti reali a causa della tecnologia CGNAT.

Quando scegliere proxy mobili:

Lavorare con account venditori Amazon (Seller Central) — per loro è critica la stabilità dell'IP
Aggirare blocchi severi dopo il ban degli IP residenziali
Parsing con autenticazione (ad esempio, prezzi per abbonati Prime)
Piccole quantità di dati (fino a 1000 prodotti al giorno) — i proxy mobili sono più costosi

Lo svantaggio dei proxy mobili è il costo elevato e la minore velocità a causa delle caratteristiche delle reti mobili. Per il parsing massivo di migliaia di prodotti, non sono efficaci.

Perché i data center non sono adatti

I proxy dei data center utilizzano IP di server AWS, Google Cloud, DigitalOcean. Amazon riconosce immediatamente tali indirizzi — sono presenti nei database ASN (sistemi autonomi) dei data center.

Problemi nell'utilizzo dei data center: blocco dopo 5-10 richieste; CAPTCHA costanti; visualizzazione di prezzi obsoleti o pagine vuote; ban dell'IP per sempre dopo alcuni tentativi.

L'unico caso in cui è possibile utilizzare i data center è il test di un parser su un numero limitato di prodotti (10-20 pezzi) prima del lancio su proxy residenziali.

Strategia di rotazione degli indirizzi IP: frequenza e geografia

Anche con proxy residenziali, una rotazione IP errata porterà a blocchi. Amazon monitora il comportamento di ogni indirizzo e banna quelli che effettuano troppe richieste o si comportano in modo sospetto.

Frequenza ottimale di rotazione

Esistono due approcci alla rotazione: dopo ogni richiesta (rotating proxies) e con un tempo di vita fisso (sticky sessions). Per Amazon, la seconda opzione è più efficace.

Strategia consigliata per le sticky sessions:

Tempo di vita dell'IP: 10-15 minuti — equilibrio ottimale tra simulazione di un utente reale e rischio di blocco
Numero di richieste per IP: non più di 15-20 richieste durante la vita della sessione
Ritardo tra le richieste: 3-7 secondi (casuale, non fisso!)
Simulazione del comportamento: prima richiesta — home page o categoria, poi — pagine di prodotti

Esempio di scenario per un IP: aprire la home page di Amazon.com → attendere 5 secondi → aprire la categoria Elettronica → attendere 4 secondi → aprire prodotto 1 → attendere 6 secondi → aprire prodotto 2 → ... → dopo 15 richieste cambiare IP.

Consiglio per carichi elevati:

Se è necessario eseguire il parsing di migliaia di prodotti all'ora, utilizzare un pool di 50-100 sessioni simultanee con indirizzi IP diversi. Ogni sessione effettua 10-15 richieste con ritardi, quindi cambia IP. Questo consente di ottenere 500-1500 richieste all'ora senza blocchi.

Distribuzione geografica

Amazon mostra prezzi, assortimenti e condizioni di consegna diversi a seconda della posizione dell'utente. Per un monitoraggio corretto, è necessario utilizzare proxy dello stesso paese del marketplace target.

Correlazione tra marketplace e geolocalizzazione dei proxy:

Amazon.com (USA): utilizzare proxy dagli USA, preferibilmente da diversi stati per varietà
Amazon.co.uk (Regno Unito): proxy dal Regno Unito
Amazon.de (Germania): proxy dalla Germania
Amazon.co.jp (Giappone): proxy dal Giappone

Importante: non utilizzare proxy di altri paesi per il parsing di un marketplace specifico. Ad esempio, le richieste a Amazon.com con IP dall'India o dalla Russia appaiono sospette e spesso ricevono CAPTCHA.

Evitare il riutilizzo degli IP

Anche se l'IP non è bloccato, non utilizzarlo nuovamente per 2-3 ore. Amazon memorizza la storia delle attività di ogni indirizzo. Se lo stesso IP appare ogni 15 minuti per tutto il giorno, questo è un chiaro segno di automazione.

Regola di rotazione: pool minimo per un funzionamento stabile — 500-1000 IP unici. Questo garantisce una varietà sufficiente affinché ogni indirizzo venga utilizzato non più di 1-2 volte al giorno.

Emulazione di un browser reale: intestazioni e fingerprint

Anche con proxy residenziali e una corretta rotazione, il parser verrà bloccato se non emula un vero browser. Amazon controlla decine di parametri delle richieste HTTP e dell'ambiente JavaScript.

Intestazioni HTTP corrette

Client HTTP semplici (requests, curl, wget) inviano un insieme minimo di intestazioni, che rivela immediatamente il bot. È necessario copiare le intestazioni di un vero browser.

Intestazioni obbligatorie per Amazon:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Cache-Control: max-age=0

Punti critici:

User-Agent: utilizzare una versione aggiornata di Chrome o Firefox (controllare ogni 2-3 mesi). Le versioni obsolete dei browser sono sospette.
Accept-Language: deve corrispondere alla geografia del proxy (en-US per gli USA, en-GB per il Regno Unito, de-DE per la Germania)
Intestazioni Sec-Fetch-*: apparse nei browser moderni, la loro assenza è un segno di un client obsoleto
Referer: durante la navigazione tra le pagine, inviare sempre il Referer della pagina precedente

Fingerprinting TLS e aggiramento

Amazon analizza i parametri della connessione TLS: versione del protocollo, suite di crittografia, estensioni. Le librerie standard (OpenSSL in Python requests) hanno fingerprint diversi da quelli dei browser.

Soluzione: utilizzare strumenti che emulano il TLS del browser:

curl-impersonate: versione di curl che copia i fingerprint TLS di Chrome e Firefox
tls-client (Python): libreria con supporto per il browser fingerprinting
Playwright/Puppeteer: veri browser in modalità headless — emulazione ideale, ma più lenta

JavaScript e cookie

Amazon esegue codice JavaScript durante il caricamento della pagina, che imposta cookie e raccoglie informazioni sul browser. Senza l'esecuzione di questo codice, non si otterranno dati completi e si finirà rapidamente sotto blocco.

Azioni obbligatorie:

Utilizzare strumenti con supporto per JavaScript: Selenium, Playwright, Puppeteer
Conservare tutti i cookie tra le richieste all'interno di una sessione
Attendere il caricamento completo della pagina (evento DOMContentLoaded) prima di estrarre i dati
Simulare le azioni dell'utente: scorrimento, pause casuali

Amazon imposta cookie critici: session-id, ubid-main, x-main. Senza di essi, si riceverà un CAPTCHA o una pagina vuota.

Limiti di richieste e ritardi tra di esse

Anche un'emulazione perfetta del browser non salverà dal ban se si effettuano troppe richieste. Amazon limita severamente la frequenza delle chiamate da un singolo IP.

Limiti documentati di Amazon

Non ci sono dati ufficiali sui limiti, ma sulla base dei test della comunità si conoscono valori approssimativi:

Tipo di utente	Limite richieste/minuto	Limite richieste/ora
Utente non autenticato	10-15	200-300
Acquirente autenticato	20-30	500-800
Amazon API (ufficiale)	Senza limiti	Dipende dal piano

Il superamento dei limiti porta a CAPTCHA, blocchi temporanei (1-24 ore) o ban permanenti dell'IP in caso di violazioni sistematiche.

Ritardi ottimali tra le richieste

Intervalli fissi (ad esempio, esattamente 5 secondi) rivelano un bot. Una persona reale fa pause di lunghezza variabile: legge la descrizione del prodotto, confronta i prezzi, si distrae.

Strategia consigliata per i ritardi:

Ritardo di base: 3-7 secondi (valore casuale nell'intervallo)
Prima richiesta nella sessione: 5-10 secondi (simulazione del caricamento della home page)
Dopo un errore o un CAPTCHA: 30-60 secondi prima di ripetere
Tra il cambio di IP: 2-3 secondi per "riconnessione"

Esempio di implementazione di un ritardo casuale: sleep(random.uniform(3, 7)) — ogni pausa sarà unica.

Distribuzione del carico nel tempo

Non avviare il parsing di migliaia di prodotti contemporaneamente a mezzanotte. Amazon monitora i picchi di attività. Distribuire il compito su diverse ore o per l'intera giornata.

Esempio: è necessario eseguire il parsing di 5000 prodotti. Suddividere in 10 pacchetti da 500 prodotti, avviare ogni pacchetto con un intervallo di 1-2 ore. Questo appare come un'attività organica di diversi utenti.

Strumenti pronti per il parsing di Amazon

Scrivere un parser da zero è difficile e lungo. Esistono soluzioni pronte che già implementano l'aggiramento dell'antibot, la rotazione dei proxy e l'emulazione del browser.

1. Bright Data Web Scraper IDE

Strumento cloud con modelli pronti per Amazon. Non richiede programmazione: si configurano i selettori dei dati tramite un'interfaccia visiva. Proxy integrati e aggiramento CAPTCHA.

Pro: funziona out-of-the-box, rotazione automatica degli IP, supporto per JavaScript. Contro: costoso ($500+ al mese), dipendenza da un servizio esterno.

2. Octoparse

Applicazione desktop per Windows con un costruttore visivo di parser. Esiste una versione cloud per eseguire attività 24/7. Supporta integrazione con proxy.

Configurazione dei proxy in Octoparse: Impostazioni → Impostazioni proxy → aggiungere un elenco di proxy nel formato IP:PORT:USER:PASS → abilitare la rotazione.

Pro: non è necessario codice, interfaccia comoda, esiste un piano gratuito. Contro: limitazioni sul numero di pagine nella versione gratuita, difficoltà con i CAPTCHA.

3. ScrapingBee API

Servizio API per il parsing con aggiramento automatico della protezione. Invia URL, ricevi HTML. Rotazione proxy integrata ed esecuzione di JavaScript.

Esempio di utilizzo:

curl "https://app.scrapingbee.com/api/v1/?api_key=YOUR_KEY&url=https://www.amazon.com/dp/B08N5WRWNW&render_js=true&premium_proxy=true&country_code=us"

Pro: integrazione semplice, non sono necessari proxy propri. Contro: a pagamento (da $49/mese), limiti sul numero di richieste.

4. Playwright + proxy propri (per sviluppatori)

Se sai programmare, la scelta migliore è utilizzare Playwright (o Puppeteer) con proxy residenziali. Controllo completo sul processo e costo minimo.

Esempio di configurazione dei proxy in Playwright (Python):

from playwright.sync_api import sync_playwright
import random
import time

proxy_list = [
    {"server": "http://proxy1.example.com:8080", "username": "user", "password": "pass"},
    {"server": "http://proxy2.example.com:8080", "username": "user", "password": "pass"},
]

with sync_playwright() as p:
    proxy = random.choice(proxy_list)
    browser = p.chromium.launch(proxy=proxy, headless=True)
    context = browser.new_context(
        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
        locale="en-US",
        timezone_id="America/New_York"
    )
    page = context.new_page()
    
    # Prima richiesta - home page
    page.goto("https://www.amazon.com")
    time.sleep(random.uniform(3, 5))
    
    # Richiesta prodotto
    page.goto("https://www.amazon.com/dp/B08N5WRWNW")
    page.wait_for_load_state("networkidle")
    
    # Estrazione dati
    title = page.locator("#productTitle").inner_text()
    price = page.locator(".a-price-whole").first.inner_text()
    
    print(f"Title: {title}, Price: ${price}")
    
    browser.close()

Pro: controllo completo, più economico dei servizi cloud, scalabile. Contro: richiede competenze di programmazione, è necessario gestire i CAPTCHA autonomamente.

Raccomandazioni per la scelta dello strumento

La tua situazione	Strumento raccomandato
Non so programmare, ho bisogno di 100-500 prodotti al giorno	Octoparse + proxy residenziali
Ho bisogno di testare rapidamente un'idea, ho un budget	ScrapingBee API
So programmare, ho bisogno di migliaia di prodotti	Playwright/Puppeteer + proxy residenziali
Budget elevato, massima affidabilità necessaria	Bright Data Web Scraper

Cosa fare in caso di blocco: diagnosi e soluzioni

Anche seguendo tutte le regole, a volte si verificano blocchi. È importante capire la causa e risolvere rapidamente il problema.

Tipi di blocchi e loro segni

1. CAPTCHA (codice di stato 503 o reindirizzamento a /errors/validateCaptcha):

Motivo: attività sospetta dall'IP, ma non blocco totale
Soluzione: cambiare IP, aumentare i ritardi tra le richieste, aggiungere simulazione delle azioni dell'utente
Automazione: utilizzare servizi di risoluzione CAPTCHA (2Captcha, Anti-Captcha) — ma questo rallenta il parsing

2. Blocco dell'IP (codice 403 o pagina vuota):

Motivo: l'IP è finito nella blacklist a causa del superamento dei limiti o dell'uso di data center
Soluzione: cambiare immediatamente IP, controllare il tipo di proxy (potrebbero essere utilizzati data center invece di residenziali)
Durata: di solito 24-48 ore, a volte per sempre

3. "Per discutere l'accesso automatizzato ai dati di Amazon, contattare [email protected]":

Motivo: Amazon ha chiaramente identificato l'automazione e offre di utilizzare l'API ufficiale
Soluzione: migliorare l'emulazione del browser, controllare il fingerprint TLS, ridurre la frequenza delle richieste di 2 volte

Checklist per la diagnosi dei problemi

Se ricevi blocchi, controlla in ordine:

Tipo di proxy: assicurati di utilizzare residenziali, non data center. Puoi verificarlo su whoer.net
Geografia: l'IP deve essere dello stesso paese del marketplace (USA per .com, UK per .co.uk)
User-Agent: versione aggiornata di Chrome/Firefox (non più vecchia di 3-4 mesi)
Cookies: vengono mantenuti tra le richieste all'interno della sessione
JavaScript: viene eseguito (se utilizzi Playwright/Puppeteer — deve essere eseguito)
Frequenza delle richieste: non più di 10-15 al minuto da un singolo IP
Ritardi: casuali, non fissi
Rotazione IP: ogni indirizzo viene utilizzato non più di 1 volta ogni 2-3 ore

Misure urgenti in caso di blocchi massivi

Se la maggior parte delle richieste viene bloccata (oltre il 30%):

Interrompere il parsing per 2-3 ore — lasciare che Amazon "dimentichi" la tua attività
Cambiare fornitore di proxy — potrebbe essere che il pool di IP sia già compromesso
Ridurre il carico di 3-5 volte — invece di 100 richieste all'ora, fare 20-30
Passare a proxy mobili — sono praticamente non bloccati, anche se più costosi
Aggiungere più simulazione umana: transizioni casuali tra categorie, ricerca di prodotti tramite la barra di ricerca, non URL diretti

Attenzione: Se il tuo IP è stato bannato per sempre (il blocco dura più di 72 ore), non tentare di utilizzarlo nuovamente. Amazon raramente rimuove i ban permanenti. Passa a un nuovo pool di proxy.

Conclusione

Aggirare l'antibot di Amazon è un compito complesso che richiede una combinazione di proxy corretti, emulazione precisa del browser e limiti ragionevoli sulle richieste. I punti chiave per un parsing di successo: utilizzo di proxy residenziali dello stesso paese del marketplace; rotazione degli IP ogni 10-15 minuti con un limite di 15-20 richieste per sessione; emulazione completa di un browser moderno con intestazioni corrette ed esecuzione di JavaScript; ritardi casuali di 3-7 secondi tra le richieste.

Seguendo queste regole, la percentuale di richieste riuscite raggiunge il 95-98%, e i blocchi diventano rari. L'importante è non avere fretta e simulare il comportamento di un utente reale, piuttosto che cercare di eseguire il parsing di migliaia di prodotti in pochi minuti.

Per un funzionamento stabile con Amazon, si consiglia di utilizzare proxy residenziali.