Stai avviando la raccolta automatica di recensioni da Amazon o Google — e già dopo 10-20 richieste ricevi un captcha o un ban IP. Storia familiare? I marketplace e le piattaforme di recensioni si proteggono attivamente dal parsing: rilevano i bot, bloccano le gamme di indirizzi IP dei data center e richiedono la risoluzione del captcha. Ma con i giusti proxy questo problema può essere risolto una volta per tutte.
In questa guida analizzeremo quale tipo di proxy è adatto per ogni piattaforma, come impostare la rotazione degli IP, quali strumenti utilizzare senza scrivere codice — e come alla fine raccogliere migliaia di recensioni quotidianamente senza blocchi.
Perché Amazon, Google e Yelp bloccano il parsing delle recensioni
Prima di scegliere un proxy, è importante capire: perché avvengono blocchi? Non si tratta solo del fatto che le piattaforme "non vogliono condividere i dati". Hanno meccanismi tecnici di protezione specifici che devono essere aggirati in modo intelligente.
Troppi richieste da un solo IP. Quando una persona normale scorre le recensioni su Amazon, fa 2-5 richieste al minuto. Un parser — centinaia. Il sistema rileva un'attività anomala e blocca l'IP. Questa è la causa più comune di ban durante la raccolta dati.
Indirizzi IP dei data center nelle liste nere. Amazon, Google e Yelp hanno da tempo inserito nelle blacklist le gamme di IP dei grandi fornitori di cloud: AWS, Google Cloud, DigitalOcean, Hetzner. Se utilizzi proxy economici dei data center con indirizzi "esposti" — verrai bloccato prima ancora della prima richiesta.
Analisi del fingerprint del browser e degli header. I moderni sistemi di protezione (Cloudflare, PerimeterX, DataDome) analizzano non solo l'IP, ma anche gli header HTTP, il User-Agent, il comportamento del mouse, la sequenza delle richieste. Se gli header rivelano un bot — il blocco è inevitabile.
Restrizioni geolocalizzate. Alcune recensioni su Amazon sono disponibili solo per utenti di determinati paesi. Ad esempio, le recensioni su amazon.de sono visibili in modo diverso dalla Germania rispetto alla Russia. Per una corretta raccolta dei dati sono necessari proxy con la geolocalizzazione appropriata.
Captcha e sfide JS. Google utilizza particolarmente attivamente reCAPTCHA. Yelp applica controlli JS che non passano semplici richieste HTTP. Questi meccanismi richiedono l'uso di strumenti browser o servizi speciali per risolvere i captcha.
Conclusione principale:
I blocchi non sono un caso, ma un sistema. Puoi aggirarlo solo in modo complesso: il giusto tipo di proxy + rotazione IP + header delle richieste appropriati + strumento adatto per il parsing.
Quali tipi di proxy esistono e cosa è adatto per il parsing delle recensioni
Non tutti i proxy sono ugualmente utili per la raccolta delle recensioni. Analizziamo tre tipi principali e la loro applicabilità al compito.
Proxy dei data center (Datacenter Proxies)
Questi sono indirizzi IP appartenenti a società di server. Sono veloci, economici e adatti per compiti dove la velocità è più importante dell'anonimato. Tuttavia, per il parsing delle recensioni su Amazon o Google funzionano male: la maggior parte di questi IP è già nelle blacklist. Potrai raccogliere alcune pagine, ma riceverai rapidamente un blocco o un captcha.
I proxy dei data center sono giustificati solo per testare il parser o per piattaforme con protezioni minime — ad esempio, piccoli siti di recensioni regionali.
Proxy residenziali (Residential Proxies)
Questi sono indirizzi IP di utenti domestici reali. Dal punto di vista di Amazon o Google — è una persona normale con internet domestico. Questi proxy praticamente non finiscono nelle blacklist, perché i loro IP cambiano continuamente e appartengono a dispositivi reali.
I proxy residenziali sono la scelta ottimale per il parsing delle recensioni su Amazon, Yelp e la maggior parte delle piattaforme con protezione moderata. Consentono di effettuare richieste con la geolocalizzazione necessaria (paese, città), il che è critico per ottenere recensioni locali.
Proxy mobili (Mobile Proxies)
Indirizzi IP degli operatori mobili (4G/5G). Questo è il tipo di traffico più "affidabile" per qualsiasi piattaforma: gli IP mobili vengono raramente bloccati, perché dietro un IP possono trovarsi centinaia di utenti reali (NAT degli operatori mobili). Google è particolarmente leale agli indirizzi mobili.
I proxy mobili sono indispensabili per il parsing delle recensioni di Google e Yelp, dove la protezione contro i bot è particolarmente aggressiva. Sono più costosi dei residenziali, ma offrono la percentuale più alta di richieste riuscite senza captcha.
Parsing delle recensioni Amazon: caratteristiche e impostazioni dei proxy
Amazon è uno dei siti più difficili da parsare. L'azienda utilizza più livelli di protezione contemporaneamente: analisi del comportamento, verifica degli header, geolocalizzazione e un sistema di captcha aggressivo. Tuttavia, migliaia di marketer e analisti raccolgono quotidianamente recensioni da Amazon — semplicemente lo fanno nel modo giusto.
Cosa serve per un parsing di successo delle recensioni Amazon
Ecco il set minimo di condizioni in cui il parsing funzionerà in modo stabile:
- Proxy residenziali o mobili con geolocalizzazione del paese necessario (US per amazon.com, DE per amazon.de)
- Rotazione IP — almeno ogni 10-30 richieste
- Corretto User-Agent — imitazione di un browser reale (Chrome, Firefox)
- Ritardi tra le richieste — 2-5 secondi, per non sembrare un bot
- Sessione di cookies — Amazon risponde meglio alle richieste con cookie salvati
Impostazione passo-passo per Amazon
Passo 1. Scegli proxy residenziali con geolocalizzazione del paese necessario. Per amazon.com — USA, per amazon.co.uk — Regno Unito. Questo è importante: Amazon mostra recensioni diverse agli utenti di diversi paesi.
Passo 2. Imposta la rotazione. Se utilizzi un parser pronto (ad esempio, Octoparse o ParseHub), specifica i proxy nelle impostazioni di connessione. La maggior parte di questi strumenti supporta un elenco di proxy con rotazione automatica.
Passo 3. Imposta ritardi tra le richieste. In Octoparse questo si fa nella sezione "Impostazioni ritardo" — imposta un intervallo casuale da 2 a 6 secondi.
Passo 4. Esegui un test su 50-100 pagine. Se il captcha appare più del 5% delle volte — aumenta il ritardo o cambia il pool di proxy.
Passo 5. Scala. Dopo un test di successo puoi avviare la raccolta di migliaia di recensioni. Un buon pool di proxy residenziali consente di raccogliere 5000-10000 recensioni al giorno senza blocchi.
Importante su Amazon:
Amazon aggiorna regolarmente gli algoritmi di protezione. Se il tuo parser funzionava un mese fa, ma ora ha iniziato a ricevere blocchi — probabilmente l'algoritmo di verifica è cambiato. Soluzione: aggiorna il User-Agent all'ultima versione di Chrome e verifica se i tuoi proxy sono finiti nella blacklist.
Raccolta delle recensioni Google Reviews: cosa è importante sapere
Google Reviews — recensioni in Google Maps e Google Business Profile — sono una preziosa fonte di dati per marketer, specialisti SEO e analisti. Ma Google protegge i suoi dati in modo particolarmente aggressivo: reCAPTCHA v3, analisi del comportamento, verifica del fingerprint del browser.
La principale difficoltà: le recensioni Google non vengono caricate tramite una normale richiesta HTTP. Le recensioni vengono caricate dinamicamente tramite JavaScript. Questo significa che un semplice parser HTTP non funzionerà — è necessario uno strumento in grado di eseguire il rendering di JavaScript (parser browser).
Come raccogliere correttamente le recensioni Google
Opzione 1: Servizi pronti. Strumenti come Outscraper, Apify (attore Google Maps Scraper) o PhantomBuster possono raccogliere le recensioni Google tramite un motore browser. Devi solo specificare l'URL o il nome dell'attività e collegare i proxy.
Opzione 2: Octoparse in modalità browser. Octoparse supporta la modalità di rendering del browser. Nelle impostazioni specifica proxy residenziali o mobili — e lo strumento raccoglierà le recensioni come un utente reale.
Opzione 3: Google Places API. Il modo ufficiale è utilizzare Google Places API. Fornisce fino a 5 recensioni per attività gratuitamente, ma per un volume maggiore è necessario pagare. Tuttavia, non ci sono blocchi e non è necessario alcun proxy.
Perché per Google sono necessari proxy mobili
Google è il creatore di reCAPTCHA ed è uno dei leader nel rilevamento dei bot. I proxy residenziali funzionano, ma gli IP mobili danno risultati significativamente migliori. La ragione è semplice: Google è esso stesso una piattaforma mobile e si fida del traffico mobile. Le richieste da IP mobili attivano meno frequentemente il captcha e meno frequentemente vengono sottoposte ad analisi comportamentale.
Per una raccolta su larga scala delle recensioni Google (migliaia di attività al giorno) è consigliato utilizzare proxy mobili rotanti con geolocalizzazione della città o regione necessaria. In questo modo le recensioni saranno massimamente rilevanti per la ricerca locale.
Parsing di Yelp senza ban: istruzioni passo-passo
Yelp è la più grande piattaforma di recensioni negli Stati Uniti. Per i marketer che lavorano con il mercato americano, è una fonte obbligatoria di dati sui concorrenti, le opinioni dei clienti e le tendenze nel settore. Parsare Yelp è più difficile di quanto sembri a prima vista: la piattaforma utilizza Cloudflare e un proprio sistema di protezione contro i bot.
Caratteristiche della protezione di Yelp
- Cloudflare Bot Management — analizza il comportamento e il fingerprint
- Limitazione delle richieste: oltre 30-50 richieste al minuto da un IP — ban
- Controlli JavaScript al primo accesso
- Parte delle recensioni è nascosta ("filtered reviews") e accessibile solo agli utenti autenticati
Istruzioni passo-passo per Yelp
Passo 1. Scegli uno strumento con supporto per Cloudflare. I normali parser non passeranno Cloudflare. Usa Apify (attore Yelp Scraper), Bright Data Scraping Browser o PhantomBuster — sono in grado di aggirare i controlli JS.
Passo 2. Collega proxy residenziali con geolocalizzazione negli Stati Uniti. Yelp è orientato al mercato americano. I proxy con IP americani forniranno il massimo accesso ai dati e il minimo numero di blocchi.
Passo 3. Imposta la rotazione ogni 5-10 richieste. Yelp è molto sensibile alla frequenza delle richieste. La rotazione degli IP ogni 5-10 pagine è una condizione obbligatoria per un funzionamento stabile.
Passo 4. Aggiungi ritardi di 3-8 secondi tra le richieste. Ritardi casuali imitano il comportamento di un utente reale e riducono significativamente il rischio di blocco.
Passo 5. Usa Yelp Fusion API per parte dei dati. Yelp fornisce un'API ufficiale con accesso ai dati di base sulle attività e le recensioni. Per piccoli volumi, questo è il modo più semplice senza rischio di blocchi.
Strumenti per la raccolta delle recensioni senza scrivere codice
Buone notizie: per il parsing delle recensioni non è necessario essere programmatori. Esistono strumenti pronti con interfaccia visiva che supportano la connessione di proxy e la rotazione automatica degli IP. Analizziamo i più popolari tra loro.
| Strumento | Piattaforme | Supporto proxy | Difficoltà |
|---|---|---|---|
| Octoparse | Amazon, Yelp, qualsiasi sito | ✅ Elenco di proxy + rotazione | Bassa (modalità visiva) |
| Apify | Amazon, Google Maps, Yelp | ✅ Proxy integrati + propri proxy | Bassa (attori pronti) |
| PhantomBuster | Google Maps, Yelp | ✅ Proxy residenziali | Bassa (modelli) |
| ParseHub | Amazon, Yelp, qualsiasi sito | ✅ Elenco di proxy | Media |
| Outscraper | Google Reviews, Maps | ✅ Integrato | Molto bassa (SaaS) |
Come collegare i proxy in Octoparse (passo dopo passo)
Octoparse è uno degli strumenti più popolari tra i marketer senza background tecnico. Ecco come collegare i proxy:
- Apri Octoparse → vai su Impostazioni → Impostazioni Proxy
- Seleziona «Usa proxy personalizzati»
- Incolla l'elenco dei proxy nel formato
ip:port:login:password - Attiva «Rotazione automatica dei proxy» — lo strumento cambierà automaticamente IP
- Clicca su «Testa proxy» — assicurati che tutti i proxy funzionino
- Avvia il compito in modalità normale
Come collegare i proxy in Apify
- Vai su apify.com → seleziona l'attore necessario (ad esempio, "Amazon Reviews Scraper")
- Nella sezione «Input» trova il campo «Configurazione proxy»
- Seleziona «Proxy personalizzati» e incolla i dati dei tuoi proxy
- Specifica gli URL delle pagine con le recensioni o i codici ASIN dei prodotti (per Amazon)
- Clicca su «Inizia» — i risultati saranno disponibili in formato JSON o Excel
Rotazione dei proxy e regole per un parsing sicuro delle recensioni
Anche i proxy di alta qualità non saranno utili se non si rispettano le regole per un parsing sicuro. Le piattaforme analizzano i modelli di comportamento, e un modello di richieste errato può portare al blocco dell'intero pool di IP.
Regola 1: Ruota gli IP regolarmente
Per Amazon è consigliato cambiare IP ogni 10-20 richieste. Per Google — ogni 5-10. Per Yelp — ogni 5-8. Se utilizzi proxy di sessione (sticky sessions), assicurati che la sessione non superi i 10-15 minuti — dopo di che richiedi un nuovo IP.
Regola 2: Imita il comportamento reale
Un utente reale non fa richieste con intervalli perfetti di 2 secondi. Aggiungi ritardi casuali: da 1 a 8 secondi. A volte fai pause di 30-60 secondi — come se una persona stesse leggendo la pagina. Questo riduce significativamente la probabilità di rilevamento.
Regola 3: Usa User-Agent aggiornati
Il User-Agent deve corrispondere a un browser reale. Versioni obsolete di Chrome o Firefox sollevano subito sospetti. Aggiorna il User-Agent almeno una volta al mese. Buoni parser (Octoparse, Apify) lo fanno automaticamente.
Regola 4: Non parsare di notte (secondo il fuso orario della piattaforma)
I sistemi di protezione sono più sensibili al traffico sospetto durante la notte. Se stai parsando Amazon US, è meglio farlo durante il giorno secondo l'orario americano (EST/PST) — quando sulla piattaforma ci sono molti utenti reali e le tue richieste "affogano" nel traffico generale.
Regola 5: Monitora la percentuale di richieste riuscite
Un buon indicatore è oltre il 95% di richieste riuscite senza captcha. Se la percentuale scende sotto l'85% — qualcosa non va. Controlla: i proxy sono obsoleti, l'algoritmo di protezione è cambiato, è necessario aggiornare il User-Agent o aumentare i ritardi.
Checklist per un parsing sicuro delle recensioni:
- ✅ Proxy residenziali o mobili con la geolocalizzazione necessaria
- ✅ Rotazione IP ogni 5-20 richieste (a seconda della piattaforma)
- ✅ Ritardi casuali di 1-8 secondi tra le richieste
- ✅ User-Agent aggiornato (ultima versione di Chrome)
- ✅ Parsing durante il giorno secondo il fuso orario della piattaforma
- ✅ Monitoraggio della percentuale di richieste riuscite (obiettivo: >95%)
- ✅ Aggiornamento del pool di proxy ogni 1-2 mesi
Confronto dei tipi di proxy per diverse piattaforme di recensioni
Di seguito è riportata una tabella riassuntiva che aiuterà a scegliere rapidamente il tipo di proxy giusto per un compito specifico. Fai riferimento a essa durante l'impostazione del parsing.
| Piattaforma | Datacenter | Residenziali | Mobili | Raccomandazione |
|---|---|---|---|---|
| Recensioni Amazon | ❌ Bloccano | ✅ Bene | ✅ Ottimo | Residenziali (US) |
| Recensioni Google | ❌ Bloccano | ⚠️ Media | ✅ Ottimo | Mobili |
| Yelp | ❌ Bloccano | ✅ Bene | ✅ Ottimo | Residenziali (US) |
| Trustpilot | ⚠️ Parzialmente | ✅ Bene | ✅ Ottimo | Residenziali |
| Wildberries / Ozon | ⚠️ Funzionano | ✅ Ottimo | ✅ Ottimo | Residenziali (RU) |
| TripAdvisor | ❌ Bloccano | ✅ Bene | ✅ Ottimo | Residenziali |
Perché raccogliere recensioni: scenari di utilizzo
La raccolta automatica delle recensioni risolve diverse sfide aziendali:
- Analisi dei concorrenti. Raccogli recensioni sui prodotti dei concorrenti su Amazon → trova i punti deboli → usali nel tuo marketing
- Monitoraggio della reputazione. Monitora automaticamente le nuove recensioni sul tuo marchio su tutte le piattaforme
- Ricerca del pubblico. Analizza migliaia di recensioni → individua modelli → migliora il prodotto
- SEO e contenuti. Raccogli recensioni per analisi semantica, individua le parole chiave utilizzate dai veri acquirenti
- Aggregatori di recensioni. Crea servizi che aggregano recensioni da più piattaforme per le aziende
Parsing delle recensioni sui marketplace russi
Se la tua azienda è orientata al mercato russo, è anche rilevante raccogliere recensioni da Wildberries, Ozon e Yandex.Market. Queste piattaforme hanno una protezione più morbida rispetto ad Amazon, ma bloccano comunque il parsing di massa. Per loro sono sufficienti proxy residenziali con IP russi — consentono di raccogliere dati in modo stabile senza captcha e blocchi.
Strumenti popolari per il parsing dei marketplace russi: Screaming Frog (con proxy), Octoparse, e servizi specializzati come Moneyplace o MPStats, che già includono proxy nella loro infrastruttura.
Conclusione: come iniziare a raccogliere recensioni senza blocchi subito
La raccolta automatica delle recensioni da Amazon, Google Reviews e Yelp è uno strumento potente per marketer, analisti e specialisti dell'e-commerce. Il principale ostacolo sono i blocchi. E la principale soluzione è il giusto tipo di proxy combinato con una corretta impostazione della rotazione e dei ritardi.
In breve: per Amazon e Yelp utilizza proxy residenziali con geolocalizzazione del paese necessario. Per Google Reviews — proxy mobili, che offrono la percentuale più alta di richieste riuscite. I proxy dei data center per questi compiti sono praticamente inutili — i loro IP sono già nelle blacklist.
Tra gli strumenti senza codice, Octoparse e Apify sono i migliori — entrambi supportano la connessione di proxy esterni e la rotazione automatica. Per Google Reviews considera anche Outscraper — è un servizio specializzato già ottimizzato per la raccolta di dati da Google Maps.
Se prevedi di raccogliere regolarmente recensioni da più piattaforme, ti consigliamo di iniziare con proxy residenziali — offrono il miglior equilibrio tra velocità, anonimato e costo, e sono adatti per la maggior parte delle attività di monitoraggio delle recensioni. Per lavorare con Google Reviews, dove la protezione è particolarmente aggressiva, considera proxy mobili — offrono la percentuale più alta di richieste riuscite senza captcha.