Ozon è uno dei marketplace più protetti del Runet: sistemi anti-bot, captcha, limiti alle richieste e blocchi per IP rendono la raccolta automatica di dati una vera sfida. Se monitori i prezzi dei concorrenti, analizzi il catalogo o raccogli recensioni per l'analisi - senza proxy ben configurati, il tuo parser verrà bloccato già dopo pochi minuti. In questa guida analizzeremo quali proxy sono adatti per Ozon, come configurarli correttamente e quali errori possono compromettere i progetti di raccolta dati.
Perché Ozon blocca il parsing: come funziona la protezione
Prima di configurare i proxy, è importante capire con cosa ti stai confrontando. Ozon utilizza un sistema di protezione multilivello contro le richieste automatiche, e ogni suo elemento deve essere considerato nella costruzione del parser.
Limitazione della frequenza — limitazione delle richieste
Se da un singolo indirizzo IP arrivano più di 30-50 richieste al minuto, Ozon inizia a restituire l'errore 429 (Troppe Richieste) o blocca completamente l'IP. Per un utente normale, una tale frequenza di richieste non esiste - significa che si tratta di un bot. È per questo che un singolo server proxy non è sufficiente: è necessario un pool di decine o centinaia di indirizzi IP con rotazione.
Analisi dell'User-Agent e delle intestazioni HTTP
Il sistema Ozon controlla le intestazioni di ogni richiesta. Se l'User-Agent appare come uno script (ad esempio, python-requests/2.28), la richiesta verrà bloccata immediatamente. È necessario imitare le intestazioni di un browser reale: User-Agent corretto, Accept-Language, Accept-Encoding, Referer.
Fingerprinting del browser
Sulle pagine di Ozon funziona JavaScript, che raccoglie il fingerprint del browser: risoluzione dello schermo, font installati, WebGL, Canvas. Se stai effettuando il parsing tramite un browser headless (Puppeteer, Playwright) senza mascheramento - il sistema lo rileverà. È quindi importante utilizzare strumenti con modalità stealth o effettuare il parsing tramite API senza rendering JS.
Geoblocking e verifica della reputazione IP
Ozon è un marketplace russo, e si aspetta richieste da indirizzi IP russi. Se ti connetti tramite un proxy di data center dalla Germania o dagli Stati Uniti, questo suscita immediatamente sospetti. Inoltre, gli indirizzi IP dei data center sono spesso inseriti nelle blacklist dei sistemi anti-bot (Cloudflare, DataDome) - ecco perché per Ozon sono necessari IP residenziali o mobili russi.
Conclusione: cosa blocca Ozon
- IP di data center e server VPN (inseriti nelle blacklist)
- Frequenza di richieste troppo alta da un singolo IP
- Intestazioni HTTP irrealistiche (User-Agent da script)
- Indirizzi IP stranieri per un marketplace russo
- Assenza di cookies e dati di sessione
Quali proxy sono adatti per Ozon: confronto dei tipi
Non tutti i proxy gestiscono bene la protezione di Ozon. Analizziamo tre tipi principali e la loro applicabilità per le attività su questo marketplace.
| Tipo di proxy | Come appare per Ozon | Velocità | Rischio di blocco | Adatto per Ozon? |
|---|---|---|---|---|
| Data center | IP di hosting/cloud | Molto alta | Alta | ⚠️ Solo per compiti leggeri |
| Residenziali | IP di utenti domestici | Media | Basso | ✅ Ottimo |
| Mobili | IP di operatori mobili | Media | Minimo | ✅ Ideale |
Proxy residenziali — il cavallo di battaglia per Ozon
I proxy residenziali utilizzano indirizzi IP di veri utenti domestici. Per Ozon, tale richiesta appare come una persona normale che accede al sito tramite internet domestico. Il sistema anti-bot non rileva segni di automazione a livello di IP. Questo rende i proxy residenziali la scelta principale per il parsing su larga scala: monitoraggio dei prezzi su migliaia di SKU, raccolta di schede prodotto, analisi dell'assortimento dei concorrenti.
Il vantaggio chiave è un ampio pool di indirizzi IP con la possibilità di scegliere la geolocalizzazione russa. Ozon si aspetta richieste da indirizzi russi, e i proxy residenziali con geotargeting sulla Russia offrono un livello minimo di sospetto.
Proxy mobili — massima affidabilità
I proxy mobili funzionano tramite IP di operatori mobili (MTS, Beeline, MegaFon, Tele2). Questo è il tipo di traffico più "pulito" dal punto di vista dei sistemi anti-bot: gli IP mobili raramente finiscono nelle blacklist, e un singolo IP può essere utilizzato contemporaneamente da migliaia di utenti reali. Se un IP residenziale viene bloccato - è sospetto. Se un IP mobile viene bloccato - Ozon rischia di escludere migliaia di acquirenti reali, il che non è vantaggioso per loro.
I proxy mobili sono particolarmente buoni per attività in cui è necessaria un'alta affidabilità: raccolta di recensioni, monitoraggio di promozioni e saldi in tempo reale.
Proxy di data center — solo per compiti semplici
I proxy di data center funzionano rapidamente e costano meno, ma per Ozon il loro utilizzo è limitato. La maggior parte di questi IP è già inserita nelle blacklist dei sistemi anti-bot. Possono essere adatti per attività occasionali con bassa frequenza di richieste - ad esempio, controllare la disponibilità di un prodotto specifico un'ora. Per monitoraggi regolari su larga scala non sono adatti.
Scenari di utilizzo: prezzi, prodotti, recensioni
Le attività di raccolta dati da Ozon sono diverse, e per ognuna è necessaria una strategia specifica. Analizziamo tre scenari principali.
📊 Monitoraggio dei prezzi dei concorrenti
Questo è lo scenario più popolare tra i venditori. Obiettivo: monitorare i prezzi su centinaia o migliaia di posizioni dei concorrenti, per correggere rapidamente la propria strategia di pricing. Ozon cambia spesso i prezzi più volte al giorno - soprattutto durante le promozioni.
Requisiti per i proxy: è necessario un pool di 50-200 IP residenziali con geolocalizzazione russa. Le richieste devono essere inviate con un ritardo di 2-5 secondi tra ciascuna, e l'IP deve cambiare dopo ogni 5-10 richieste. Con questo regime, il parser può elaborare 500-1000 schede prodotto all'ora senza blocchi.
Cosa raccogliere: prezzo attuale, prezzo precedente allo sconto, disponibilità in magazzino, valutazione del venditore, numero di recensioni, stato di partecipazione alla promozione Ozon.
🛍️ Raccolta di dati sui prodotti e sull'assortimento
Gli analisti e i marketer raccolgono dati sull'assortimento: quali categorie stanno crescendo, quali prodotti stanno diventando popolari nelle ricerche, come cambia il numero di venditori nella nicchia. Queste sono attività più ampie - è necessario navigare attraverso migliaia di pagine del catalogo.
Requisiti per i proxy: pool di almeno 200 IP con rotazione. È importante utilizzare sessioni sticky (quando un IP è "fissato" su una sessione per alcuni minuti), per navigare correttamente nella paginazione - altrimenti, cambiando IP nella pagina successiva del catalogo, potresti ottenere risultati diversi.
Cosa raccogliere: nome del prodotto, codice articolo (SKU), categoria, marca, descrizione, caratteristiche, fotografie, numero di venditori, posizione nella ricerca.
⭐ Parsing di recensioni e valutazioni
Le recensioni sono una fonte preziosa di dati per analizzare le preferenze dei consumatori, trovare i punti deboli dei concorrenti e migliorare i propri prodotti. Le pagine delle recensioni su Ozon sono particolarmente ben protette: per caricarle è necessario JavaScript, e i dati vengono spesso caricati tramite richieste AJAX.
Requisiti per i proxy: per il parsing delle recensioni, i proxy mobili con IP russi sono i più adatti. Poiché ogni pagina di recensioni richiede diverse richieste (pagina principale + AJAX per il caricamento del contenuto), gli IP mobili garantiscono stabilità della sessione.
Cosa raccogliere: testo della recensione, valutazione (1-5 stelle), data di pubblicazione, utilità della recensione (like), risposta del venditore, fotografie nelle recensioni, acquisto verificato.
Rotazione IP e gestione delle sessioni: come evitare il ban
Anche con buoni proxy, puoi ricevere un blocco se gestisci male le sessioni e la rotazione. Questo è uno degli aspetti tecnici chiave del parsing di Ozon.
Due modalità di rotazione: rotating vs sticky
Rotating (rotazione casuale) - ogni richiesta proviene da un nuovo IP. Questo è utile per richieste indipendenti: ad esempio, quando controlli il prezzo di un singolo prodotto. Ozon non vede alcuna connessione tra le richieste.
Sticky sessions (sessioni fisse) - un IP viene utilizzato per più richieste consecutive all'interno di una "sessione" (di solito 1-30 minuti). Questo è necessario quando navighi nella paginazione del catalogo, raccogli più pagine di recensioni di un prodotto o lavori con il carrello/autenticazione. Un cambio brusco di IP a metà sessione appare sospetto.
Regole di ritardo tra le richieste
| Tipo di attività | Ritardo tra le richieste | Cambio IP |
|---|---|---|
| Monitoraggio dei prezzi (1000+ SKU) | 2-4 secondi | Ogni 5-10 richieste |
| Navigazione nel catalogo (paginazione) | 3-6 secondi | Ogni 20-30 pagine |
| Raccolta di recensioni | 4-8 secondi | Ogni prodotto - nuovo IP |
| Controllo occasionale della disponibilità | 1-2 secondi | Ogni richiesta |
Gestione dei cookies e dei dati di sessione
Ozon tiene traccia dei cookies: se ogni richiesta arriva senza cookies o con nuovi cookies, questo è un segno di un bot. Si consiglia, al primo accesso da un nuovo IP, di "riscaldare" la sessione - prima caricare la pagina principale, poi passare alla categoria, e solo dopo richiedere i dati necessari. Questo imita il comportamento di un utente reale e riduce il rischio di blocco di 3-5 volte.
Impostazione dei proxy per il parsing di Ozon: guida passo passo
Analizziamo la configurazione pratica utilizzando strumenti popolari. Iniziamo con una configurazione di base che si adatta alla maggior parte degli scenari.
Passo 1. Ottieni i dati del proxy
Dopo aver connesso proxy residenziali o mobili, riceverai i dati per la connessione nel formato:
host: proxy.example.com port: 8080 username: your_username password: your_password protocol: HTTP / HTTPS / SOCKS5
Per Ozon si consiglia di utilizzare il protocollo HTTPS o SOCKS5. SOCKS5 è preferibile se il tuo strumento lo supporta - trasmette meno intestazioni identificative.
Passo 2. Imposta il geotargeting sulla Russia
Nelle impostazioni del servizio proxy, seleziona il paese: Russia (RU). Per alcune attività, è importante una città specifica - ad esempio, se vuoi vedere i prezzi considerando la consegna a Mosca o San Pietroburgo. In questo caso, scegli il geotargeting a livello di città.
Se il servizio fornisce un endpoint con un parametro di geolocalizzazione nell'URL, appare più o meno così:
proxy.example.com:8080?country=ru&city=moscow&session=random
Passo 3. Imposta le intestazioni HTTP corrette
Questo è un passo critico. La richiesta a Ozon deve apparire come una richiesta proveniente da un vero browser Chrome su Windows. Il set minimo di intestazioni:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Passo 4. Imposta la rotazione e i ritardi
Nella maggior parte dei parser pronti e degli strumenti no-code ci sono impostazioni per ritardi e rotazione. Imposta:
- Ritardo tra le richieste: 3-5 secondi (puoi aggiungere casualità: da 2 a 7 secondi)
- Rotazione IP: ogni 5-10 richieste per il monitoraggio dei prezzi, ogni richiesta per controlli occasionali
- Timeout della richiesta: 15-30 secondi (Ozon a volte risponde lentamente)
- Ritenta in caso di errore: 3 tentativi con un nuovo IP in caso di 403/429/503
Passo 5. Controlla il funzionamento prima del lancio
Prima di avviare il parsing completo, esegui un test: fai 20-30 richieste a diverse pagine di Ozon con un intervallo di 5 secondi. Se tutte le richieste restituiscono stato 200 e HTML corretto - la configurazione è stata eseguita correttamente. Se vedi 403 o un reindirizzamento a captcha - devi correggere le intestazioni o cambiare il tipo di proxy.
Strumenti per il parsing di Ozon senza codice
La maggior parte dei venditori e degli analisti non scrive parser da zero. Ci sono strumenti pronti che supportano la connessione dei proxy e non richiedono abilità di programmazione.
Octoparse — parser visivo con supporto proxy
Octoparse è uno degli strumenti no-code più popolari per il parsing. Indichi visivamente gli elementi sulla pagina che devono essere raccolti, e lo strumento genera automaticamente il parser. Supporta la connessione dei proxy tramite le impostazioni del task: inserisci l'indirizzo, la porta, il nome utente e la password - e lo strumento ruoterà automaticamente gli IP.
Come collegare i proxy in Octoparse: apri il task → Impostazioni → Impostazioni Proxy → Aggiungi Proxy → inserisci i dati di connessione → scegli la modalità di rotazione. Per Ozon si consiglia la modalità "Ruota IP per ogni N richieste" con un valore di 5-10.
ParseHub — parser cloud per siti complessi
ParseHub gestisce bene le pagine in cui i dati vengono caricati tramite JavaScript (cosa rilevante per Ozon). Supporta il lavoro tramite proxy nei piani a pagamento. Lo strumento ha un browser integrato che rende JS - questo aiuta a raccogliere dati che non sono disponibili tramite una normale richiesta HTTP.
Servizi specializzati di monitoraggio dei prezzi
Per il monitoraggio dei prezzi su Ozon esistono soluzioni SaaS specializzate: Priceva, Metacommerce, Price2Spy. Questi già contengono logiche integrate per aggirare la protezione di Ozon e funzionano su abbonamento. Se il tuo obiettivo è solo monitorare i prezzi senza dati personalizzati, tali servizi possono essere più comodi rispetto a una configurazione autonoma del parser con proxy.
n8n / Make (Integromat) — automazione con richieste HTTP
Per attività semplici - ad esempio, controllare il prezzo di un prodotto specifico ogni ora - puoi utilizzare piattaforme di automazione come n8n o Make. Inviando richieste HTTP a Ozon e analizzando la risposta secondo un modello specificato. I proxy vengono collegati nelle impostazioni del nodo HTTP: inserisci l'indirizzo del proxy nel campo Proxy URL. Questo non è il metodo più potente, ma è il più semplice per l'automazione senza codice.
💡 Consiglio: utilizza l'API di Ozon dove possibile
Ozon fornisce un'API ufficiale per i venditori. Se sei un venditore registrato, puoi ottenere parte dei dati (ordini, scorte, analisi delle vendite) tramite API senza proxy e rischio di blocchi. Il parsing tramite proxy è necessario per i dati che l'API non fornisce: prezzi dei concorrenti, le loro recensioni, posizioni nella ricerca.
Top-7 errori nel parsing di Ozon e come evitarli
La maggior parte dei problemi di blocco deriva dagli stessi errori. Ecco un elenco di cose che assolutamente non dovresti fare - e come correggerle.
❌ Errore 1: Utilizzare un solo IP per tutte le richieste
Anche il più "pulito" degli IP verrà bloccato se riceve 500 richieste all'ora. Soluzione: un pool di almeno 50 IP con rotazione.
❌ Errore 2: Parsing senza ritardi
Richieste senza ritardi sono il segno più evidente di un bot. Anche 1 secondo tra le richieste riduce significativamente il rischio di blocco. Ottimale: 3-5 secondi con una variazione casuale.
❌ Errore 3: Utilizzare l'User-Agent predefinito della libreria
python-requests/2.28.0 - questo porta a un blocco immediato. Cambia sempre l'User-Agent con uno attuale di Chrome.
❌ Errore 4: Utilizzare IP stranieri per Ozon
Ozon è un servizio russo. Richieste da IP tedeschi o americani suscitano sospetti. Scegli sempre il geotargeting sulla Russia.
❌ Errore 5: Ignorare gli errori 429 e continuare a inviare richieste
Se ricevi 429 - interrompi immediatamente le richieste da questo IP, aspetta 5-10 minuti, cambia IP. Continuare a inviare richieste in caso di 429 accelera il blocco permanente dell'IP.
❌ Errore 6: Non gestire i reindirizzamenti a captcha
Ozon a volte reindirizza a una pagina con captcha invece di bloccare. Il parser deve controllare che l'HTML ricevuto contenga i dati necessari e non la pagina captcha - e in caso di captcha cambiare IP.
❌ Errore 7: Parsing durante le ore di punta
Durante le ore di punta (sera, fine settimana) Ozon filtra il traffico in modo più aggressivo. Per attività di grande volume, pianifica il parsing durante le ore notturne o nelle prime ore del mattino - il carico sui server è inferiore e i sistemi anti-bot sono meno severi.
Conclusione: come costruire una raccolta dati stabile con Ozon
Il parsing di Ozon non è una configurazione una tantum, ma un lavoro costante con l'infrastruttura. Il marketplace aggiorna regolarmente la protezione, cambia la struttura delle pagine e inasprisce i filtri anti-bot. Un monitoraggio di successo si basa su tre pilastri: il tipo di proxy corretto, una buona rotazione degli IP e una corretta imitazione del comportamento di un utente reale.
In sintesi, ecco cosa abbiamo analizzato:
- Per il monitoraggio dei prezzi e dell'assortimento - utilizza proxy residenziali con geolocalizzazione russa e un pool di almeno 50 IP
- Per la raccolta di recensioni e attività con elevate esigenze di affidabilità - proxy mobili di operatori russi
- Imposta sempre ritardi, rotazione e intestazioni HTTP corrette
- Utilizza sessioni sticky durante la navigazione nella paginazione
- Pianifica attività di grande volume durante le ore notturne
Se stai appena iniziando a costruire un sistema di monitoraggio per Ozon, ti consigliamo di iniziare con proxy residenziali con IP russi - offrono un equilibrio tra costo, velocità e affidabilità per la maggior parte delle attività di raccolta dati dai marketplace. Per attività critiche, dove ogni richiesta deve passare senza problemi, considera i proxy mobili - sono più costosi, ma praticamente non vengono bloccati anche con un uso intensivo.