Il monitoraggio manuale delle gare sulle piattaforme EIS (Zakupki.gov.ru), Sberbank-AST, RTS-tender richiede 3-5 ore quotidiane. L'automazione tramite parser risolve il problema, ma le piattaforme pubbliche bloccano attivamente le richieste automatiche: l'IP viene bloccato dopo 50-100 richieste. I proxy consentono di aggirare le restrizioni e raccogliere dati su nuove gare 24 ore su 24 senza il rischio di bloccare l'IP principale dell'azienda.
In questa guida esamineremo: quali proxy sono adatti per diverse piattaforme di gara, come impostare il parsing automatico senza blocchi, quali strumenti pronti utilizzare e come evitare errori comuni che portano al blocco.
Perché le piattaforme di gara bloccano le richieste automatiche
Le piattaforme di gara pubbliche e commerciali utilizzano una protezione multilivello contro la raccolta automatica di dati. Ciò è dovuto a diverse ragioni: il carico sui server da parte dei parser può raggiungere il 60-70% del traffico totale, i concorrenti utilizzano i dati raccolti per pratiche di dumping e ci sono anche requisiti per la protezione dei dati personali dei partecipanti agli appalti.
Il Sistema Informativo Unico (EIS) è la piattaforma più protetta. Il sistema registra i seguenti parametri di ogni richiesta: indirizzo IP, User-Agent del browser, frequenza delle richieste, sequenza di azioni sul sito. Se da un IP arrivano più di 100 richieste all'ora o le richieste sono troppo uniformi (ad esempio, ogni 5 secondi), l'IP viene bloccato per 24-72 ore. Il blocco si estende all'intero intervallo di sottorete, quindi può colpire l'intera azienda.
Le piattaforme commerciali (Sberbank-AST, RTS-tender, Fabbricante) utilizzano una protezione più morbida, ma monitorano comunque l'attività sospetta. I principali trigger di blocco: assenza di cookie, JavaScript disattivato, navigazione troppo rapida tra le pagine (meno di 2 secondi per pagina), intervalli di tempo identici tra le richieste.
Caso reale: Un'azienda di fornitura di attrezzature ha impostato un parser per monitorare le gare su EIS senza proxy. Nelle prime 2 ore di lavoro, il parser ha raccolto dati su 340 gare, ma poi l'IP dell'ufficio è stato bloccato. I dipendenti non potevano accedere al proprio account EIS per inviare domande per 48 ore. L'azienda ha perso 3 importanti gare per un totale di 12 milioni di rubli.
Quale tipo di proxy scegliere per il monitoraggio delle gare
Per il monitoraggio delle piattaforme di gara, ci sono tre tipi di proxy, ciascuno con le proprie caratteristiche di utilizzo. La scelta dipende dal volume di parsing, dal budget e dai requisiti di affidabilità.
| Tipo di proxy | Affidabilità per EIS | Velocità | Utilizzo |
|---|---|---|---|
| Proxy dei data center | Media (bloccati più frequentemente) | Molto alta (50-100 ms) | Piattaforme commerciali, test |
| Proxy residenziali | Alta (IP reali) | Media (200-500 ms) | EIS, Sberbank-AST, parsing 24 ore su 24 |
| Proxy mobili | Massima (IP degli operatori) | Media (300-600 ms) | EIS con elevate esigenze di affidabilità |
I proxy residenziali sono la scelta ottimale per la maggior parte delle attività di monitoraggio delle gare. Utilizzano indirizzi IP di utenti domestici reali, quindi le piattaforme percepiscono le richieste come azioni di persone comuni. Per EIS si raccomanda di utilizzare proxy residenziali russi con rotazione ogni 10-15 minuti. Questo consente di raccogliere dati su 500-1000 gare quotidianamente senza alcun blocco.
I proxy dei data center sono adatti per piattaforme commerciali meno protette: RTS-tender, Fabbricante, B2B-Center. Sono 3-5 volte più economici dei proxy residenziali e funzionano più velocemente, ma EIS spesso riconosce e blocca tali IP. Usali per testare inizialmente il parser o per monitorare piccole piattaforme regionali.
I proxy mobili hanno il massimo livello di fiducia, poiché utilizzano IP degli operatori mobili (MTS, Beeline, MegaFon). Le piattaforme raramente bloccano tali indirizzi, poiché dietro un IP dell'operatore possono trovarsi migliaia di utenti reali. Lo svantaggio è il costo più elevato. Utilizza i proxy mobili se lavori con gare particolarmente preziose o hai già ricevuto blocchi utilizzando proxy residenziali.
Caratteristiche della protezione delle diverse piattaforme: EIS, Sberbank-AST, RTS-tender
Ogni piattaforma di gara ha le proprie caratteristiche di protezione contro il parsing. Comprendere questi meccanismi consente di configurare il parser in modo da minimizzare il rischio di blocco.
EIS (Zakupki.gov.ru) — massima protezione
Il Sistema Informativo Unico utilizza la protezione più rigorosa tra tutte le piattaforme. I principali meccanismi: limite di 100 richieste all'ora da un IP, supporto obbligatorio per cookie e JavaScript, verifica del referrer (da dove proviene l'utente), analisi dei fattori comportamentali (tempo sulla pagina, movimento del mouse, scorrimento).
Raccomandazioni per il parsing di EIS: utilizza proxy residenziali o mobili con IP russi, attiva la rotazione automatica dei proxy ogni 80-90 richieste (per non raggiungere il limite), aggiungi ritardi casuali tra le richieste da 3 a 8 secondi, utilizza browser headless (Puppeteer, Selenium) invece di semplici richieste HTTP: emulano completamente il comportamento di un browser reale.
Sberbank-AST — livello medio di protezione
La piattaforma di Sberbank utilizza restrizioni più morbide: limite di circa 200-300 richieste all'ora, i cookie sono obbligatori, ma il JavaScript non viene sempre verificato, il blocco avviene in caso di comportamento chiaramente robotico (intervalli identici tra le richieste, assenza di referrer).
Per Sberbank-AST sono sufficienti proxy residenziali con rotazione ogni 200 richieste. È possibile utilizzare strumenti di parsing più semplici senza una completa emulazione del browser, ma assicurati di aggiungere ritardi casuali di 2-5 secondi e intestazioni User-Agent corrette.
RTS-tender, Fabbricante, B2B-Center — protezione di base
Le piattaforme commerciali hanno una protezione minima: limiti di 500+ richieste all'ora, il controllo principale è la presenza di cookie e un User-Agent adeguato, raramente bloccano i proxy dei data center.
Per queste piattaforme sono adatti anche i proxy dei data center con rotazione di base. Puoi utilizzare semplici parser HTTP senza emulazione del browser. L'importante è non inviare richieste troppo frequentemente (minimo 1-2 secondi tra le richieste) e cambiare periodicamente IP.
Strumenti pronti per il parsing delle gare senza programmazione
Per monitorare le gare non è necessario scrivere codice da zero. Esistono soluzioni pronte con interfaccia grafica che supportano il lavoro tramite proxy.
Octoparse — parser visivo con supporto per proxy e pianificatore di attività. Consente di creare un parser per qualsiasi piattaforma di gara tramite interfaccia grafica: basta cliccare sugli elementi della pagina da raccogliere (numero di gara, committente, importo, data di scadenza) e il programma crea automaticamente l'algoritmo di parsing. Nelle impostazioni puoi specificare un elenco di proxy e Octoparse li ruoterà automaticamente. Prezzo — a partire da $75/mese, disponibile una versione gratuita con limitazioni.
ParseHub — simile a Octoparse con un'interfaccia più semplice. Ottimo per principianti. Supporta siti JavaScript (importante per EIS), lavoro tramite proxy, esportazione dei dati in Excel/Google Sheets. La versione gratuita consente di creare fino a 5 progetti di parsing. La versione a pagamento — a partire da $149/mese con possibilità di avviare il parsing secondo un programma (ad esempio, controllare nuove gare ogni 2 ore).
Screaming Frog SEO Spider — inizialmente uno strumento per SEO, ma adatto anche per il parsing di dati strutturati. Supporta proxy, può raccogliere dati dalle pagine in base a selettori CSS specificati. Svantaggio — è necessario avere una certa familiarità con la struttura HTML delle pagine. Prezzo — £149/anno (circa 15.000 rubli), più economico rispetto ai concorrenti.
Servizi specializzati di monitoraggio delle gare — Kontur.Zakupki, Tender.Pro, B2B-Center hanno già sistemi di monitoraggio integrati con filtri e notifiche. Non richiedono impostazioni proxy, poiché operano per conto del servizio. Prezzo — da 5.000 a 30.000 rubli al mese a seconda del numero di categorie monitorate. Svantaggio — dipendi dalle capacità del servizio e non puoi raccogliere dati aggiuntivi o integrarli nel tuo CRM.
Raccomandazione per la scelta dello strumento:
- Per i principianti senza competenze tecniche — ParseHub o Octoparse
- Per il parsing di 3-5 piattaforme con integrazione nel CRM — Screaming Frog + impostazione dell'esportazione
- Per monitorare solo EIS senza dati aggiuntivi — servizi specializzati
- Per compiti complessi (analisi della documentazione delle gare, parsing di file allegati) — sviluppo in Python con Selenium
Impostazione passo-passo del monitoraggio tramite proxy in 20 minuti
Esaminiamo l'impostazione del monitoraggio automatico delle gare utilizzando Octoparse — uno degli strumenti più popolari con interfaccia grafica. Questo esempio è adatto per monitorare EIS, Sberbank-AST e altre piattaforme.
Passo 1: Ottenere i proxy. Registrati presso un fornitore di proxy e ottieni un elenco di indirizzi IP con porte e dati di autorizzazione. Per monitorare EIS si raccomandano almeno 10 proxy residenziali russi con rotazione automatica. Il fornitore fornirà i dati nel formato: IP:PORT:USERNAME:PASSWORD (ad esempio, 185.123.45.67:8000:user123:pass456).
Passo 2: Installazione e configurazione di Octoparse. Scarica Octoparse dal sito ufficiale e installalo sul computer. Dopo l'avvio, crea un nuovo progetto di parsing inserendo l'URL della pagina con i risultati della ricerca delle gare su EIS (ad esempio, ricerca per parola chiave "attrezzature" nella tua regione).
Passo 3: Configurazione dei proxy in Octoparse. Apri Impostazioni → Impostazioni proxy. Seleziona la modalità "Usa proxy personalizzati". Aggiungi i tuoi proxy all'elenco specificando IP, porta, tipo (HTTP o SOCKS5), nome utente e password. Attiva l'opzione "Ruota proxy per ogni richiesta": questo farà sì che il programma cambi proxy dopo ogni richiesta, distribuendo il carico e evitando blocchi.
Passo 4: Creazione dell'algoritmo di parsing. In modalità costruttore visivo, clicca sugli elementi della pagina che devono essere raccolti: numero di gara, nome, committente, prezzo iniziale, data di scadenza per la presentazione delle domande, regione. Octoparse determinerà automaticamente la struttura dei dati e creerà l'algoritmo di raccolta. Controlla il risultato delle prime 5-10 voci: il programma mostrerà un'anteprima del risultato del parsing.
Passo 5: Configurazione della paginazione. Le piattaforme di gara mostrano i risultati pagina per pagina (di solito 10-50 gare per pagina). In Octoparse aggiungi l'azione "Clicca sul pulsante di paginazione" e specifica il pulsante "Pagina successiva". Il programma passerà automaticamente tra le pagine e raccoglierà tutti i risultati.
Passo 6: Aggiunta di ritardi. Nelle impostazioni del parser, imposta ritardi casuali tra le richieste: minimo 3 secondi, massimo 8 secondi. Questo imita il comportamento di un utente reale e riduce il rischio di blocco. Aggiungi anche un ritardo di 5-10 secondi dopo il caricamento di ogni pagina: questo dà tempo agli elementi JavaScript di caricarsi completamente.
Passo 7: Configurazione della pianificazione. Nella sezione "Pianificazione attività", imposta l'avvio automatico del parsing. Per monitorare nuove gare, è ottimale avviare il controllo ogni 2-4 ore durante l'orario lavorativo. Ad esempio: 9:00, 13:00, 17:00, 21:00. Questo consente di monitorare nuove pubblicazioni durante il giorno senza un carico eccessivo sulla piattaforma.
Passo 8: Esportazione dei dati. Imposta l'esportazione automatica dei dati raccolti in un formato conveniente: Excel, Google Sheets, database MySQL o invio tramite API nel tuo sistema CRM. Octoparse può inviare automaticamente nuovi dati dopo ogni avvio del parser, consentendo di ricevere notifiche su nuove gare in tempo reale.
Impostazione della rotazione dei proxy e dei ritardi tra le richieste
Una corretta impostazione della rotazione dei proxy e dei ritardi è un fattore chiave per un parsing di successo senza blocchi. Anche con proxy di alta qualità, una configurazione errata porterà a un blocco.
Strategie di rotazione dei proxy: Ci sono tre approcci principali per cambiare gli indirizzi IP durante il parsing.
Rotazione dopo ogni richiesta — il metodo più sicuro, ma lento. Ogni richiesta alla piattaforma avviene con un nuovo IP. Adatto per EIS durante il parsing di grandi volumi di dati (1000+ gare). Svantaggio — aumenta il tempo di parsing, poiché l'instaurazione di una nuova connessione tramite proxy richiede 200-500 ms.
Rotazione in base al numero di richieste — un equilibrio ottimale tra velocità e sicurezza. Un proxy viene utilizzato per 50-100 richieste, quindi viene cambiato con il successivo. Per EIS si raccomanda di cambiare proxy ogni 80 richieste (un po' sotto il limite di 100). Per le piattaforme commerciali, puoi aumentare a 200-300 richieste per un IP.
Rotazione in base al tempo — cambio di IP ogni 10-15 minuti indipendentemente dal numero di richieste. Adatto per parsing prolungato con bassa intensità (ad esempio, monitoraggio degli aggiornamenti durante il giorno). Alcuni fornitori di proxy offrono rotazione automatica nel tempo: ricevi un solo URL proxy, ma l'IP cambia automaticamente ogni N minuti.
Impostazione dei ritardi tra le richieste: Un essere umano non può passare istantaneamente tra le pagine: ha bisogno di tempo per leggere, scorrere, cliccare. Il parser deve imitare questo comportamento.
| Piattaforma | Ritardo tra le richieste | Ritardo dopo il caricamento della pagina |
|---|---|---|
| EIS (Zakupki.gov.ru) | 3-8 secondi (casuale) | 5-10 secondi |
| Sberbank-AST | 2-5 secondi (casuale) | 3-7 secondi |
| RTS-tender, Fabbricante | 1-3 secondi (casuale) | 2-4 secondi |
È importante utilizzare ritardi casuali nell'intervallo specificato. Se il parser effettua richieste esattamente ogni 5 secondi, il sistema di protezione identificherà facilmente il bot. La funzione di ritardo casuale è presente in tutti gli strumenti di parsing popolari.
Consiglio: Aggiungi una "modalità notturna" per il parsing. Dalle 23:00 alle 7:00 puoi aumentare l'intensità delle richieste (ridurre i ritardi), poiché in quel momento c'è la minima attività di utenti reali sulle piattaforme e i sistemi di protezione funzionano meno rigorosamente. Questo ti permetterà di raccogliere più dati nello stesso tempo.
Errori comuni che portano al blocco
Anche utilizzando proxy di alta qualità, il parser può essere bloccato a causa di errori tecnici nella configurazione. Ecco i problemi più comuni e come risolverli.
Errore 1: Utilizzo dello stesso User-Agent. L'User-Agent è una stringa che informa il sito su quale browser e sistema operativo vengono utilizzati. Se tutte le richieste provengono dallo stesso User-Agent (ad esempio, quello standard per la libreria Python requests), è un chiaro segnale di un bot. Soluzione: utilizza un elenco di 10-20 User-Agent popolari per diversi browser (Chrome, Firefox, Safari) e sistemi operativi (Windows, macOS, Linux), e ruotali casualmente ad ogni richiesta.
Errore 2: Cookie disattivati. La maggior parte dei siti imposta cookie al primo accesso e verifica la loro presenza nelle richieste successive. Se il parser non conserva i cookie, ogni richiesta appare come un primo accesso da un nuovo dispositivo, il che è sospetto. Soluzione: attiva il supporto per i cookie nelle impostazioni del parser. In Octoparse e ParseHub questo avviene automaticamente. Se scrivi il tuo parser in Python, utilizza la libreria requests.Session(): conserva automaticamente i cookie tra le richieste.
Errore 3: Parsing senza esecuzione di JavaScript. I siti moderni, incluso EIS, utilizzano attivamente JavaScript per caricare contenuti. Se il parser scarica semplicemente il codice HTML della pagina senza eseguire JavaScript, otterrà dati incompleti e il server registrerà un comportamento sospetto. Soluzione: utilizza browser headless (Puppeteer, Selenium, Playwright) che caricano completamente la pagina, eseguono JavaScript e possono persino scorrere la pagina per caricare contenuti dinamici.
Errore 4: Ignorare il captcha. Alcune piattaforme mostrano un captcha in caso di attività sospetta. Se il parser non riesce a risolvere il captcha, si bloccherà e inizierà a inviare richieste ripetute, portando al blocco dell'IP. Soluzione: utilizza servizi di risoluzione automatica del captcha (2Captcha, Anti-Captcha): costano circa $1-3 per 1000 captcha risolti. La maggior parte degli strumenti di parsing ha integrazioni incorporate con tali servizi.
Errore 5: Parsing durante le ore di punta. Dalle 10:00 alle 16:00 nei giorni lavorativi, le piattaforme di gara hanno la massima attività degli utenti e i sistemi di protezione funzionano in modo più rigoroso. Un parsing intensivo in questo momento porterà più rapidamente a un blocco. Soluzione: esegui la maggior parte del parsing nelle ore serali (18:00-23:00) o di notte. Durante l'orario lavorativo, esegui solo controlli puntuali delle nuove gare con intensità minima.
Errore 6: Utilizzo di proxy "sporchi". Alcuni fornitori di proxy economici vendono IP già utilizzati per spam o altre attività sospette e presenti nelle liste nere. Soluzione: testa i proxy prima di un utilizzo massiccio. Invia 20-30 richieste di test alla piattaforma da ciascun nuovo proxy e verifica se ci sono captcha o blocchi. Se il proxy è "sporco", sostituiscilo con il fornitore.
Scalabilità: monitoraggio di più di 10 piattaforme contemporaneamente
Quando il monitoraggio di una o due piattaforme di base è impostato e funziona stabilmente, sorge la necessità di scalabilità: parsing simultaneo di decine di piattaforme di gara per ottenere la massima copertura del mercato.
Distribuzione dei proxy tra le piattaforme. Non utilizzare gli stessi proxy per diverse piattaforme contemporaneamente. Crea pool di proxy: ad esempio, 10 proxy per EIS, 5 per Sberbank-AST, 5 per RTS-tender e così via. Questo eviterà situazioni in cui un blocco su una piattaforma influisca sul funzionamento del parser su un'altra.
Prioritizzazione delle piattaforme. Non tutte le piattaforme di gara sono ugualmente importanti per la tua azienda. Identifica 3-5 piattaforme chiave, dove vengono pubblicate le gare più rilevanti, e assegna loro più risorse: i migliori proxy, controlli più frequenti, parsing più dettagliato (inclusa la raccolta della documentazione). Per le altre piattaforme, utilizza un monitoraggio di base solo dei parametri principali delle gare.
Automazione del trattamento dei dati. Durante il parsing di più di 10 piattaforme, riceverai centinaia di nuove gare quotidianamente. Il trattamento manuale è impossibile. Imposta un filtro automatico: per parole chiave nel titolo della gara, per regione del committente, per intervallo di prezzo iniziale, per data di scadenza per la presentazione delle domande. Solo le gare che superano tutti i filtri vengono inserite nell'elenco per la verifica manuale.
Integrazione con CRM e sistemi di notifiche. Imposta l'invio automatico delle gare filtrate nel tuo sistema CRM o nel messenger aziendale (Slack, Telegram, Microsoft Teams). I manager riceveranno notifiche su nuove gare adatte in tempo reale e potranno prendere rapidamente decisioni sulla partecipazione.
Monitoraggio del funzionamento dei parser. Quando si lavora con molte piattaforme, è fondamentale monitorare lo stato di ciascun parser. Imposta un dashboard dove è visibile: quando è stato eseguito l'ultimo avvio di ciascun parser, quante gare ha raccolto, se ci sono stati errori o blocchi. Strumenti come Octoparse hanno dashboard integrate. Se utilizzi script personalizzati, puoi impostare il logging in Google Sheets o sistemi di monitoraggio specializzati come Grafana.
Esempio di sistema di monitoraggio scalato:
Un'azienda di fornitura di attrezzature IT ha impostato il monitoraggio di 15 piattaforme di gara: EIS, Sberbank-AST, RTS-tender, 8 piattaforme regionali e 4 piattaforme commerciali. Vengono utilizzati 50 proxy residenziali, suddivisi in pool. I parser vengono eseguiti ogni 2 ore e raccolgono in media 600 nuove gare al giorno. Filtri automatici per parole chiave ("computer", "server", "attrezzature di rete") e regione (Mosca, Regione di Mosca, San Pietroburgo) escludono l'85% delle gare non rilevanti. Le restanti 90 gare vengono automaticamente inviate al canale Telegram del reparto vendite. Risultato: il tempo per il monitoraggio delle gare è stato ridotto da 4 ore al giorno a 30 minuti, il numero di domande presentate è aumentato del 40%.
Conclusione
L'automazione del monitoraggio degli appalti pubblici e commerciali tramite proxy consente di ricevere informazioni su nuovi acquisti in tempo reale, risparmiando fino a 4 ore al giorno nella ricerca manuale e aumentando il numero di domande presentate del 30-50%. I fattori chiave per il successo: scelta corretta del tipo di proxy a seconda della piattaforma, configurazione corretta della rotazione degli IP e dei ritardi tra le richieste, utilizzo di strumenti con supporto per JavaScript e cookie.
Per monitorare piattaforme protette come EIS, utilizza proxy residenziali o mobili con indirizzi IP russi: garantiscono il massimo livello di fiducia e il minimo rischio di blocchi. Per piattaforme commerciali con protezione di base, sono adatti proxy dei data center più accessibili. Inizia con l'automazione di 2-3 piattaforme chiave, perfeziona le impostazioni e poi scala il sistema a tutto il mercato degli appalti nel tuo settore.
Se intendi impostare un monitoraggio 24 ore su 24 delle piattaforme di gara, ti consigliamo di utilizzare proxy residenziali: garantiscono un funzionamento stabile dei parser senza blocchi anche con alta intensità di richieste verso piattaforme pubbliche protette.