EIS (Zakupki.gov.ru), Sberbank-AST, RTS-tender पर निविदाओं की मैनुअल निगरानी रोजाना 3-5 घंटे लेती है। पार्सर्स के माध्यम से स्वचालन समस्या का समाधान करता है, लेकिन सरकारी प्लेटफार्म सक्रिय रूप से स्वचालित अनुरोधों को ब्लॉक करते हैं - IP 50-100 अनुरोधों के बाद बैन में चला जाता है। प्रॉक्सी सीमाओं को बायपास करने और नए निविदाओं के बारे में डेटा इकट्ठा करने की अनुमति देती हैं, बिना कंपनी के मुख्य IP के ब्लॉक होने के जोखिम के।
इस मार्गदर्शिका में हम देखेंगे: विभिन्न निविदा प्लेटफार्मों के लिए कौन सी प्रॉक्सी उपयुक्त हैं, बिना ब्लॉक के स्वचालित पार्सिंग कैसे सेट करें, कौन से तैयार उपकरणों का उपयोग करें और उन सामान्य गलतियों से कैसे बचें जो बैन का कारण बनती हैं।
क्यों निविदा प्लेटफार्म स्वचालित अनुरोधों को ब्लॉक करते हैं
सरकारी और वाणिज्यिक निविदा प्लेटफार्म स्वचालित डेटा संग्रह के खिलाफ बहु-स्तरीय सुरक्षा का उपयोग करते हैं। इसके कई कारण हैं: पार्सर्स द्वारा सर्वरों पर लोड कुल ट्रैफ़िक का 60-70% तक पहुँच सकता है, प्रतिस्पर्धी इकट्ठा किए गए डेटा का उपयोग डंपिंग के लिए करते हैं, और खरीद में भाग लेने वालों के व्यक्तिगत डेटा की सुरक्षा के लिए आवश्यकताएँ भी हैं।
एकीकृत सूचना प्रणाली (EIS) - सबसे सुरक्षित प्लेटफार्म है। प्रणाली प्रत्येक अनुरोध के निम्नलिखित मापदंडों को रिकॉर्ड करती है: IP पता, ब्राउज़र का User-Agent, अनुरोधों की आवृत्ति, साइट पर क्रियाओं का क्रम। यदि एक IP से प्रति घंटे 100 से अधिक अनुरोध आते हैं या अनुरोध बहुत समान रूप से आते हैं (जैसे, हर 5 सेकंड में), तो IP को 24-72 घंटे के लिए ब्लॉक किया जाता है। ब्लॉकिंग पूरे सबनेट रेंज पर लागू होती है, इसलिए पूरी कंपनी प्रभावित हो सकती है।
वाणिज्यिक प्लेटफार्म (Sberbank-AST, RTS-tender, Fabrykant) अधिक नरम सुरक्षा का उपयोग करते हैं, लेकिन संदिग्ध गतिविधियों की निगरानी भी करते हैं। ब्लॉकिंग के मुख्य ट्रिगर्स: कुकीज़ की अनुपस्थिति, बंद JavaScript, पृष्ठों पर बहुत तेज़ नेविगेशन (प्रति पृष्ठ 2 सेकंड से कम), अनुरोधों के बीच समान समय अंतराल।
वास्तविक केस: एक उपकरण आपूर्ति कंपनी ने बिना प्रॉक्सी के EIS पर निविदाओं की निगरानी के लिए पार्सर सेट किया। पहले 2 घंटे में पार्सर ने 340 निविदाओं के बारे में डेटा इकट्ठा किया, लेकिन फिर कार्यालय का IP ब्लॉक में चला गया। कर्मचारियों को 48 घंटों के लिए EIS के व्यक्तिगत खाते तक पहुंच प्राप्त नहीं हो सकी। कंपनी ने कुल 12 मिलियन रूबल की 3 महत्वपूर्ण निविदाएँ चूक गई।
निविदाओं की निगरानी के लिए कौन सा प्रॉक्सी प्रकार चुनें
निविदा प्लेटफार्मों की निगरानी के लिए तीन प्रकार की प्रॉक्सी उपयुक्त हैं, प्रत्येक के अपने उपयोग के विशेषताएँ हैं। चयन पार्सिंग की मात्रा, बजट और विश्वसनीयता की आवश्यकताओं पर निर्भर करता है।
| प्रॉक्सी का प्रकार | EIS के लिए विश्वसनीयता | गति | उपयोग |
|---|---|---|---|
| डेटा सेंटर प्रॉक्सी | मध्यम (अधिक बार ब्लॉक होते हैं) | बहुत उच्च (50-100 मि.सेकंड) | वाणिज्यिक प्लेटफार्म, परीक्षण |
| रिहायशी प्रॉक्सी | उच्च (वास्तविक IP) | मध्यम (200-500 मि.सेकंड) | EIS, Sberbank-AST, 24/7 पार्सिंग |
| मोबाइल प्रॉक्सी | अधिकतम (ऑपरेटरों के IP) | मध्यम (300-600 मि.सेकंड) | EIS उच्च विश्वसनीयता की आवश्यकताओं के साथ |
रिहायशी प्रॉक्सी अधिकांश निविदा निगरानी कार्यों के लिए सर्वोत्तम विकल्प हैं। वे वास्तविक घरेलू उपयोगकर्ताओं के IP पतों का उपयोग करते हैं, इसलिए प्लेटफार्म अनुरोधों को सामान्य लोगों के कार्यों के रूप में मानते हैं। EIS के लिए, हर 10-15 मिनट में रोटेशन के साथ रूसी रिहायशी प्रॉक्सी का उपयोग करने की सिफारिश की जाती है। यह 500-1000 निविदाओं के बारे में डेटा बिना किसी ब्लॉक के दैनिक रूप से इकट्ठा करने की अनुमति देता है।
डेटा सेंटर प्रॉक्सी कम सुरक्षित वाणिज्यिक प्लेटफार्मों के लिए उपयुक्त हैं: RTS-tender, Fabrykant, B2B-Center। ये रिहायशी प्रॉक्सी की तुलना में 3-5 गुना सस्ते हैं और तेजी से काम करते हैं, लेकिन EIS अक्सर ऐसे IP को पहचानता और ब्लॉक करता है। इनका उपयोग पार्सर के प्रारंभिक परीक्षण या छोटे क्षेत्रीय प्लेटफार्मों की निगरानी के लिए करें।
मोबाइल प्रॉक्सी अधिकतम स्तर की विश्वसनीयता रखते हैं, क्योंकि वे मोबाइल ऑपरेटरों के IP का उपयोग करते हैं (MTS, Beeline, Megafon)। प्लेटफार्म ऐसे पते को लगभग कभी ब्लॉक नहीं करते हैं, क्योंकि एक ऑपरेटर के IP के पीछे हजारों वास्तविक उपयोगकर्ता हो सकते हैं। नकारात्मक पक्ष - अधिक लागत। मोबाइल प्रॉक्सी का उपयोग करें यदि आप विशेष रूप से मूल्यवान निविदाओं के साथ काम कर रहे हैं या यदि आपने रिहायशी प्रॉक्सी का उपयोग करते समय पहले ही ब्लॉक प्राप्त किया है।
विभिन्न प्लेटफार्मों की सुरक्षा की विशेषताएँ: EIS, Sberbank-AST, RTS-tender
प्रत्येक निविदा प्लेटफार्म की पार्सिंग के खिलाफ अपनी सुरक्षा की विशेषताएँ होती हैं। इन तंत्रों को समझना पार्सर को इस तरह से सेट करने की अनुमति देता है कि ब्लॉकिंग का जोखिम न्यूनतम हो।
EIS (Zakupki.gov.ru) — अधिकतम सुरक्षा
एकीकृत सूचना प्रणाली सभी प्लेटफार्मों में सबसे कड़ी सुरक्षा का उपयोग करती है। मुख्य तंत्र: एक IP से प्रति घंटे 100 अनुरोधों की सीमा, कुकीज़ और JavaScript का अनिवार्य समर्थन, रेफरर की जांच (उपयोगकर्ता कहाँ से आया), व्यवहारात्मक कारकों का विश्लेषण (पृष्ठ पर समय, माउस की गति, स्क्रॉलिंग)।
EIS के लिए पार्सिंग के लिए सिफारिशें: रूसी IP के साथ रिहायशी या मोबाइल प्रॉक्सी का उपयोग करें, 80-90 अनुरोधों के बाद प्रॉक्सी का स्वचालित रोटेशन सक्षम करें (सीमा तक न पहुँचने के लिए), अनुरोधों के बीच 3 से 8 सेकंड की यादृच्छिक देरी जोड़ें, साधारण HTTP अनुरोधों के बजाय headless-ब्राउज़र्स (Puppeteer, Selenium) का उपयोग करें - ये वास्तविक ब्राउज़र के व्यवहार को पूरी तरह से अनुकरण करते हैं।
Sberbank-AST — सुरक्षा का मध्यम स्तर
Sberbank प्लेटफार्म अधिक नरम सीमाएँ लागू करता है: प्रति घंटे लगभग 200-300 अनुरोधों की सीमा, कुकीज़ अनिवार्य हैं, लेकिन JavaScript हमेशा जांचा नहीं जाता है, स्पष्ट रूप से रोबोटिक व्यवहार (अनुरोधों के बीच समान अंतराल, रेफरर की अनुपस्थिति) पर ब्लॉकिंग होती है।
Sberbank-AST के लिए रिहायशी प्रॉक्सी के साथ 200 अनुरोधों के बाद रोटेशन पर्याप्त है। आप बिना ब्राउज़र का पूरा अनुकरण किए सरल पार्सिंग उपकरणों का उपयोग कर सकते हैं, लेकिन 2-5 सेकंड की यादृच्छिक देरी और सही User-Agent हेडर जोड़ना अनिवार्य है।
RTS-tender, Fabrykant, B2B-Center — बुनियादी सुरक्षा
वाणिज्यिक प्लेटफार्मों में न्यूनतम सुरक्षा होती है: प्रति घंटे 500+ अनुरोधों की सीमाएँ, मुख्य जांच - कुकीज़ और उचित User-Agent की उपस्थिति, डेटा सेंटर प्रॉक्सी को शायद ही कभी ब्लॉक किया जाता है।
इन प्लेटफार्मों के लिए बुनियादी रोटेशन के साथ डेटा सेंटर प्रॉक्सी भी उपयुक्त हैं। आप बिना ब्राउज़र का अनुकरण किए साधारण HTTP-पार्सर्स का उपयोग कर सकते हैं। मुख्य बात यह है कि अनुरोधों को बहुत तेज़ी से न भेजें (अनुरोधों के बीच न्यूनतम 1-2 सेकंड) और समय-समय पर IP बदलें।
बिना प्रोग्रामिंग के निविदाओं के लिए तैयार उपकरण
निविदाओं की निगरानी के लिए कोड लिखना आवश्यक नहीं है। ऐसे तैयार समाधान हैं जिनमें ग्राफिकल इंटरफेस होता है, जो प्रॉक्सी के माध्यम से काम करने का समर्थन करते हैं।
Octoparse — प्रॉक्सी और कार्य अनुसूचक के समर्थन के साथ एक दृश्य पार्सर। यह ग्राफिकल इंटरफेस के माध्यम से किसी भी निविदा प्लेटफार्म के लिए पार्सर बनाने की अनुमति देता है: आप बस उन पृष्ठ तत्वों पर क्लिक करते हैं जिन्हें इकट्ठा करना है (निविदा संख्या, ग्राहक, राशि, आवेदन की समाप्ति की तारीख), और प्रोग्राम स्वचालित रूप से पार्सिंग का एल्गोरिदम बनाता है। सेटिंग्स में आप प्रॉक्सी की सूची निर्दिष्ट कर सकते हैं, और Octoparse उन्हें स्वचालित रूप से रोटेट करेगा। लागत - $75/महीने से, सीमाओं के साथ एक निःशुल्क संस्करण उपलब्ध है।
ParseHub — Octoparse का एक समान उपकरण जिसमें अधिक सरल इंटरफेस है। यह शुरुआती लोगों के लिए अच्छा है। यह JavaScript-साइटों का समर्थन करता है (EIS के लिए महत्वपूर्ण), प्रॉक्सी के माध्यम से काम करता है, डेटा को Excel/Google Sheets में निर्यात करता है। निःशुल्क संस्करण 5 पार्सिंग प्रोजेक्ट बनाने की अनुमति देता है। भुगतान संस्करण - $149/महीने से, जिसमें अनुसूची के अनुसार पार्सिंग चलाने की क्षमता है (उदाहरण के लिए, हर 2 घंटे में नए निविदाओं की जांच करना)।
Screaming Frog SEO Spider — मूल रूप से SEO के लिए एक उपकरण, लेकिन संरचित डेटा पार्सिंग के लिए उत्कृष्ट है। यह प्रॉक्सी का समर्थन करता है, और CSS चयनकर्ताओं के अनुसार पृष्ठों से डेटा इकट्ठा कर सकता है। नकारात्मक पक्ष - पृष्ठों की HTML संरचना में थोड़ी समझ होनी चाहिए। लागत - £149/वर्ष (लगभग 15,000 रूबल), जो समकक्षों की तुलना में सस्ती है।
विशेषीकृत निविदा निगरानी सेवाएँ — Контур.Закупки, Тендер.Про, B2B-Center पहले से ही फ़िल्टर और सूचनाओं के साथ अंतर्निहित निगरानी प्रणालियाँ हैं। उन्हें प्रॉक्सी सेटअप की आवश्यकता नहीं होती है, क्योंकि वे सेवा के नाम पर काम करते हैं। लागत - 5,000 से 30,000 रूबल प्रति माह, ट्रैक की जाने वाली श्रेणियों की संख्या के आधार पर। नकारात्मक पक्ष - आप सेवा की क्षमताओं पर निर्भर होते हैं और अतिरिक्त डेटा इकट्ठा करने या उन्हें अपनी CRM में एकीकृत करने में असमर्थ होते हैं।
उपकरण चुनने की सिफारिश:
- तकनीकी कौशल के बिना शुरुआती लोगों के लिए — ParseHub या Octoparse
- CRM में एकीकरण के साथ 3-5 प्लेटफार्मों के लिए पार्सिंग — Screaming Frog + निर्यात सेटअप
- केवल EIS की निगरानी के लिए बिना अतिरिक्त डेटा के — विशेषीकृत सेवाएँ
- जटिल कार्यों के लिए (निविदाओं की दस्तावेज़ीकरण का विश्लेषण, संलग्न फ़ाइलों का पार्सिंग) — Selenium के साथ Python में विकास
20 मिनट में प्रॉक्सी के माध्यम से निगरानी सेटअप करने के लिए चरण-दर-चरण मार्गदर्शिका
Octoparse के उदाहरण के माध्यम से निविदाओं की स्वचालित निगरानी सेटअप पर विचार करें - ग्राफिकल इंटरफेस के साथ सबसे लोकप्रिय उपकरणों में से एक। यह उदाहरण EIS, Sberbank-AST और अन्य प्लेटफार्मों की निगरानी के लिए उपयुक्त है।
चरण 1: प्रॉक्सी प्राप्त करना। प्रॉक्सी प्रदाता के साथ पंजीकरण करें और IP पतों की सूची प्राप्त करें जिसमें पोर्ट और प्रमाणीकरण डेटा शामिल हैं। EIS की निगरानी के लिए कम से कम 10 रिहायशी रूसी प्रॉक्सी का उपयोग करने की सिफारिश की जाती है जिनमें स्वचालित रोटेशन हो। प्रदाता डेटा को इस प्रारूप में प्रदान करेगा: IP:PORT:USERNAME:PASSWORD (उदाहरण के लिए, 185.123.45.67:8000:user123:pass456)।
चरण 2: Octoparse स्थापित करना और सेट करना। आधिकारिक वेबसाइट से Octoparse डाउनलोड करें और अपने कंप्यूटर पर स्थापित करें। प्रारंभ करने के बाद, निविदाओं की खोज परिणामों के पृष्ठ का URL दर्ज करके एक नया पार्सिंग प्रोजेक्ट बनाएं (उदाहरण के लिए, अपने क्षेत्र में "उपकरण" की खोज)।
चरण 3: Octoparse में प्रॉक्सी सेट करना। Settings → Proxy Settings खोलें। "Use custom proxy" मोड चुनें। IP, पोर्ट, प्रकार (HTTP या SOCKS5), लॉगिन और पासवर्ड निर्दिष्ट करके अपनी प्रॉक्सी को सूची में जोड़ें। "Rotate proxy for each request" विकल्प को सक्षम करें - इससे प्रोग्राम हर अनुरोध के बाद प्रॉक्सी बदल देगा, लोड को वितरित करेगा और ब्लॉकिंग से बच जाएगा।
चरण 4: पार्सिंग एल्गोरिदम बनाना। दृश्य निर्माता मोड में उन पृष्ठ तत्वों पर क्लिक करें जिन्हें इकट्ठा करना है: खरीद संख्या, नाम, ग्राहक, प्रारंभिक मूल्य, आवेदन की समाप्ति की तारीख, क्षेत्र। Octoparse स्वचालित रूप से डेटा संरचना को पहचान लेगा और संग्रह का एल्गोरिदम बनाएगा। पहले 5-10 रिकॉर्ड पर परिणाम की जांच करें - प्रोग्राम पार्सिंग का पूर्वानुमानित परिणाम दिखाएगा।
चरण 5: पेजिनेशन सेट करना। निविदा प्लेटफार्म परिणामों को पृष्ठ दर पृष्ठ प्रदर्शित करते हैं (आम तौर पर प्रति पृष्ठ 10-50 निविदाएँ)। Octoparse में "Click pagination button" क्रिया जोड़ें और "अगला पृष्ठ" बटन निर्दिष्ट करें। प्रोग्राम स्वचालित रूप से पृष्ठों पर जाएगा और सभी परिणाम इकट्ठा करेगा।
चरण 6: देरी जोड़ना। पार्सर की सेटिंग्स में अनुरोधों के बीच यादृच्छिक देरी सेट करें: न्यूनतम 3 सेकंड, अधिकतम 8 सेकंड। यह वास्तविक उपयोगकर्ता के व्यवहार की नकल करता है और ब्लॉकिंग के जोखिम को कम करता है। प्रत्येक पृष्ठ को लोड करने के बाद 5-10 सेकंड की देरी भी जोड़ें - इससे JavaScript तत्वों को पूरी तरह से लोड होने का समय मिलता है।
चरण 7: अनुसूची सेट करना। "Task Schedule" अनुभाग में स्वचालित रूप से पार्सिंग शुरू करने के लिए सेट करें। नए निविदाओं की निगरानी के लिए, कार्य दिवस में हर 2-4 घंटे में जांच करना सबसे अच्छा होता है। उदाहरण: 9:00, 13:00, 17:00, 21:00। यह दिन के दौरान नई प्रकाशनों की निगरानी करने की अनुमति देता है बिना प्लेटफार्म पर अधिक लोड डाले।
चरण 8: डेटा निर्यात करना। इकट्ठा किए गए डेटा को सुविधाजनक प्रारूप में स्वचालित निर्यात के लिए सेट करें: Excel, Google Sheets, MySQL डेटाबेस या API के माध्यम से आपकी CRM प्रणाली में भेजना। Octoparse प्रत्येक पार्सर के चलने के बाद नए डेटा को स्वचालित रूप से भेज सकता है, जिससे नए निविदाओं के बारे में वास्तविक समय में सूचनाएँ प्राप्त होती हैं।
प्रॉक्सी की रोटेशन और अनुरोधों के बीच की देरी सेट करना
प्रॉक्सी की रोटेशन और देरी का सही सेटअप बिना ब्लॉक के सफल पार्सिंग का एक प्रमुख कारक है। उच्च गुणवत्ता वाली प्रॉक्सी के साथ भी, गलत कॉन्फ़िगरेशन बैन का कारण बन सकता है।
प्रॉक्सी रोटेशन की रणनीतियाँ: पार्सिंग के दौरान IP पतों को बदलने के लिए तीन मुख्य दृष्टिकोण हैं।
हर अनुरोध के बाद रोटेशन — सबसे सुरक्षित, लेकिन धीमा तरीका। प्रत्येक प्लेटफार्म के लिए अनुरोध एक नए IP से किया जाता है। यह EIS के लिए बड़े डेटा सेट (1000+ निविदाएँ) के पार्सिंग के लिए उपयुक्त है। नकारात्मक पक्ष — पार्सिंग का समय बढ़ता है, क्योंकि प्रॉक्सी के माध्यम से नए कनेक्शन स्थापित करने में 200-500 मि.सेकंड का समय लगता है।
अनुरोधों की संख्या के अनुसार रोटेशन — गति और सुरक्षा का एक आदर्श संतुलन। एक प्रॉक्सी 50-100 अनुरोधों के लिए उपयोग की जाती है, फिर अगले पर बदल दी जाती है। EIS के लिए, हर 80 अनुरोधों के बाद प्रॉक्सी बदलने की सिफारिश की जाती है (100 की सीमा से थोड़ा नीचे)। वाणिज्यिक प्लेटफार्मों के लिए, एक IP पर 200-300 अनुरोधों तक बढ़ाया जा सकता है।
समय के अनुसार रोटेशन — अनुरोधों की संख्या के बावजूद हर 10-15 मिनट में IP बदलना। यह कम तीव्रता के साथ लंबे समय तक पार्सिंग के लिए उपयुक्त है (उदाहरण के लिए, दिन के दौरान अपडेट की निगरानी करना)। कुछ प्रॉक्सी प्रदाता समय के अनुसार स्वचालित रोटेशन प्रदान करते हैं - आपको एक प्रॉक्सी URL मिलता है, लेकिन IP हर N मिनट में स्वचालित रूप से बदलता है।
अनुरोधों के बीच की देरी सेट करना: एक व्यक्ति पृष्ठों के बीच तुरंत नहीं जा सकता - उसे पढ़ने, स्क्रॉल करने, क्लिक करने का समय चाहिए। पार्सर को इस व्यवहार की नकल करनी चाहिए।
| प्लेटफार्म | अनुरोधों के बीच की देरी | पृष्ठ लोड होने के बाद की देरी |
|---|---|---|
| EIS (Zakupki.gov.ru) | 3-8 सेकंड (यादृच्छिक) | 5-10 सेकंड |
| Sberbank-AST | 2-5 सेकंड (यादृच्छिक) | 3-7 सेकंड |
| RTS-tender, Fabrykant | 1-3 सेकंड (यादृच्छिक) | 2-4 सेकंड |
यह महत्वपूर्ण है कि निर्दिष्ट सीमा में यादृच्छिक देरी का उपयोग किया जाए। यदि पार्सर हर 5 सेकंड में अनुरोध करता है, तो सुरक्षा प्रणाली आसानी से बॉट का पता लगा लेगी। सभी लोकप्रिय पार्सिंग उपकरणों में यादृच्छिक देरी की कार्यक्षमता होती है।
सलाह: पार्सिंग के लिए "रात का मोड" जोड़ें। 23:00 से 7:00 तक आप अनुरोधों की तीव्रता बढ़ा सकते हैं (देरी को कम कर सकते हैं), क्योंकि इस समय प्लेटफार्मों पर वास्तविक उपयोगकर्ताओं की न्यूनतम गतिविधि होती है, और सुरक्षा प्रणाली कम सख्त होती है। यह उसी समय में अधिक डेटा इकट्ठा करने की अनुमति देगा।
सामान्य गलतियाँ जो ब्लॉक का कारण बनती हैं
उच्च गुणवत्ता वाली प्रॉक्सी का उपयोग करने पर भी, तकनीकी सेटअप में गलतियों के कारण पार्सर ब्लॉक हो सकता है। यहाँ सबसे सामान्य समस्याएँ और उनके समाधान दिए गए हैं।
गलती 1: समान User-Agent का उपयोग करना। User-Agent वह स्ट्रिंग है जो साइट को बताती है कि कौन सा ब्राउज़र और ऑपरेटिंग सिस्टम उपयोग किया जा रहा है। यदि सभी अनुरोध समान User-Agent के साथ आते हैं (उदाहरण के लिए, Python लाइब्रेरी requests के लिए मानक), तो यह स्पष्ट रूप से बॉट का संकेत है। समाधान: विभिन्न ब्राउज़रों (Chrome, Firefox, Safari) और ऑपरेटिंग सिस्टम (Windows, macOS, Linux) के लिए 10-20 लोकप्रिय User-Agent की सूची का उपयोग करें, और उन्हें हर अनुरोध पर यादृच्छिक रूप से रोटेट करें।
गलती 2: कुकीज़ बंद हैं। अधिकांश साइटें पहले दौरे पर कुकीज़ स्थापित करती हैं और बाद के अनुरोधों पर उनकी उपस्थिति की जांच करती हैं। यदि पार्सर कुकीज़ को सहेजता नहीं है, तो प्रत्येक अनुरोध नए उपकरण के पहले दौरे के रूप में दिखाई देता है, जो संदिग्ध है। समाधान: पार्सर की सेटिंग्स में कुकीज़ के समर्थन को सक्षम करें। Octoparse और ParseHub में यह स्वचालित रूप से किया जाता है। यदि आप Python में अपना खुद का पार्सर लिख रहे हैं, तो requests.Session() लाइब्रेरी का उपयोग करें - यह अनुरोधों के बीच कुकीज़ को स्वचालित रूप से सहेजती है।
गलती 3: JavaScript को निष्पादित किए बिना पार्सिंग। आधुनिक साइटें, जिसमें EIS भी शामिल है, सामग्री लोड करने के लिए सक्रिय रूप से JavaScript का उपयोग करती हैं। यदि पार्सर केवल पृष्ठ का HTML कोड डाउनलोड करता है बिना JavaScript को निष्पादित किए, तो उसे अधूरी जानकारी मिलेगी, और सर्वर संदिग्ध व्यवहार को रिकॉर्ड करेगा। समाधान: headless-ब्राउज़र्स (Puppeteer, Selenium, Playwright) का उपयोग करें, जो पृष्ठ को पूरी तरह से लोड करते हैं, JavaScript को निष्पादित करते हैं और यहां तक कि गतिशील सामग्री लोड करने के लिए पृष्ठ को स्क्रॉल भी कर सकते हैं।
गलती 4: कैप्चा की अनदेखी। कुछ प्लेटफार्म संदिग्ध गतिविधियों पर कैप्चा दिखाते हैं। यदि पार्सर कैप्चा को हल नहीं कर सकता है, तो वह लटक जाएगा और पुनः अनुरोध भेजने लगेगा, जो IP को ब्लॉक कर देगा। समाधान: कैप्चा को स्वचालित रूप से हल करने वाली सेवाओं (2Captcha, Anti-Captcha) का उपयोग करें - ये 1000 हल किए गए कैप्चा के लिए लगभग $1-3 की लागत होती हैं। अधिकांश पार्सिंग उपकरणों में इन सेवाओं के साथ अंतर्निहित एकीकरण होता है।
गलती 5: पीक लोडिंग घंटों में पार्सिंग। कार्यदिवस में 10:00 से 16:00 के बीच निविदा प्लेटफार्मों पर उपयोगकर्ताओं की अधिकतम गतिविधि होती है, और सुरक्षा प्रणाली सबसे सख्त होती है। इस समय तीव्र पार्सिंग जल्दी से ब्लॉक का कारण बनती है। समाधान: मुख्य पार्सिंग का कार्य शाम के समय (18:00-23:00) या रात में शुरू करें। कार्य घंटों में केवल न्यूनतम तीव्रता के साथ नए निविदाओं की बिंदुवार जांच करें।
गलती 6: "गंदे" प्रॉक्सी का उपयोग। कुछ सस्ते प्रॉक्सी प्रदाता ऐसे IP बेचते हैं जो पहले से ही स्पैम या अन्य संदिग्ध गतिविधियों के लिए उपयोग किए गए हैं और काले सूचियों में हैं। समाधान: बड़े पैमाने पर उपयोग से पहले प्रॉक्सी का परीक्षण करें। प्रत्येक नए प्रॉक्सी से प्लेटफार्म पर 20-30 परीक्षण अनुरोध भेजें और जांचें कि क्या कैप्चा या ब्लॉकिंग उत्पन्न होती है। यदि प्रॉक्सी "गंदा" है, तो इसे प्रदाता से बदलें।
10+ प्लेटफार्मों की एक साथ निगरानी
जब एक या दो प्लेटफार्मों की बुनियादी निगरानी सेट हो जाती है और स्थिर रूप से काम करती है, तो स्केलिंग का कार्य उत्पन्न होता है - बाजार के अधिकतम कवरेज के लिए दर्जनों निविदा प्लेटफार्मों की एक साथ पार्सिंग।
प्लेटफार्मों के बीच प्रॉक्सी का वितरण। विभिन्न प्लेटफार्मों के लिए एक ही प्रॉक्सी का एक साथ उपयोग न करें। प्रॉक्सी के पूल बनाएं: उदाहरण के लिए, EIS के लिए 10 प्रॉक्सी, Sberbank-AST के लिए 5, RTS-tender के लिए 5 आदि। यह इस स्थिति को रोकता है जब एक प्लेटफार्म पर ब्लॉकिंग पार्सर के काम को दूसरे पर प्रभावित करती है।
प्लेटफार्मों को प्राथमिकता देना। सभी निविदा प्लेटफार्म आपके व्यवसाय के लिए समान रूप से महत्वपूर्ण नहीं होते हैं। उन 3-5 प्रमुख प्लेटफार्मों की पहचान करें जहाँ सबसे अधिक प्रासंगिक निविदाएँ प्रकाशित होती हैं, और उन्हें अधिक संसाधन आवंटित करें: सर्वोत्तम प्रॉक्सी, अधिक बार जांचें, अधिक विस्तृत पार्सिंग (दस्तावेज़ीकरण का संग्रह भी शामिल है)। अन्य प्लेटफार्मों के लिए केवल निविदाओं के मुख्य पैरामीटर की बुनियादी निगरानी का उपयोग करें।
डेटा प्रोसेसिंग का स्वचालन। 10+ प्लेटफार्मों की पार्सिंग करते समय, आप दैनिक आधार पर सैकड़ों नए निविदाएँ प्राप्त करेंगे। मैन्युअल प्रोसेसिंग असंभव है। स्वचालित फ़िल्टरिंग सेट करें: निविदा के नाम में कीवर्ड के अनुसार, ग्राहक के क्षेत्र के अनुसार, प्रारंभिक मूल्य की सीमा के अनुसार, आवेदन की समाप्ति की तारीख के अनुसार। केवल वे निविदाएँ जो सभी फ़िल्टर पास करती हैं, मैन्युअल जांच के लिए सूची में आती हैं।
CRM और सूचना प्रणाली के साथ एकीकरण। अपनी CRM प्रणाली या कॉर्पोरेट मैसेंजर (Slack, Telegram, Microsoft Teams) में फ़िल्टर की गई निविदाओं को स्वचालित रूप से भेजने के लिए सेट करें। प्रबंधक वास्तविक समय में नए उपयुक्त निविदाओं के बारे में सूचनाएँ प्राप्त करेंगे और भागीदारी के निर्णय को जल्दी से ले सकेंगे।
पार्सर्स के काम की निगरानी। कई प्लेटफार्मों के साथ काम करते समय, प्रत्येक पार्सर की स्थिति को ट्रैक करना महत्वपूर्ण है। एक डैशबोर्ड सेट करें, जहाँ यह दिखाई दे: प्रत्येक पार्सर को अंतिम बार कब चलाया गया, कितनी निविदाएँ इकट्ठा की गईं, क्या कोई त्रुटियाँ या ब्लॉकिंग हुईं। Octoparse जैसे उपकरणों में अंतर्निहित डैशबोर्ड होते हैं। यदि आप अपने स्क्रिप्ट का उपयोग कर रहे हैं, तो Google Sheets या Grafana जैसे विशेष निगरानी प्रणालियों में लॉगिंग सेट कर सकते हैं।
स्केल की गई निगरानी प्रणाली का उदाहरण:
एक IT उपकरण आपूर्ति कंपनी ने 15 निविदा प्लेटफार्मों की निगरानी सेट की: EIS, Sberbank-AST, RTS-tender, 8 क्षेत्रीय प्लेटफार्म और 4 वाणिज्यिक प्लेटफार्म। 50 रिहायशी प्रॉक्सी का उपयोग किया जाता है, जो पूलों में विभाजित हैं। पार्सर्स हर 2 घंटे में चलते हैं और औसतन 600 नए निविदाएँ प्रति दिन इकट्ठा करते हैं। कीवर्ड ("कंप्यूटर", "सर्वर", "नेटवर्क उपकरण") और क्षेत्र (मॉस्को, मॉस्को क्षेत्र, सेंट पीटर्सबर्ग) के अनुसार स्वचालित फ़िल्टर 85% अप्रासंगिक निविदाओं को छानते हैं। शेष 90 निविदाएँ स्वचालित रूप से बिक्री विभाग के Telegram चैनल में जाती हैं। परिणाम: निविदाओं की निगरानी में समय 4 घंटे से घटकर 30 मिनट हो गया, और प्रस्तुत निविदाओं की संख्या 40% बढ़ गई।
निष्कर्ष
सरकारी और वाणिज्यिक निविदाओं की प्रॉक्सी के माध्यम से निगरानी का स्वचालन नए खरीद के बारे में वास्तविक समय में जानकारी प्राप्त करने, मैन्युअल खोज पर रोजाना 4 घंटे तक बचाने और प्रस्तुत निविदाओं की संख्या 30-50% तक बढ़ाने की अनुमति देता है। सफलता के प्रमुख कारक: प्लेटफार्म के अनुसार प्रॉक्सी के प्रकार का सही चयन, IP की रोटेशन और अनुरोधों के बीच की देरी का सही सेटअप, JavaScript और कुकीज़ के समर्थन वाले उपकरणों का उपयोग।
सुरक्षित प्लेटफार्मों की निगरानी के लिए जैसे EIS, रूसी IP पतों के साथ रिहायशी या मोबाइल प्रॉक्सी का उपयोग करें - ये अधिकतम स्तर की विश्वसनीयता और न्यूनतम ब्लॉकिंग के जोखिम को सुनिश्चित करते हैं। बुनियादी सुरक्षा वाले वाणिज्यिक प्लेटफार्मों के लिए डेटा सेंटर प्रॉक्सी अधिक सस्ती हैं। 2-3 प्रमुख प्लेटफार्मों के स्वचालन से शुरू करें, सेटिंग्स को ठीक करें, और फिर अपनी उद्योग में निविदाओं के पूरे बाजार पर प्रणाली का स्केल करें।
यदि आप निविदा प्लेटफार्मों की 24/7 निगरानी सेट करने की योजना बना रहे हैं, तो रिहायशी प्रॉक्सी का उपयोग करने की सिफारिश की जाती है - ये सुरक्षित सरकारी प्लेटफार्मों पर उच्च अनुरोध की तीव्रता के साथ भी बिना ब्लॉक के पार्सर्स के स्थिर काम को सुनिश्चित करते हैं।