स्वचालित स्टॉक उपलब्धता (stock availability) मॉनिटरिंग विक्रेताओं और रिटेलर्स के लिए एक महत्वपूर्ण कार्य है। Wildberries, Ozon, Amazon पर प्रतिस्पर्धियों के स्टॉक को ट्रैक करना कीमतों और खरीद को तुरंत समायोजित करने में मदद करता है। लेकिन मार्केटप्लेस एक ही IP से बड़े पैमाने पर अनुरोधों को सख्ती से ब्लॉक करते हैं — प्रॉक्सी के बिना आपका पार्सर 10-50 अनुरोधों के बाद ब्लॉक हो जाएगा।
इस गाइड में हम प्रॉक्सी के माध्यम से स्थिर स्टॉक उपलब्धता मॉनिटरिंग कैसे सेटअप करें, इस पर चर्चा करेंगे: किस प्रकार की प्रॉक्सी चुनें, IP रोटेशन कैसे कॉन्फ़िगर करें, कौन से अनुरोध पैरामीटर उपयोग करें और लोकप्रिय मार्केटप्लेस पर ब्लॉकिंग से कैसे बचें।
मार्केटप्लेस प्रोडक्ट उपलब्धता मॉनिटरिंग को क्यों ब्लॉक करते हैं
मार्केटप्लेस अपने इंफ्रास्ट्रक्चर को पार्सिंग से कई स्तरों की सुरक्षा के साथ बचाते हैं। जब आप स्वचालित स्टॉक उपलब्धता मॉनिटरिंग शुरू करते हैं, तो आपकी स्क्रिप्ट मार्केटप्लेस के API या वेब पेजों पर सैकड़ों या हजारों अनुरोध करती है। प्लेटफॉर्म के लिए यह एक हमले या अनुचित डेटा संग्रह की तरह दिखता है।
पार्सर्स का पता लगाने के मुख्य तरीके:
- एक IP से अनुरोधों की आवृत्ति — यदि एक पते से प्रति मिनट 100+ अनुरोध आते हैं, तो यह बॉट का स्पष्ट संकेत है। एक सामान्य उपयोगकर्ता भौतिक रूप से प्रति सेकंड 2-3 प्रोडक्ट कार्ड नहीं खोल सकता।
- कुकीज़ और सत्र इतिहास की अनुपस्थिति — पार्सर अक्सर मुख्य पृष्ठ पर पहले जाए बिना अनुरोध करते हैं, जो स्वचालन को उजागर करता है।
- समान User-Agent — यदि सभी अनुरोध एक ही ब्राउज़र हेडर के साथ आते हैं, तो यह संदिग्ध है।
- व्यवहार पैटर्न — ID द्वारा उत्पादों की क्रमिक गणना, यादृच्छिक विराम की अनुपस्थिति, अनुरोधों की सही नियमितता।
ब्लॉकिंग IP पते के स्तर पर होती है। पहले मार्केटप्लेस कैप्चा दिखा सकता है, फिर अस्थायी रूप से पहुंच सीमित कर सकता है (rate limiting), और व्यवस्थित उल्लंघनों के मामले में — कई घंटों या दिनों के लिए IP को पूरी तरह से ब्लॉक कर सकता है।
वास्तविक केस: Wildberries पर एक विक्रेता ने हर 10 मिनट में जांच के साथ 500 प्रतिस्पर्धी उत्पादों की मॉनिटरिंग सेटअप की। प्रॉक्सी के बिना उसका IP 2 घंटे के काम के बाद ब्लॉक हो गया। हर 5 मिनट में रोटेशन के साथ रेजिडेंशियल प्रॉक्सी पर स्विच करने के बाद, पार्सर बिना किसी ब्लॉकिंग के 6 महीने से स्थिर रूप से काम कर रहा है।
स्टॉक उपलब्धता पार्सिंग के लिए किस प्रकार की प्रॉक्सी चुनें
प्रॉक्सी के प्रकार का चुनाव सीधे मॉनिटरिंग की स्थिरता और ब्लॉकिंग की संभावना को प्रभावित करता है। विभिन्न मार्केटप्लेस विभिन्न प्रकार के IP पतों पर अलग-अलग प्रतिक्रिया करते हैं। आइए तीन मुख्य विकल्पों और स्टॉक उपलब्धता पार्सिंग के लिए उनके अनुप्रयोग पर विचार करें।
| प्रॉक्सी प्रकार | गति | ब्लॉकिंग जोखिम | कब उपयोग करें |
|---|---|---|---|
| डेटासेंटर प्रॉक्सी | उच्च (50-200 ms) | मध्यम | साधारण मार्केटप्लेस की बड़े पैमाने पर पार्सिंग, बड़ी मात्रा की त्वरित जांच |
| रेजिडेंशियल प्रॉक्सी | मध्यम (200-800 ms) | कम | Wildberries, Ozon, Amazon — सख्त सुरक्षा वाले प्लेटफॉर्म |
| मोबाइल प्रॉक्सी | मध्यम (300-1000 ms) | बहुत कम | महत्वपूर्ण जांच, जब अधिकतम विश्वसनीयता की आवश्यकता हो |
रेजिडेंशियल प्रॉक्सी — अधिकांश स्टॉक उपलब्धता मॉनिटरिंग कार्यों के लिए इष्टतम विकल्प। वे वास्तविक घरेलू उपयोगकर्ताओं के IP पते का उपयोग करते हैं, इसलिए मार्केटप्लेस अनुरोधों को वैध मानते हैं। Wildberries और Ozon के लिए यह लगभग अनिवार्य आवश्यकता है — ये प्लेटफॉर्म आक्रामक रूप से डेटासेंटर को ब्लॉक करते हैं।
डेटासेंटर प्रॉक्सी कम सुरक्षित साइटों के लिए या जब अधिकतम पार्सिंग गति की आवश्यकता हो, उपयुक्त हैं। उदाहरण के लिए, क्षेत्रीय मार्केटप्लेस या छोटे ऑनलाइन स्टोर की मॉनिटरिंग के लिए। मुख्य लाभ — उच्च गति और कनेक्शन की स्थिरता। लेकिन बड़े प्लेटफॉर्म पर वे अधिक बार ब्लॉक होते हैं।
मोबाइल प्रॉक्सी — सबसे विश्वसनीय, लेकिन सबसे महंगा विकल्प भी। इनका उपयोग महत्वपूर्ण उत्पादों के लिए करें या जब रेजिडेंशियल प्रॉक्सी ब्लॉक होने लगें। मोबाइल IP को ब्लॉक करना लगभग असंभव है, क्योंकि एक पते के पीछे ऑपरेटर के हजारों वास्तविक उपयोगकर्ता हो सकते हैं।
चयन की सिफारिश:
- Wildberries, Ozon — केवल रेजिडेंशियल या मोबाइल प्रॉक्सी
- Amazon, eBay — रोटेशन के साथ रेजिडेंशियल प्रॉक्सी
- Яндекс.Маркет — मध्यम अनुरोध आवृत्ति के साथ डेटासेंटर का उपयोग किया जा सकता है
- Авито — आवश्यक शहर से बंधे रेजिडेंशियल प्रॉक्सी
- क्षेत्रीय साइटें — डेटासेंटर आमतौर पर सामान्य रूप से काम करते हैं
IP रोटेशन सेटअप: पते कितनी बार बदलें
IP रोटेशन ब्लॉकिंग को रोकने के लिए एक प्रमुख पैरामीटर है। पते बदलने की आवृत्ति का सही सेटअप लोड को इस तरह वितरित करने की अनुमति देता है कि प्रत्येक IP से न्यूनतम संख्या में अनुरोध आएं, सामान्य उपयोगकर्ताओं के व्यवहार का अनुकरण करते हुए।
रोटेशन के लिए दो मुख्य दृष्टिकोण:
1. समय-आधारित रोटेशन (Time-based rotation)
IP पता एक निर्धारित समय अंतराल के बाद बदलता है, अनुरोधों की संख्या की परवाह किए बिना। यह एक सरल और अनुमानित विधि है जो निरंतर आवृत्ति जांच के साथ नियमित मॉनिटरिंग के लिए उपयुक्त है।
- हर 5-10 मिनट — महत्वपूर्ण उत्पादों की बार-बार मॉनिटरिंग के लिए (शीर्ष पोजीशन, उच्च प्रतिस्पर्धा वाले उत्पाद)
- हर 15-30 मिनट — अधिकांश स्टॉक उपलब्धता मॉनिटरिंग कार्यों के लिए मानक मोड
- हर घंटे — बड़े वर्गीकरण की पृष्ठभूमि मॉनिटरिंग के लिए, जब उच्च अपडेट आवृत्ति की आवश्यकता न हो
2. अनुरोध-आधारित रोटेशन (Request-based rotation)
IP निष्पादित अनुरोधों की एक निश्चित संख्या के बाद बदलता है। यह विधि प्रत्येक पते पर लोड पर अधिक सटीक नियंत्रण देती है।
- हर 10-20 अनुरोध — Wildberries और Ozon के लिए (सख्त सुरक्षा)
- हर 50-100 अनुरोध — Amazon, eBay के लिए (मध्यम सुरक्षा)
- हर 200-500 अनुरोध — कम सुरक्षित साइटों के लिए
महत्वपूर्ण: बहुत बार रोटेशन (हर 1-2 मिनट या हर अनुरोध) का उपयोग न करें — यह संदिग्ध लग सकता है। एक सामान्य उपयोगकर्ता हर मिनट IP पता नहीं बदलता। इष्टतम संतुलन — 5-15 मिनट या एक IP पर 20-100 अनुरोध।
संयुक्त दृष्टिकोण (अनुशंसित):
समय द्वारा रोटेशन को मुख्य विधि के रूप में सेट करें, लेकिन अतिरिक्त सुरक्षा के रूप में अनुरोध सीमा जोड़ें। उदाहरण के लिए: IP हर 10 मिनट या 50 अनुरोधों के बाद बदलता है — जो पहले आए। यह गतिविधि के आकस्मिक स्पाइक्स से बचाता है।
| मार्केटप्लेस | अनुशंसित रोटेशन | अधिकतम अनुरोध/IP |
|---|---|---|
| Wildberries | 5-10 मिनट | 15-30 अनुरोध |
| Ozon | 7-12 मिनट | 20-40 अनुरोध |
| Amazon | 10-15 मिनट | 50-100 अनुरोध |
| Яндекс.Маркет | 15-20 मिनट | 100-200 अनुरोध |
| Авито | 10-15 मिनट | 30-60 अनुरोध |
विभिन्न मार्केटप्लेस पर मॉनिटरिंग की विशेषताएं
प्रत्येक मार्केटप्लेस में पार्सिंग से सुरक्षा की अपनी विशेषताएं हैं और स्टॉक उपलब्धता मॉनिटरिंग सेटअप के लिए व्यक्तिगत दृष्टिकोण की आवश्यकता होती है। आइए लोकप्रिय रूसी और अंतर्राष्ट्रीय प्लेटफॉर्म के साथ काम करने की विशिष्टता पर विचार करें।
Wildberries
Wildberries में रूसी मार्केटप्लेस के बीच पार्सिंग से सुरक्षा की सबसे आक्रामक प्रणालियों में से एक है। प्लेटफॉर्म हेडर, कुकीज़, अपील आवृत्ति और व्यवहार पैटर्न के विश्लेषण सहित बहु-स्तरीय अनुरोध सत्यापन का उपयोग करता है।
मुख्य विशेषताएं:
- रेजिडेंशियल प्रॉक्सी का उपयोग अनिवार्य है — डेटासेंटर लगभग तुरंत ब्लॉक हो जाते हैं
- Referer और Accept-Language सहित ब्राउज़र हेडर का पूरा सेट पास करना आवश्यक है
- Wildberries API को कुछ अनुरोधों के लिए विशेष टोकन की आवश्यकता होती है
- बार-बार IP बदलना (हर 5-10 मिनट) महत्वपूर्ण है
- अनुरोधों के बीच यादृच्छिक विलंब जोड़ें: 2-5 सेकंड
Wildberries पर उत्पादों की उपलब्धता की मॉनिटरिंग के लिए सार्वजनिक API या उत्पाद कार्ड की पार्सिंग का उपयोग करें। API अधिक स्थिर है, लेकिन सख्त सीमाएं हैं। HTML पार्सिंग करते समय वास्तविक ब्राउज़र व्यवहार का अनुकरण करना अनिवार्य है: छवियां लोड करें, JavaScript निष्पादित करें, अनुरोधों के बीच कुकीज़ सहेजें।
Ozon
Ozon Wildberries की तुलना में कम आक्रामक सुरक्षा का उपयोग करता है, लेकिन सावधानीपूर्वक दृष्टिकोण की भी आवश्यकता है। प्लेटफॉर्म बॉट्स से सुरक्षा के लिए Cloudflare का सक्रिय रूप से उपयोग करता है, जो जटिलता का एक अतिरिक्त स्तर जोड़ता है।
- रेजिडेंशियल प्रॉक्सी की सिफारिश की जाती है, लेकिन गुणवत्ता वाले डेटासेंटर कम अनुरोध आवृत्ति पर काम कर सकते हैं
- Cloudflare challenge को JavaScript निष्पादन की आवश्यकता होती है — headless-ब्राउज़र या विशेष लाइब्रेरी का उपयोग करें
- हर 10-15 मिनट में IP रोटेशन आमतौर पर पर्याप्त है
- अनुरोधों के बीच विलंब: 3-7 सेकंड
- Cloudflare पास करने के बाद कुकीज़ सहेजना अनिवार्य है
Amazon
Amazon में एक जटिल सुरक्षा प्रणाली है जो अनुरोध मापदंडों के कई पहलुओं का विश्लेषण करती है। प्लेटफॉर्म विशेष रूप से अपील आवृत्ति और IP पतों के भौगोलिक स्थान के प्रति संवेदनशील है।
- लक्ष्य मार्केटप्लेस के समान देश से रेजिडेंशियल प्रॉक्सी का उपयोग करें (amazon.com — USA, amazon.de — जर्मनी)
- Amazon संदिग्ध गतिविधि पर अक्सर कैप्चा दिखाता है — इसे हल करने के लिए सिस्टम तैयार करें
- हर 15-20 मिनट या हर 50-100 अनुरोधों पर IP रोटेशन
- अनुरोधों के बीच विलंब: 5-10 सेकंड (Amazon गति के प्रति बहुत संवेदनशील है)
- लोकप्रिय ब्राउज़रों के वर्तमान User-Agent का उपयोग करना अनिवार्य है
Авито
Авито की एक विशिष्ट विशेषता है — विज्ञापनों का भौगोलिक बंधन। किसी विशिष्ट शहर में उत्पादों की उपलब्धता की सही मॉनिटरिंग के लिए उसी क्षेत्र से प्रॉक्सी की आवश्यकता होती है।
- आवश्यक शहर में जियोलोकेशन के साथ रेजिडेंशियल प्रॉक्सी का उपयोग करें
- Авито विभिन्न क्षेत्रों के लिए अलग-अलग परिणाम दिखाता है — एक IP केवल विज्ञापनों का हिस्सा देख सकता है
- हर 10-15 मिनट में रोटेशन पर्याप्त है
- अनुरोधों के बीच विलंब: 3-5 सेकंड
- प्लेटफॉर्म सत्रों को ट्रैक करने के लिए कुकीज़ का उपयोग करता है — उन्हें सहेजना अनिवार्य है
सभी मार्केटप्लेस के लिए सामान्य सिफारिशें:
- हमेशा यादृच्छिक विलंब जोड़ें — निश्चित अंतराल का उपयोग न करें
- वास्तविक उपयोगकर्ता व्यवहार का अनुकरण करें: मुख्य पृष्ठ से संक्रमण, श्रेणियां देखना
- IP पतों के साथ User-Agent को घुमाएं
- अनुरोधों के बीच कुकीज़ और सत्र संग्रहण सहेजें
- प्रतिक्रिया कोड की निगरानी करें: 429 (Too Many Requests) — आवृत्ति कम करने का संकेत
अनुरोध सीमाएं और जांच के बीच विलंब
अनुरोध आवृत्ति का सही सेटअप डेटा की प्रासंगिकता और ब्लॉकिंग के जोखिम के बीच संतुलन है। बहुत बार-बार जांच प्रतिबंध की ओर ले जाएगी, बहुत दुर्लभ — प्रतिस्पर्धी लाभ के नुकसान की ओर। आइए विभिन्न परिदृश्यों के लिए इष्टतम आवृत्ति कैसे खोजें, इस पर चर्चा करें।
एक उत्पाद के लिए अनुरोधों के बीच अनुशंसित विलंब:
| परिदृश्य | जांच आवृत्ति | अनुप्रयोग |
|---|---|---|
| महत्वपूर्ण उत्पाद | हर 5-10 मिनट | शीर्ष पोजीशन, उच्च प्रतिस्पर्धा वाले उत्पाद, प्रचार ऑफ़र |
| मानक मॉनिटरिंग | हर 30-60 मिनट | मुख्य वर्गीकरण, प्रतिस्पर्धियों की नियमित मॉनिटरिंग |
| पृष्ठभूमि मॉनिटरिंग | हर 2-6 घंटे | उत्पादों की बड़ी सूची, बाजार का सामान्य विश्लेषण |
| संग्रहीत मॉनिटरिंग | दिन में 1-2 बार | ऐतिहासिक डेटा, दीर्घकालिक विश्लेषण |
क्रमिक अनुरोधों के बीच विलंब (कई उत्पादों को एक के बाद एक पार्स करते समय):
- न्यूनतम विलंब: 2-3 सेकंड — मानव व्यवहार के अनुकरण के लिए पूर्ण न्यूनतम। एक वास्तविक उपयोगकर्ता इससे तेज़ उत्पाद कार्ड नहीं खोल सकता।
- इष्टतम विलंब: 4-7 सेकंड — अधिकांश कार्यों के लिए अनुशंसित। यादृच्छिकता जोड़ें: random(4000, 7000) मिलीसेकंड।
- सुरक्षित विलंब: 8-15 सेकंड — विशेष रूप से सुरक्षित प्लेटफॉर्म के लिए या सीमा पार करने की चेतावनी प्राप्त करने के बाद उपयोग करें।
महत्वपूर्ण सिद्धांत — यादृच्छिकता: कभी भी निश्चित अंतराल का उपयोग न करें। ठीक 5 सेकंड के विलंब के बजाय 4 से 6 सेकंड तक यादृच्छिक बनाएं। यह मानव व्यवहार के अनुकरण के लिए महत्वपूर्ण है। वास्तविक उपयोगकर्ता सही नियमितता के साथ क्लिक नहीं करते।
व्यावहारिक सलाह: रूढ़िवादी सेटिंग्स (बड़े विलंब, दुर्लभ रोटेशन) से शुरू करें, फिर धीरे-धीरे अनुरोध आवृत्ति बढ़ाएं, प्रतिक्रिया कोड को ट्रैक करते हुए। यदि आप 429 (Too Many Requests) या 403 (Forbidden) प्राप्त करना शुरू करते हैं — तुरंत लोड कम करें और विलंब बढ़ाएं।
दिन के समय के अनुसार लोड वितरण:
मार्केटप्लेस में पीक लोड घंटे होते हैं (आमतौर पर शाम 18:00-22:00), जब सुरक्षा प्रणालियां विशेष रूप से संवेदनशील होती हैं। इन अवधियों में अनुरोध आवृत्ति कम करने या मॉनिटरिंग में पूरी तरह से विराम लेने की सिफारिश की जाती है, यदि डेटा महत्वपूर्ण नहीं है।
प्रॉक्सी के माध्यम से मॉनिटरिंग के लिए तैयार टूल्स
स्टॉक उपलब्धता मॉनिटरिंग के लिए शुरू से पार्सर लिखना आवश्यक नहीं है। कई तैयार समाधान हैं जो प्रॉक्सी के माध्यम से काम का समर्थन करते हैं और ब्लॉकिंग से सुरक्षा के लिए अंतर्निहित तंत्र हैं। आइए तकनीकी तैयारी के विभिन्न स्तरों के लिए लोकप्रिय टूल्स पर विचार करें।
तैयार SaaS-सेवाएं (प्रोग्रामिंग के बिना)
1. Keepa (Amazon के लिए)
Amazon मॉनिटरिंग के लिए विशेष सेवा। कीमतों, उत्पाद उपलब्धता, रेटिंग को ट्रैक करती है। अंतर्निहित प्रॉक्सी सिस्टम है, तकनीकी ज्ञान की आवश्यकता नहीं है। नुकसान — केवल Amazon के साथ काम करता है।
2. Parsehub
विज़ुअल पार्सर जो ग्राफिकल इंटरफ़ेस के माध्यम से डेटा संग्रह सेटअप करने की अनुमति देता है। प्रॉक्सी सेटअप, IP रोटेशन, अनुरोधों के बीच विलंब का समर्थन करता है। प्रोग्रामिंग कौशल के बिना उपयोगकर्ताओं के लिए उपयुक्त।
3. Octoparse
अधिक उन्नत स्वचालन क्षमताओं के साथ Parsehub का एनालॉग। Amazon, eBay सहित लोकप्रिय मार्केटप्लेस के लिए अंतर्निहित टेम्पलेट हैं। क्लाउड कार्य निष्पादन और स्वचालित प्रॉक्सी रोटेशन का समर्थन करता है।
सॉफ्टवेयर समाधान (सेटअप की आवश्यकता है)
1. Scrapy (Python)
Python पर पार्सिंग के लिए शक्तिशाली फ्रेमवर्क। अंतर्निहित प्रॉक्सी समर्थन, रोटेशन के लिए मिडलवेयर, त्रुटि प्रबंधन है। प्रोग्रामिंग कौशल की आवश्यकता है, लेकिन सेटअप में अधिकतम लचीलापन देता है।
Scrapy में प्रॉक्सी सेटअप का उदाहरण settings.py फ़ाइल में है — रोटेशन के लिए मिडलवेयर और प्रॉक्सी सर्वर की सूची जोड़ें। फ्रेमवर्क स्वचालित रूप से उपलब्ध IP के बीच अनुरोधों को वितरित करता है।
2. Puppeteer / Playwright (JavaScript)
Chrome/Firefox के स्वचालन के लिए Headless-ब्राउज़र। JavaScript और जटिल सुरक्षा वाली साइटों की पार्सिंग के लिए आदर्श। ब्राउज़र स्तर पर प्रॉक्सी सेटअप, वास्तविक उपयोगकर्ता व्यवहार के अनुकरण का समर्थन करते हैं।
3. Selenium
ब्राउज़र स्वचालन का क्लासिक टूल। Puppeteer की तुलना में धीमा काम करता है, लेकिन अधिक तैयार समाधान और उदाहरण हैं। शुरुआती डेवलपर्स के लिए अच्छी तरह से अनुकूल।
मार्केटप्लेस के लिए विशेष समाधान
1. МойСклад (Wildberries, Ozon के साथ एकीकरण)
रूसी मार्केटप्लेस के साथ अंतर्निहित एकीकरण के साथ लेखा प्रणाली। स्वचालित रूप से शेष राशि को सिंक्रनाइज़ करती है, लेकिन केवल आधिकारिक API के माध्यम से काम करती है — प्रतिस्पर्धियों की मॉनिटरिंग के लिए उपयुक्त नहीं।
2. Mpstats
Wildberries और Ozon के लिए विश्लेषणात्मक सेवा। उत्पादों, कीमतों, उपलब्धता के बारे में डेटा एकत्र करती है। अपना प्रॉक्सी इंफ्रास्ट्रक्चर है, अतिरिक्त सेटअप की आवश्यकता नहीं है। भुगतान, लेकिन स्थिर।
3. SellerFox
रूसी मार्केटप्लेस पर विक्रेताओं के लिए व्यापक समाधान। प्रतिस्पर्धी मॉनिटरिंग, विश्लेषण, मूल्य स्वचालन शामिल है। अपने प्रॉक्सी के माध्यम से काम करता है।
टूल कैसे चुनें:
- प्रोग्रामिंग कौशल नहीं — SaaS-सेवाओं (Parsehub, Octoparse) या विशेष समाधान (Mpstats) का उपयोग करें
- बुनियादी कोडिंग कौशल हैं — Scrapy या Puppeteer अधिक नियंत्रण और कम लागत देंगे
- अधिकतम लचीलापन चाहिए — Python या Node.js पर अपना समाधान लिखें
- केवल एक मार्केटप्लेस — विशेष टूल खोजें (Amazon के लिए Keepa, Wildberries के लिए Mpstats)
पार्सर के लिए प्रॉक्सी का चरण-दर-चरण सेटअप
आइए एक विशिष्ट परिदृश्य के उदाहरण पर स्टॉक उपलब्धता मॉनिटरिंग के लिए प्रॉक्सी के व्यावहारिक सेटअप पर चर्चा करें: हर 30 मिनट में जांच के साथ Wildberries पर 100 उत्पादों की मॉनिटरिंग। निर्देश अधिकांश तैयार पार्सर और कस्टम समाधानों के लिए उपयुक्त होगा।
चरण 1: प्रॉक्सी का चयन और खरीद
Wildberries के लिए रेजिडेंशियल प्रॉक्सी की आवश्यकता है। आवश्यक मात्रा की गणना करें:
- 100 उत्पाद × प्रति घंटे 2 जांच = 200 अनुरोध/घंटा
- Wildberries के लिए सुरक्षित सीमा: प्रति IP 20 अनुरोध
- आवश्यक: 200 ÷ 20 = न्यूनतम 10 IP पते
रिजर्व के साथ लेने की सिफारिश की जाती है: स्थिर काम के लिए 15-20 IP। प्रॉक्सी खरीदते समय सुनिश्चित करें कि प्रदाता समय या अनुरोध द्वारा रोटेशन का समर्थन करता है।
चरण 2: कनेक्शन के लिए डेटा प्राप्त करना
खरीद के बाद आपको इस प्रारूप में डेटा प्राप्त होगा:
होस्ट: proxy.example.com
पोर्ट: 8080
लॉगिन: user123
पासवर्ड: pass456
प्रकार: HTTP/HTTPS या SOCKS5
कुछ प्रदाता स्वचालित रोटेशन के लिए URL प्रदान करते हैं:
http://user123:[email protected]:8080
इस URL का उपयोग अधिकांश पार्सर में सीधे किया जा सकता है — प्रॉक्सी सर्वर स्वयं सेटिंग्स के अनुसार IP बदलेगा।
चरण 3: तैयार टूल में सेटअप (Octoparse)
1. पार्सिंग कार्य की सेटिंग्स खोलें
Octoparse में "Advanced Options" → "Proxy Settings" अनुभाग पर जाएं
2. प्रॉक्सी डेटा दर्ज करें:
- Proxy Type: HTTP या SOCKS5 चुनें (आपकी प्रॉक्सी के आधार पर)
- Server: proxy.example.com
- Port: 8080
- Username: user123
- Password: pass456
3. रोटेशन कॉन्फ़िगर करें:
यदि आपका प्रदाता स्वचालित रोटेशन का समर्थन करता है — बस "Use rotating proxy" विकल्प सक्षम करें। यदि नहीं — मैन्युअल रूप से IP की सूची जोड़ें और 10 मिनट के अंतराल के साथ "Rotate IP addresses" सक्षम करें।
4. विलंब कॉन्फ़िगर करें:
"Speed Settings" अनुभाग में अनुरोधों के बीच विलंब सेट करें: 4-7 सेकंड (Random delay between 4000 and 7000 ms)।
चरण 4: सेटिंग्स का परीक्षण
पूर्ण मॉनिटरिंग शुरू करने से पहले सेटिंग्स का परीक्षण अवश्य करें:
- प्रॉक्सी से कनेक्शन की जांच करें — अधिकांश टूल में "Test connection" बटन होता है
- 5-10 उत्पादों की पार्सिंग शुरू करें — सुनिश्चित करें कि डेटा सही ढंग से एकत्र किया जा रहा है
- त्रुटियों के लिए लॉग की जांच करें — कोड 403, 429, 503 प्रॉक्सी या बहुत अधिक आवृत्ति के साथ समस्याओं के बारे में बताते हैं
- सुनिश्चित करें कि IP बदल रहा है — लॉग में रोटेशन सेटिंग्स के अनुसार विभिन्न पते दिखाई देने चाहिए
महत्वपूर्ण: काम के पहले कुछ घंटों में पार्सर लॉग की सावधानीपूर्वक निगरानी करें। यदि आप बार-बार त्रुटियां या ब्लॉकिंग देखते हैं — अनुरोधों के बीच विलंब और IP रोटेशन आवृत्ति बढ़ाएं। धीरे-धीरे लेकिन स्थिर रूप से डेटा प्राप्त करना बेहतर है, बजाय जल्दी प्रतिबंध पाने के।
चरण 5: मॉनिटरिंग और अनुकूलन
लॉन्च के बाद नियमित रूप से जांचें:
- Success rate — सफल अनुरोधों का प्रतिशत 95% से अधिक होना चाहिए
- प्रतिक्रिया कोड — यदि 429 या 503 5% से अधिक बार दिखाई देते हैं — लोड कम करें
- प्रॉक्सी की गति — यदि विलंब 2-3 सेकंड से अधिक है, तो शायद प्रदाता बदलना उचित है
- डेटा की प्रासंगिकता — प्राप्त डेटा की तुलना मार्केटप्लेस साइट पर वास्तविक से करें
धीरे-धीरे सेटिंग्स को अनुकूलित करें: यदि सब कुछ एक सप्ताह तक स्थिर रूप से काम करता है, तो आप जांच की आवृत्ति थोड़ी बढ़ा सकते हैं या विलंब कम कर सकते हैं। लेकिन इसे धीरे-धीरे, चरण-दर-चरण करें।
सामान्य गलतियाँ और उनसे कैसे बचें
प्रॉक्सी के सही सेटअप के साथ भी शुरुआती अक्सर गलतियाँ करते हैं जो ब्लॉकिंग या पार्सर के अस्थिर काम की ओर ले जाती हैं। आइए सबसे आम समस्याओं और उनके समाधान के तरीकों पर चर्चा करें।
गलती 1: सभी अनुरोधों के लिए एक User-Agent का उपयोग
समस्या: पार्सर IP बदलते समय भी एक ही User-Agent हेडर के साथ सभी अनुरोध भेजता है। यह संदिग्ध दिखता है — एक ही "ब्राउज़र" विभिन्न पतों से दिखाई देता है।
समाधान: IP पतों के साथ User-Agent को घुमाएं। लोकप्रिय ब्राउज़रों की एक सूची बनाएं (विभिन्न संस्करणों के Chrome, Firefox, Safari) और प्रत्येक प्रॉक्सी परिवर्तन पर इससे यादृच्छिक रूप से चुनें। पार्सिंग के लिए अधिकांश लाइब्रेरी में User-Agent रोटेशन के लिए अंतर्निहित समर्थन है।
गलती 2: बहुत बार IP रोटेशन
समस्या: कुछ लोग हर अनुरोध के बाद IP बदलने को कॉन्फ़िगर करते हैं, यह सोचकर कि यह अधिकतम सुरक्षित है। वास्तव में यह अप्राकृतिक दिखता है — वास्तविक उपयोगकर्ता हर सेकंड IP नहीं बदलते।
समाधान: उचित रोटेशन अंतराल का उपयोग करें: 5-15 मिनट या एक IP पर 20-100 अनुरोध। यह वास्तविक उपयोगकर्ता के व्यवहार का अनुकरण करता है, जो एक डिवाइस से कुछ समय के लिए बैठता है, फिर स्विच करता है।
गलती 3: कुकीज़ को अनदेखा करना
समस्या: पार्सर उनके बीच कुकीज़ सहेजे बिना अनुरोध करता है। मार्केटप्लेस सत्रों को ट्रैक करने के लिए कुकीज़ का उपयोग करते हैं — यदि आप उन्हें सहेजते नहीं हैं, तो प्रत्येक अनुरोध एक नए सत्र की तरह दिखता है।
समाधान: हमेशा पहले अनुरोध के बाद कुकीज़ सहेजें और उन्हें बाद के अनुरोधों में पास करें। IP बदलते समय नई कुकीज़ के साथ एक नया सत्र बनाएं — यह एक नए उपयोगकर्ता का अनुकरण करता है।
गलती 4: अनुरोधों के बीच निश्चित विलंब
समस्या: सभी अनुरोधों के बीच ठीक 5 सेकंड का विलंब सेट किया गया है। यह एक सही पैटर्न बनाता है जिसे एंटी-बॉट सिस्टम आसानी से पहचान लेते हैं।
समाधान: एक सीमा में यादृच्छिक विलंब का उपयोग करें। 5 सेकंड के बजाय random(4, 7) सेकंड करें। कभी-कभी लंबे विराम (10-20 सेकंड) जोड़ें, उपयोगकर्ता के विचलन का अनुकरण करते हुए।
गलती 5: सस्ती सार्वजनिक प्रॉक्सी का उपयोग
समस्या: मुफ्त या बहुत सस्ती सार्वजनिक सूचियों का उपयोग करके प्रॉक्सी पर बचत करने का प्रयास। ये IP पहले से ही अधिकांश मार्केटप्लेस पर ब्लॉक हैं, क्योंकि हजारों अन्य पार्सर द्वारा उपयोग किए जाते हैं।
समाधान: विश्वसनीय प्रदाताओं से गुणवत्ता वाले रेजिडेंशियल प्रॉक्सी में निवेश करें। यह स्थिर काम का आधार है। प्रॉक्सी पर बचत ब्लॉकिंग से लड़ने में समय की हानि और डेटा के संभावित नुकसान की ओर ले जाएगी।
गलती 6: त्रुटि प्रबंधन की अनुपस्थिति
समस्या: पार्सर त्रुटियों को संभालता नहीं है और 429 (Too Many Requests) या 503 (Service Unavailable) प्राप्त करने के बाद भी सर्वर पर अनुरोधों से बमबारी करना जारी रखता है।
समाधान: स्मार्ट त्रुटि प्रबंधन लागू करें:
- 429 प्राप्त करने पर — विलंब को 2 गुना बढ़ाएं और IP बदलें
- 503 प्राप्त करने पर — 5-10 मिनट का विराम लें
- 403 प्राप्त करने पर — तुरंत IP बदलें और सेटिंग्स की जांच करें
- exponential backoff का उपयोग करें: बार-बार त्रुटियों पर विराम को घातीय रूप से बढ़ाएं
मॉनिटरिंग शुरू करने से पहले चेकलिस्ट:
- ✅ गुणवत्ता वाले रेजिडेंशियल प्रॉक्सी का उपयोग किया जाता है
- ✅ हर 5-15 मिनट में IP रोटेशन कॉन्फ़िगर किया गया है
- ✅ User-Agent रोटेशन सक्षम है
निष्कर्ष
प्रॉक्सी के माध्यम से स्टॉक उपलब्धता की सफल मॉनिटरिंग तीन मुख्य घटकों पर निर्भर करती है: सही प्रॉक्सी प्रकार का चयन, IP रोटेशन का सही सेटअप, और वास्तविक उपयोगकर्ता व्यवहार का अनुकरण। रेजिडेंशियल प्रॉक्सी अधिकांश मार्केटप्लेस के लिए इष्टतम विकल्प हैं, विशेष रूप से Wildberries और Ozon जैसे सख्त सुरक्षा वाले प्लेटफॉर्म के लिए।
याद रखें कि मॉनिटरिंग की गति और स्थिरता के बीच संतुलन खोजना महत्वपूर्ण है। रूढ़िवादी सेटिंग्स से शुरू करें और धीरे-धीरे अनुकूलित करें, परिणामों की निगरानी करते हुए। गुणवत्ता वाली प्रॉक्सी में निवेश और सही सेटअप आपको प्रतिस्पर्धियों पर स्थिर लाभ देगा और ब्लॉकिंग से बचने में मदद करेगा।