गतिशील मूल्य निर्धारण मार्केटप्लेस पर मानक बन गया है - कीमतें मांग, स्टॉक और प्रतिस्पर्धियों की गतिविधियों के आधार पर दिन में 10-20 बार बदलती हैं। यदि आप Wildberries, Ozon या Avito पर विक्रेता हैं, तो आप जानते हैं: जो पहले प्रतिस्पर्धी की कीमत में कमी के बारे में जानता है - वह खोज परिणामों में अपनी स्थिति बनाए रखता है। लेकिन सभी मार्केटप्लेस एक ही IP से बड़े पैमाने पर पार्सिंग को सख्ती से ब्लॉक करते हैं। इस लेख में, हम देखेंगे कि प्रॉक्सी के माध्यम से स्वचालित मूल्य निगरानी को कैसे सेट करें, ताकि आप बिना किसी अकाउंट या IP पते के ब्लॉक होने के जोखिम के बिना 24/7 डेटा एकत्र कर सकें।
मार्केटप्लेस कीमतों की पार्सिंग को क्यों ब्लॉक करते हैं और यह कैसे काम करता है
सभी बड़े मार्केटप्लेस स्वचालित डेटा संग्रह से बचाव के लिए बहु-स्तरीय सुरक्षा का उपयोग करते हैं। कारण सरल है: बड़े पैमाने पर पार्सिंग सर्वरों पर लोड डालती है और उन लोगों को प्रतिस्पर्धात्मक लाभ देती है जो डेटा एकत्र करना जानते हैं। उदाहरण के लिए, Wildberries दिन में 300,000 तक मूल्य परिवर्तनों को रिकॉर्ड करता है - और नहीं चाहता कि ये डेटा प्रतिस्पर्धियों को मुफ्त में मिलें।
यह एक सामान्य सुरक्षा प्रणाली कैसे काम करती है:
- एक ही IP से अनुरोधों की आवृत्ति की निगरानी - यदि आप एक मिनट में 50+ उत्पाद कार्ड खोलते हैं, तो सिस्टम समझता है कि यह कोई व्यक्ति नहीं है। सामान्य खरीदार एक मिनट में 3-5 उत्पादों को देखता है, पार्सर - 100-500।
- User-Agent और हेडर का विश्लेषण - बिना सही ब्राउज़र हेडर के अनुरोध तुरंत काले सूची में चले जाते हैं। कई शुरुआती लोग बिना हेडर सेट किए Python requests की मानक पुस्तकालयों का उपयोग करते हैं - यह पहला है जो सुरक्षा प्रणालियाँ पहचानती हैं।
- JavaScript और कुकीज़ की जांच - आधुनिक मार्केटप्लेस Cloudflare, DataDome और अपनी एंटी-बॉट प्रणालियों का उपयोग करते हैं। वे JavaScript के निष्पादन, सत्र कुकीज़ की उपस्थिति, माउस और स्क्रॉलिंग के व्यवहार की जांच करते हैं।
- IP की भौगोलिक स्थिति - यदि आप जर्मनी या अमेरिका के IP से रूसी Ozon की पार्सिंग कर रहे हैं, तो यह संदिग्ध लगता है। सिस्टम आपको पुरानी कीमतें दिखा सकता है या पूरी तरह से पहुंच को ब्लॉक कर सकता है।
- डेटा सेंटरों का ब्लॉक करना - अधिकांश मार्केटप्लेस क्लाउड प्रदाताओं (AWS, Google Cloud, Hetzner) के IP पते का डेटाबेस रखते हैं और स्वचालित रूप से उनसे अनुरोधों को सीमित करते हैं।
ब्लॉक होने का परिणाम भिन्न हो सकता है: अस्थायी गति सीमा (rate limit) से लेकर कुछ हफ्तों के लिए IP का पूर्ण बैन। यदि आप विक्रेता के खाते के माध्यम से पार्सिंग कर रहे हैं - तो आप व्यक्तिगत खाते के ब्लॉक होने का जोखिम उठाते हैं, जो व्यवसाय के लिए महत्वपूर्ण है।
वास्तविक मामला: Wildberries पर एक विक्रेता ने सामान्य VPS सर्वर के माध्यम से प्रतिस्पर्धियों की कीमतों की पार्सिंग सेट की। 2 घंटे में 500 उत्पादों के डेटा एकत्र किए। एक दिन बाद पता चला कि उसका IP पूरी तरह से ब्लॉक हो गया है - यहां तक कि सामान्य खरीदार के रूप में साइट पर जाना भी असंभव हो गया। उसे 2 हफ्ते तक इंतजार करना पड़ा जब तक कि ब्लॉक अपने आप हटा नहीं गया।
कीमतों की निगरानी के लिए कौन से प्रकार की प्रॉक्सी उपयुक्त हैं: तुलना
गतिशील मूल्य निर्धारण की निगरानी के लिए तीन प्रकार की प्रॉक्सी उपयुक्त हैं, प्रत्येक के अपने फायदे और नुकसान हैं। चयन बजट, पार्सिंग की मात्रा और भौगोलिक आवश्यकताओं पर निर्भर करता है।
| प्रॉक्सी का प्रकार | फायदे | नुकसान | किस कार्यों के लिए |
|---|---|---|---|
| रिसिडेंशियल प्रॉक्सी | असली घरेलू उपयोगकर्ताओं के IP, बैन का न्यूनतम जोखिम, किसी भी भूगोल का समर्थन, Cloudflare को बायपास करना | अन्य प्रकारों की तुलना में महंगा, गति भिन्न हो सकती है | Wildberries, Ozon, कड़े सुरक्षा वाले साइटों की पार्सिंग। क्षेत्रीय कीमतों की निगरानी। |
| मोबाइल प्रॉक्सी | मोबाइल ऑपरेटरों के IP, एक IP हजारों उपयोगकर्ताओं द्वारा उपयोग किया जाता है - लगभग ब्लॉक करना असंभव, उच्च ट्रस्ट स्कोर | सबसे महंगे, सीमित भूगोल, ऑपरेटर द्वारा IP का समय-समय पर परिवर्तन | मार्केटप्लेस के मोबाइल ऐप के माध्यम से पार्सिंग, सबसे कड़ी सुरक्षा को बायपास करना |
| डेटा सेंटर प्रॉक्सी | उच्च गति, कम कीमत, स्थिर कनेक्शन, अनलिमिटेड ट्रैफिक | आसानी से पहचानने योग्य, कई मार्केटप्लेस प्रिवेंटिव रूप से डेटा सेंटरों को ब्लॉक करते हैं | गंभीर सुरक्षा के बिना साइटों की पार्सिंग, Avito, छोटे ऑनलाइन स्टोर |
चुनाव के लिए व्यावहारिक सिफारिश:
- Wildberries और Ozon के लिए - केवल रिसिडेंशियल या मोबाइल प्रॉक्सी। ये प्लेटफार्म Cloudflare और अपनी एंटी-बॉट प्रणालियों का उपयोग करते हैं, डेटा सेंटर 90% मामलों में ब्लॉक होते हैं।
- Yandex.Market के लिए - रिसिडेंशियल प्रॉक्सी के साथ रूसी भूगोल, सिस्टम IP और खोज क्षेत्र की संगति की जांच करता है।
- Avito के लिए - डेटा सेंटरों का उपयोग किया जा सकता है, लेकिन रोटेशन और अनुरोधों के बीच विलंब के साथ। सुरक्षा मार्केटप्लेस की तुलना में कमजोर है।
- AliExpress और अंतरराष्ट्रीय प्लेटफार्मों के लिए - आवश्यक देश के रिसिडेंशियल प्रॉक्सी, कई विभिन्न क्षेत्रों के लिए विभिन्न कीमतें दिखाते हैं।
यदि बजट सीमित है - 20-30 रिसिडेंशियल प्रॉक्सी के पूल से शुरू करें जिनका रोटेशन है। यह 500-1000 उत्पादों की निगरानी के लिए पर्याप्त होगा बिना किसी ब्लॉक के।
Wildberries, Ozon, Yandex.Market और Avito की सुरक्षा की विशेषताएँ
प्रत्येक प्लेटफार्म अपनी सुरक्षा तंत्रों का संयोजन उपयोग करता है। इन विशेषताओं को समझना सही तरीके से पार्सर को पहले प्रयास में सेट करने में मदद करता है।
Wildberries
रूसी मार्केटप्लेस में सबसे कड़ी सुरक्षा। Cloudflare का उपयोग करते हैं जिसमें "I'm Under Attack" मोड सक्षम है, जो सामग्री तक पहुंच से पहले JavaScript चुनौती की जांच करता है। इसके अतिरिक्त, वे निम्नलिखित की निगरानी करते हैं:
- ब्राउज़र का फिंगरप्रिंट - कैनवास, WebGL, फॉन्ट, स्क्रीन रिज़ॉल्यूशन
- TLS फिंगरप्रिंट - प्रोटोकॉल का संस्करण और cipher suites का सेट
- व्यवहार संबंधी कारक - स्क्रॉलिंग की गति, माउस की गतिविधियाँ, पृष्ठ पर समय
- सत्र का इतिहास - यदि आप तुरंत उत्पाद कार्ड खोलना शुरू करते हैं बिना मुख्य और श्रेणियों को देखे, तो यह संदिग्ध है
क्या काम करता है: रिसिडेंशियल प्रॉक्सी के साथ Headless-ब्राउज़र (Puppeteer, Playwright), वास्तविक उपयोगकर्ता के व्यवहार की अनुकरण, अनुरोधों के बीच 5-15 सेकंड का विलंब, हर 20-30 अनुरोधों के बाद User-Agent और प्रॉक्सी का रोटेशन।
Ozon
अपनी एंटी-बॉट प्रणाली के साथ-साथ DataDome का उपयोग करते हैं। विशेषता: कीमतें डिलीवरी शहर के आधार पर भिन्न हो सकती हैं - सिस्टम IP के आधार पर क्षेत्र का निर्धारण करता है और लॉजिस्टिक्स के अनुसार संबंधित कीमतें दिखाता है।
Ozon सक्रिय रूप से ज्ञात डेटा सेंटर IP रेंज को ब्लॉक करता है। सामान्य VPS के माध्यम से पार्सिंग करते समय 80% मामलों में कैप्चा या 403 त्रुटि मिलेगी। वे कुकीज़ की भी निगरानी करते हैं - यदि आप अनुरोधों के बीच सत्र को बनाए रखे बिना अनुरोध करते हैं, तो यह पहचान लिया जाएगा।
क्या काम करता है: रिसिडेंशियल प्रॉक्सी के साथ रूसी भूगोल, अनुरोधों के बीच कुकीज़ को बनाए रखना अनिवार्य है, पसंदीदा में उत्पाद जोड़ने का अनुकरण (यह "उपयोगकर्ता" का "इतिहास" बनाता है), 3-10 सेकंड का विलंब।
Yandex.Market
सुरक्षा का औसत स्तर। मुख्य विशेषता - क्षेत्र के लिए कड़ी निर्भरता। यदि आप Vladivostok के IP से Moscow के लिए कीमतों की पार्सिंग कर रहे हैं, तो सिस्टम या तो Vladivostok के लिए कीमतें दिखाएगा या पूरी तरह से पहुंच को ब्लॉक कर देगा। सही निगरानी के लिए आपको उसी क्षेत्र के प्रॉक्सी की आवश्यकता है, जिसकी कीमतें आप ट्रैक कर रहे हैं।
Yandex अपनी एंटी-फ्रॉड प्रणाली का भी उपयोग करता है, जो क्रियाओं के अनुक्रम का विश्लेषण करती है। संदिग्ध दिखता है: सीधे लिंक पर उत्पाद कार्ड खोलना बिना खोज, अनुरोधों के बीच समान अंतराल (उदाहरण के लिए, हर 5 सेकंड), स्थैतिक सामग्री (छवियाँ, शैलियाँ) के लिए अनुरोधों की अनुपस्थिति।
क्या काम करता है: आवश्यक क्षेत्र के रिसिडेंशियल प्रॉक्सी, पूर्ण चक्र का अनुकरण: खोज → उत्पादों की सूची → उत्पाद कार्ड, यादृच्छिक विलंब 4-12 सेकंड, प्रॉक्सी का समय-समय पर परिवर्तन।
Avito
सूचीबद्ध प्लेटफार्मों में सबसे लचीली सुरक्षा। मुख्य सुरक्षा - एक ही IP से विज्ञापनों के देखने की संख्या पर सीमा (लगभग 100-150 विज्ञापनों प्रति घंटे)। सीमा से अधिक होने पर कैप्चा या 1-2 घंटे के लिए अस्थायी ब्लॉक दिखाई देता है।
Avito भी कुकीज़ और बुनियादी हेडर की उपस्थिति की जांच करता है, लेकिन जटिल JavaScript चुनौतियों का उपयोग नहीं करता है। डेटा सेंटर काम करते हैं, लेकिन सीमाओं के साथ - रोटेशन और अनुरोधों की मध्यम आवृत्ति की आवश्यकता होती है।
क्या काम करता है: यहां तक कि रोटेशन के साथ डेटा सेंटर, विज्ञापनों के बीच 2-5 सेकंड का विलंब, सही ब्राउज़र हेडर, कुकीज़ को बनाए रखना। बड़े वॉल्यूम के लिए - रिसिडेंशियल प्रॉक्सी।
24/7 पार्सिंग के लिए प्रॉक्सी रोटेशन सेटअप
प्रॉक्सी का सही रोटेशन - बिना ब्लॉक के स्थिर पार्सिंग के लिए एक प्रमुख कारक है। तीन मुख्य रोटेशन रणनीतियाँ हैं, प्रत्येक विभिन्न परिदृश्यों के लिए उपयुक्त है।
रणनीति 1: अनुरोधों की संख्या के अनुसार रोटेशन
सारांश: आप एक निश्चित संख्या के अनुरोधों के बाद प्रॉक्सी बदलते हैं (उदाहरण के लिए, हर 20-50 अनुरोधों के बाद)। यह अधिकांश कार्यों के लिए सबसे सरल और प्रभावी विधि है।
विभिन्न प्लेटफार्मों के लिए अनुशंसित मान:
- Wildberries: एक प्रॉक्सी पर 15-25 अनुरोध, फिर परिवर्तन
- Ozon: 20-30 अनुरोध
- Yandex.Market: 30-50 अनुरोध
- Avito: 50-100 अनुरोध
एक महत्वपूर्ण बिंदु: यादृच्छिकता जोड़ें। प्रॉक्सी को सख्ती से 20 अनुरोधों के बाद न बदलें - इसे 18-23 अनुरोधों के बाद यादृच्छिक रूप से करें। यह सुरक्षा प्रणालियों के लिए पैटर्न को कम पूर्वानुमानित बनाता है।
रणनीति 2: समय आधारित रोटेशन
आप हर N मिनट में प्रॉक्सी बदलते हैं, चाहे अनुरोधों की संख्या कोई भी हो। यह अप्रत्याशित लोड वाले कार्यों के लिए उपयुक्त है - उदाहरण के लिए, वास्तविक समय में कीमतों की निगरानी, जब अपडेट की संख्या अचानक बदल सकती है।
अनुशंसित अंतराल: कड़े प्लेटफार्मों के लिए 5-15 मिनट (Wildberries, Ozon), अधिक लचीले के लिए 15-30 मिनट (Avito, छोटे स्टोर)।
रणनीति 3: स्टिकी सेशन्स (चिपचिपे सत्र)
आप एक ही प्रॉक्सी का उपयोग सभी अनुरोधों के लिए एक "उपयोगकर्ता सत्र" के भीतर करते हैं। उदाहरण: आप एक खरीदार का अनुकरण करते हैं, जो Ozon पर गया, "लैपटॉप" की खोज की, 5 उत्पाद कार्ड खोले, एक को कार्ट में जोड़ा। ये सभी क्रियाएँ एक प्रॉक्सी के माध्यम से कुकीज़ को बनाए रखते हुए होती हैं।
सत्र समाप्त होने के बाद (3-10 मिनट में) - आप प्रॉक्सी बदलते हैं और नया सत्र शुरू करते हैं। यह सबसे "मानव" पैटर्न है, लेकिन इसके लिए अधिक प्रॉक्सी की आवश्यकता होती है और इसे लागू करना अधिक कठिन है।
कब उपयोग करें: बहुत कड़ी सुरक्षा वाले प्लेटफार्मों की पार्सिंग, जब साधारण रोटेशन काम नहीं करता। यह विक्रेता के व्यक्तिगत खातों के माध्यम से डेटा एकत्र करने के लिए भी उपयुक्त है।
व्यावहारिक सलाह:
रणनीतियों को संयोजित करें। उदाहरण के लिए: 20-30 अनुरोधों के लिए चिपचिपे सत्रों का उपयोग करें, और सत्र समाप्त होने के बाद प्रॉक्सी बदलें। एक समय सीमा जोड़ें - यदि सत्र 10 मिनट से अधिक समय तक चलता है, तो मजबूरन प्रॉक्सी बदलें। यह हाइब्रिड दृष्टिकोण पहचान से अधिकतम सुरक्षा प्रदान करता है।
प्रॉक्सी समर्थन के साथ कीमतों की निगरानी के लिए तैयार उपकरण
यदि आप शून्य से पार्सर नहीं लिखना चाहते हैं, तो प्रॉक्सी के साथ अंतर्निहित समर्थन वाले तैयार समाधान हैं। हम रूस और अंतरराष्ट्रीय प्लेटफार्मों पर कीमतों की निगरानी के लिए सबसे लोकप्रिय उपकरणों पर विचार करेंगे।
रूसी मार्केटप्लेस के लिए
1. Mpstats (mpstats.io)
Wildberries और Ozon के लिए विशिष्ट सेवा। बिक्री, स्टॉक, प्रतिस्पर्धियों की कीमतों के डेटा एकत्र करता है। अपनी प्रणालियों के साथ एकीकरण के लिए API है। सेवा अपनी प्रॉक्सी अवसंरचना के माध्यम से काम करती है, आपको कुछ भी अतिरिक्त सेट करने की आवश्यकता नहीं है।
नुकसान: उच्च लागत (पूर्ण पहुंच के लिए 15,000 रूबल/माह से), अपनी प्रॉक्सी का उपयोग नहीं कर सकते। बड़े विक्रेताओं के लिए उपयुक्त जिनका टर्नओवर 1-2 मिलियन रूबल/माह है।
2. Sellego
मूल्य निर्धारण स्वचालन पर ध्यान केंद्रित करने वाली एक समान सेवा। प्रतिस्पर्धियों की कीमतों की निगरानी करता है और निर्धारित नियमों के अनुसार आपकी कीमतों को स्वचालित रूप से समायोजित करता है (उदाहरण के लिए, "प्रतिस्पर्धी से 5% सस्ता होना")। यह भी अपनी प्रॉक्सी के माध्यम से काम करता है।
3. Parsehub
बिना कोड के पार्सर का दृश्य निर्माता। आप उन पृष्ठ तत्वों पर क्लिक करते हैं जिन्हें एकत्र करना है, और सेवा स्वचालित रूप से पार्सर बनाती है। प्रॉक्सी का समर्थन करता है - आप परियोजना की सेटिंग्स में अपनी सूची जोड़ सकते हैं। यह उन लोगों के लिए उपयुक्त है जो प्रोग्रामिंग नहीं जानते हैं।
लागत: मुफ्त योजना - 200 पृष्ठ प्रति माह, भुगतान की योजनाएँ - $149/माह से 10,000 पृष्ठों के लिए। 100-200 उत्पादों की निगरानी के लिए मुफ्त योजना पर्याप्त होगी।
स्वायत्त विकास के लिए
यदि आप स्वयं पार्सर सेट करने के लिए तैयार हैं या आपकी टीम में एक प्रोग्रामर है:
1. Scrapy (Python)
पार्सिंग के लिए एक शक्तिशाली ढांचा जिसमें प्रॉक्सी, रोटेशन, त्रुटियों को संभालने का अंतर्निहित समर्थन है। सूची से स्वचालित रूप से प्रॉक्सी बदलने के लिए मिडलवेयर है। Python का ज्ञान आवश्यक है, लेकिन दस्तावेज़ीकरण उत्कृष्ट है।
यह बिना JavaScript के सरल साइटों की पार्सिंग के लिए उपयुक्त है। Wildberries और Ozon के लिए JavaScript को संभालने के लिए इसे Splash या Selenium के साथ संयोजित करना आवश्यक है।
2. Puppeteer / Playwright (JavaScript)
Headless-ब्राउज़र, जो वास्तविक उपयोगकर्ता का पूरी तरह अनुकरण करते हैं - JavaScript निष्पादित करते हैं, कुकीज़ को बनाए रखते हैं, माउस की गतिविधियों का अनुकरण कर सकते हैं। कड़ी सुरक्षा वाले प्लेटफार्मों के लिए आदर्श।
प्रॉक्सी सेट करना सरल है - ब्राउज़र शुरू करते समय एक पैरामीटर। Playwright को अधिक आधुनिक और स्थिर माना जाता है, लेकिन Puppeteer के पास अधिक तैयार उदाहरण और पुस्तकालय हैं।
3. Octoparse
Windows के लिए एक डेस्कटॉप एप्लिकेशन जिसमें पार्सर का दृश्य निर्माता है। प्रोग्रामिंग की आवश्यकता नहीं है - आप बस उन तत्वों पर क्लिक करते हैं जिन्हें एकत्र करना है। प्रॉक्सी का अंतर्निहित समर्थन, शेड्यूलर, Excel/CSV में निर्यात।
लागत: सीमाओं के साथ मुफ्त संस्करण (10,000 रिकॉर्ड प्रति माह), भुगतान की योजनाएँ $75/माह से। छोटे और मध्यम व्यवसायों के लिए अच्छा विकल्प।
15 मिनट में प्रॉक्सी के साथ कीमत पार्सर सेटअप करने का चरण-दर-चरण तरीका
मैं आपको Parsehub के उदाहरण के माध्यम से कीमतों की निगरानी सेट करने का सबसे सरल तरीका दिखाऊंगा - यह बिना कोड का उपकरण है। यह विधि तब भी उपयुक्त है जब आपने कभी पार्सर्स के साथ काम नहीं किया है।
चरण 1: पंजीकरण और स्थापना
- parsehub.com पर पंजीकरण करें (मुफ्त योजना उपलब्ध है)
- Windows या Mac के लिए डेस्कटॉप एप्लिकेशन डाउनलोड और इंस्टॉल करें
- एप्लिकेशन लॉन्च करें और अपने खाते में लॉगिन करें
चरण 2: परियोजना बनाना और तत्वों का चयन करना
- "New Project" पर क्लिक करें और उत्पादों के पृष्ठ का URL डालें (उदाहरण के लिए, Ozon पर श्रेणी या खोज परिणाम)
- Parsehub अंतर्निहित ब्राउज़र में पृष्ठ लोड करेगा
- पहले उत्पाद के नाम पर क्लिक करें - Parsehub स्वचालित रूप से पृष्ठ पर सभी समान तत्वों को हाइलाइट करेगा
- उत्पाद की कीमत पर क्लिक करें - यह एकत्रित डेटा की सूची में जोड़ दी जाएगी
- अन्य आवश्यक फ़ील्ड जोड़ें: उत्पाद का लिंक, रेटिंग, समीक्षाओं की संख्या
चरण 3: प्रॉक्सी सेटअप
- परियोजना की सेटिंग्स खोलें (गियर आइकन)
- "Proxy Settings" अनुभाग खोजें
- "Use proxy" चुनें और अपने प्रॉक्सी के डेटा को इस प्रारूप में डालें: IP:PORT:USERNAME:PASSWORD
- यदि आपके पास प्रॉक्सी की सूची है, तो "Rotate proxies" विकल्प सक्षम करें - Parsehub अनुरोधों के बीच स्वचालित रूप से प्रॉक्सी बदल देगा
चरण 4: अनुसूची सेटअप
- परियोजना की सेटिंग्स में "Schedule" खोजें
- शुरू करने की आवृत्ति चुनें: हर घंटे, हर 6 घंटे, दिन में एक बार आदि।
- गतिशील मूल्य निर्धारण के लिए सबसे अच्छा - हर 2-4 घंटे
चरण 5: डेटा निर्यात
- पार्सर के पहले लॉन्च के बाद डेटा "Data" टैब में दिखाई देगा
- "Export" पर क्लिक करें और प्रारूप चुनें: CSV, Excel, JSON
- आप प्रत्येक लॉन्च के बाद डेटा को Google Sheets या ईमेल पर स्वचालित रूप से भेजने के लिए सेट कर सकते हैं
पूरी सेटिंग में 10-15 मिनट लगते हैं। इसके बाद, पार्सर स्वचालित रूप से अनुसूची के अनुसार काम करता है, प्रतिस्पर्धियों की कीमतें एकत्र करता है और आपको डेटा भेजता है।
महत्वपूर्ण: Parsehub के माध्यम से Wildberries और Ozon की पार्सिंग के लिए रिसिडेंशियल प्रॉक्सी का उपयोग करना अनिवार्य है। डेटा सेंटर ब्लॉक होंगे, यहां तक कि रोटेशन के साथ भी। 200-500 उत्पादों की निगरानी के लिए 10-20 प्रॉक्सी का पूल पर्याप्त है।
पार्सिंग के दौरान ब्लॉक होने वाली 5 गलतियाँ
सही प्रॉक्सी के साथ भी, यदि आप सामान्य गलतियाँ करते हैं तो आपको बैन मिल सकता है। यहाँ कुछ सामान्य समस्याएँ हैं जो प्रैक्टिस से सामने आई हैं।
गलती 1: अनुरोधों की बहुत उच्च गति
कई लोग डेटा को जितनी जल्दी हो सके एकत्रित करने की कोशिश करते हैं और 10-20 अनुरोध प्रति सेकंड करते हैं। यह तुरंत सुरक्षा प्रणालियों द्वारा पहचान लिया जाता है। एक वास्तविक व्यक्ति शारीरिक रूप से प्रति सेकंड 20 उत्पाद कार्ड नहीं खोल सकता।
समाधान: अनुरोधों के बीच विलंब जोड़ें। सरल साइटों के लिए न्यूनतम 2-3 सेकंड, सुरक्षा वाले मार्केटप्लेस के लिए 5-10 सेकंड। विलंब को यादृच्छिक बनाएं - सख्ती से 5 सेकंड नहीं, बल्कि 4 से 8 सेकंड के बीच यादृच्छिक रूप से।
गलती 2: सभी अनुरोधों के लिए एक ही प्रॉक्सी का उपयोग करना
भले ही आपने रिसिडेंशियल प्रॉक्सी खरीदी हो, एक ही IP का उपयोग दिन में सैकड़ों अनुरोधों के लिए ब्लॉक का कारण बनेगा। सुरक्षा प्रणालियाँ प्रत्येक IP की गतिविधि की निगरानी करती हैं।
समाधान: रोटेशन के साथ पूल में न्यूनतम 10-20 प्रॉक्सी। बड़े वॉल्यूम (1000+ उत्पाद प्रति दिन) के लिए - 50-100 प्रॉक्सी।
गलती 3: अनुरोधों के हेडर का अभाव या गलत होना
User-Agent के बिना या पुस्तकालय के डिफ़ॉल्ट User-Agent (उदाहरण के लिए, "Python-requests/2.28.1") के साथ अनुरोध तुरंत बॉट के रूप में पहचान लिए जाते हैं।
समाधान: हमेशा एक वास्तविक ब्राउज़र का User-Agent निर्दिष्ट करें। अतिरिक्त रूप से Accept, Accept-Language, Accept-Encoding हेडर जोड़ें। प्रॉक्सी बदलने पर User-Agent बदलें।
गलती 4: कुकीज़ और सत्रों की अनदेखी
कई प्लेटफार्म उपयोगकर्ता सत्र की निगरानी के लिए कुकीज़ का उपयोग करते हैं। यदि आप प्रत्येक अनुरोध "साफ पृष्ठ" से करते हैं बिना कुकीज़ के, तो यह संदिग्ध लगता है।
समाधान: एक ही सत्र के भीतर अनुरोधों के बीच कुकीज़ को बनाए रखें। प्रॉक्सी बदलने पर - कुकीज़ को साफ करें और नया सत्र शुरू करें। कुकीज़ के स्वचालित प्रबंधन के लिए पुस्तकालयों का उपयोग करें (Python में requests.Session, JavaScript में puppeteer)।
गलती 5: केवल उत्पाद कार्ड की पार्सिंग बिना नेविगेशन का अनुकरण करना
यदि आप सीधे उत्पाद कार्ड के लिंक खोलते हैं, मुख्य पृष्ठ, खोज और श्रेणियों को छोड़कर, तो यह वास्तविक उपयोगकर्ता के व्यवहार के समान नहीं है।
समाधान: कड़ी सुरक्षा वाले प्लेटफार्मों (Wildberries, Ozon) के लिए उपयोगकर्ता के पूर्ण मार्ग का अनुकरण करें: मुख्य → खोज या श्रेणी → उत्पादों की सूची → उत्पाद कार्ड। यह पार्सिंग का समय बढ़ाता है, लेकिन बैन के जोखिम को कई गुना कम करता है।
निष्कर्ष
गतिशील मूल्य निर्धारण की निगरानी किसी भी विक्रेता के लिए एक महत्वपूर्ण कार्य है जो मार्केटप्लेस पर है। प्रतिस्पर्धियों की कीमतें दिन में कई बार बदलती हैं, और जो पहले परिवर्तनों पर प्रतिक्रिया करता है - वह खोज परिणामों में अपनी स्थिति और लाभ बनाए रखता है। लेकिन सभी बड़े प्लेटफार्म सख्ती से पार्सिंग को ब्लॉक करते हैं, इसलिए सही तरीके से सेट की गई प्रॉक्सी के बिना डेटा एकत्र करना असंभव है।
लेख से मुख्य निष्कर्ष: Wildberries और Ozon के लिए केवल रिसिडेंशियल या मोबाइल प्रॉक्सी का उपयोग करें - डेटा सेंटर 90% मामलों में ब्लॉक होते हैं। प्रॉक्सी का रोटेशन अनिवार्य रूप से सेट करें - हर 20-30 अनुरोधों के बाद IP बदलें। अनुरोधों के बीच विलंब (5-10 सेकंड) जोड़ें और उन्हें यादृच्छिक बनाएं। JavaScript सुरक्षा वाले प्लेटफार्मों के लिए headless-ब्राउज़र्स का उपयोग करें। वास्तविक उपयोगकर्ता के व्यवहार का अनुकरण करें - सीधे उत्पाद कार्ड न खोलें, खोज और श्रेणियों के माध्यम से पूर्ण मार्ग का अनुकरण करें।
यदि आप तकनीकी विवरणों में नहीं जाना चाहते हैं, तो Parsehub या Octoparse जैसे तैयार उपकरणों का उपयोग करें - ये प्रोग्रामिंग की आवश्यकता नहीं होती हैं और प्रॉक्सी का अंतर्निहित समर्थन होता है। बड़े वॉल्यूम और विशिष्ट कार्यों के लिए, Scrapy या Puppeteer पर अपना खुद का पार्सर विकसित करना बेहतर है।
यदि आप रूसी मार्केटप्लेस पर कीमतों की स्वचालित निगरानी सेट करने की योजना बना रहे हैं, तो हम रिसिडेंशियल प्रॉक्सी से शुरू करने की सिफारिश करते हैं - ये Wildberries, Ozon और अन्य प्लेटफार्मों तक स्थिर पहुंच प्रदान करते हैं, जिसमें ब्लॉक होने का न्यूनतम जोखिम होता है। विशेष रूप से कठिन मामलों या मार्केटप्लेस के मोबाइल ऐप के साथ काम करने के लिए, मोबाइल प्रॉक्सी उपयुक्त हैं जो रूसी ऑपरेटरों के IP के साथ हैं।