Back to Blog

वॉलमार्ट पार्सिंग: प्रॉक्सी कैसे चुनें और बिना ब्लॉक के डेटा संग्रह सेट करें

Walmart बोट सुरक्षा के लिए PerimeterX का उपयोग करता है। हम यह समझते हैं कि कौन से प्रॉक्सी पार्सिंग के लिए काम करते हैं, रोटेशन को कैसे सेट करें और कीमतों और स्टॉक्स को इकट्ठा करते समय ब्लॉकिंग से कैसे बचें।

📅January 24, 2026
```html

Walmart अमेरिका में Amazon के बाद दूसरा सबसे बड़ा ऑनलाइन स्टोर है, और इसके डेटा ई-कॉमर्स व्यवसाय के लिए महत्वपूर्ण हैं: प्रतिस्पर्धियों की कीमतों की निगरानी, स्टॉक्स का ट्रैकिंग, और उत्पादों का विश्लेषण। समस्या यह है कि Walmart उन्नत बॉट सुरक्षा प्रणाली PerimeterX का उपयोग करता है, जो पहले पृष्ठ पर ही 90% अनुरोधों को ब्लॉक कर देती है।

इस गाइड में, हम देखेंगे कि कौन से प्रॉक्सी वास्तव में Walmart के पार्सिंग के लिए काम करते हैं, IP पते के रोटेशन को कैसे सेट करें, ब्राउज़र की फिंगरप्रिंटिंग को बायपास करें और एक स्थिर डेटा संग्रह प्रणाली बनाएं, जो एक घंटे के काम के बाद भी न गिरे।

Walmart प्रॉक्सी को क्यों ब्लॉक करता है: PerimeterX सुरक्षा तंत्र

Walmart PerimeterX सुरक्षा प्रणाली का उपयोग करता है (अब इसे HUMAN Security कहा जाता है) — बाजार में सबसे आक्रामक एंटी-बॉट सिस्टम में से एक। यह हर अनुरोध का विश्लेषण दर्जनों मापदंडों के आधार पर करता है और संदिग्ध ट्रैफ़िक को आपके पार्सर द्वारा HTML पृष्ठ को प्राप्त करने से पहले ही ब्लॉक कर देता है।

Walmart की सुरक्षा के मुख्य तंत्र:

1. IP प्रतिष्ठा का विश्लेषण

PerimeterX हर IP पते की जांच ज्ञात प्रॉक्सी सर्वरों, डेटा सेंटरों और VPN के डेटाबेस के खिलाफ करता है। यदि आपका IP इस डेटाबेस में है — तो आपको ब्लॉक या CAPTCHA मिलेगा। Walmart विशेष रूप से लोकप्रिय क्लाउड प्रदाताओं (AWS, Google Cloud, DigitalOcean) से IP को सख्ती से फ़िल्टर करता है।

2. व्यवहारात्मक विश्लेषण

सिस्टम यह ट्रैक करता है कि उपयोगकर्ता पृष्ठ के साथ कैसे इंटरैक्ट करता है: माउस की गति, स्क्रॉलिंग की गति, क्लिक। Selenium या Puppeteer पर पार्सर अक्सर यहीं पकड़े जाते हैं — वे बहुत तेजी से पृष्ठ खोलते हैं, बिना स्वाभाविक विराम के, माउस को हिलाए बिना।

3. TLS और HTTP फिंगरप्रिंटिंग

PerimeterX आपके कनेक्शन के TLS फिंगरप्रिंट (साइफर का क्रम, एक्सटेंशन) और HTTP अनुरोधों के हेडर का विश्लेषण करता है। मानक Python पुस्तकालय (requests, urllib) के पास अद्वितीय फिंगरप्रिंट होते हैं, जिन्हें आसानी से पहचाना जा सकता है। भले ही आपने User-Agent को बदल दिया हो, सिस्टम हेडरों और वास्तविक ब्राउज़र के बीच असंगति को देखता है।

4. JavaScript चुनौतियाँ

संदिग्ध अनुरोध पर PerimeterX JavaScript कोड भेजता है, जो ब्राउज़र में जांच करता है: Canvas API, WebGL, स्क्रीन पैरामीटर, स्थापित फ़ॉन्ट। साधारण HTTP पार्सर (बिना ब्राउज़र इंजन के) इन जांचों को पास नहीं कर सकते और ब्लॉक हो जाते हैं।

ब्लॉक होने पर क्या होता है:

  • HTTP 403 Forbidden — सबसे सामान्य उत्तर, इसका मतलब है कि आपका IP या फिंगरप्रिंट ब्लैकलिस्ट में है
  • CAPTCHA के साथ पृष्ठ पर रीडायरेक्ट — सिस्टम सुनिश्चित नहीं है, आपको साबित करने का मौका देता है कि आप इंसान हैं
  • खाली पृष्ठ या त्रुटि के साथ JSON — सर्वर सामग्री को बिल्कुल नहीं देता
  • एक IP पर 15-60 मिनट का अस्थायी बैन — एक पते से आक्रामक पार्सिंग के दौरान

मुख्य निष्कर्ष: Walmart के सफल पार्सिंग के लिए एक समग्र रणनीति की आवश्यकता है, जिसमें प्रॉक्सी केवल एक तत्व है। आपको सही ब्राउज़र इंजन, मानव व्यवहार की नकल और IP पते का सही रोटेशन भी चाहिए।

Walmart के पार्सिंग के लिए कौन से प्रॉक्सी काम करते हैं: प्रकारों की तुलना

सभी प्रॉक्सी Walmart की सुरक्षा को बायपास करने के लिए समान रूप से प्रभावी नहीं हैं। आइए चार मुख्य प्रकारों और उनके पार्सिंग कार्य के लिए उपयुक्तता पर चर्चा करें।

प्रॉक्सी का प्रकार Walmart के लिए प्रभावशीलता गति लागत सिफारिश
रिज़िडेंशियल प्रॉक्सी ⭐⭐⭐⭐⭐
शानदार — वास्तविक उपयोगकर्ताओं के IP, न्यूनतम ब्लॉकेज
मध्यम
(200-800 मि.से)
उच्च
($7-15/GB से)
उत्पादन के लिए आदर्श
मोबाइल प्रॉक्सी ⭐⭐⭐⭐⭐
शानदार — उच्च ट्रस्ट स्कोर, दुर्लभ ब्लॉकेज
कम
(500-1500 मि.से)
बहुत उच्च
($50-100/माह प्रति IP)
कठिन मामलों के लिए
डेटा सेंटर प्रॉक्सी ⭐⭐
खराब — उच्च ब्लॉकिंग संभावना (70-90%)
उच्च
(50-150 मि.से)
कम
($1-3/IP से)
सिफारिश नहीं की जाती
ISP प्रॉक्सी ⭐⭐⭐⭐
अच्छा — स्थिर रिज़िडेंशियल IP
उच्च
(80-200 मि.से)
मध्यम
($30-80/माह प्रति IP)
दीर्घकालिक कार्यों के लिए

प्रत्येक प्रकार के बारे में अधिक:

रिज़िडेंशियल प्रॉक्सी — Walmart के लिए स्वर्ण मानक

ये वास्तविक घरेलू इंटरनेट प्रदाताओं (Comcast, AT&T, Verizon अमेरिका में) के IP पते हैं। Walmart इन्हें सामान्य खरीदारों के रूप में देखता है, इसलिए ब्लॉकेज का प्रतिशत न्यूनतम है — सही सेटअप पर लगभग 5-10%। मुख्य लाभ — विशाल पते के पूल (मिलियनों IP), जो प्रभावी रोटेशन सेटअप की अनुमति देता है।

कब उपयोग करें: हजारों उत्पादों की कीमतों की निगरानी, दैनिक डेटा संग्रह, दीर्घकालिक परियोजनाएँ। Walmart के पार्सिंग के लिए रिज़िडेंशियल प्रॉक्सी प्रभावशीलता और लागत के अनुपात के लिए आदर्श विकल्प है।

मोबाइल प्रॉक्सी — अधिकतम विश्वसनीयता

मोबाइल ऑपरेटरों के IP (T-Mobile, Verizon Wireless) एंटी-बॉट सिस्टम में सबसे उच्च ट्रस्ट स्कोर रखते हैं। कारण — एक IP हजारों वास्तविक उपयोगकर्ताओं द्वारा उपयोग किया जाता है (ऑपरेटर के माध्यम से NAT), इसलिए इसे ब्लॉक करना = हजारों खरीदारों को ब्लॉक करना। Walmart मोबाइल IP को लगभग नहीं ब्लॉक करता है।

कब उपयोग करें: यदि रिज़िडेंशियल प्रॉक्सी काम नहीं कर रही हैं, यदि आपको विशेष रूप से सुरक्षित अनुभागों (जैसे, विशिष्ट क्षेत्रों के लिए कीमतें) को पार्स करना है, यदि बजट अनुमति देता है। मोबाइल प्रॉक्सी लगभग 100% सफल अनुरोध प्रदान करते हैं, लेकिन उनकी लागत अधिक होती है।

डेटा सेंटर प्रॉक्सी — Walmart के लिए नहीं

डेटा सेंटर (AWS, OVH, Hetzner) के सर्वरों के IP पते तुरंत PerimeterX द्वारा पहचाने जाते हैं। भले ही आप "स्वच्छ" IP खरीदें, जो पहले पार्सिंग के लिए उपयोग नहीं किए गए थे, सिस्टम फिर भी देखता है कि यह डेटा सेंटर है, न कि घरेलू प्रदाता। ब्लॉकेज का प्रतिशत — 70-90%।

उपयोग का एकमात्र परिदृश्य: छोटे डेटा वॉल्यूम (10-50 पृष्ठों) पर पार्सर का परीक्षण। उत्पादन के लिए ये बिल्कुल भी उपयुक्त नहीं हैं।

ISP प्रॉक्सी (स्थिर रिज़िडेंशियल) — यह एक हाइब्रिड है: घरेलू प्रदाताओं के IP, लेकिन डेटा सेंटर में होस्ट किए गए और आपको लंबे समय के लिए (एक महीने या अधिक) दिए गए। ये सामान्य रिज़िडेंशियल से तेज़ होते हैं, लेकिन महंगे होते हैं और सीमित पते के पूल होते हैं। ये तब उपयुक्त होते हैं जब आपको एक ही उत्पाद श्रेणी के लिए दीर्घकालिक पार्सिंग के लिए स्थिर IP की आवश्यकता होती है।

रिज़िडेंशियल बनाम डेटा सेंटर प्रॉक्सी: आपकी आवश्यकता के लिए क्या चुनें

हालाँकि हमने पहले ही पता लगा लिया है — रिज़िडेंशियल प्रॉक्सी अधिक प्रभावी हैं, आइए हम उन स्थितियों का विस्तृत विश्लेषण करें जब प्रत्येक प्रकार उचित हो सकता है, और वास्तविक स्वामित्व की लागत की गणना करें।

परिदृश्य 1: दैनिक 10,000 उत्पादों की निगरानी

रिज़िडेंशियल प्रॉक्सी के साथ:

  • Walmart उत्पाद पृष्ठ का औसत आकार: ~500 KB
  • 10,000 उत्पाद × 500 KB = 5 GB ट्रैफ़िक प्रति दिन
  • मासिक ट्रैफ़िक: 150 GB
  • लागत $10/GB पर: $1,500/माह
  • सफल अनुरोधों का प्रतिशत: 90-95%
  • पुनरावृत्तियों के साथ वास्तविक लागत: ~$1,650/माह

डेटा सेंटर प्रॉक्सी के साथ (सिद्धांत में):

  • 100 IP की लागत: ~$200/माह
  • सफल अनुरोधों का प्रतिशत: 10-30% (बाकी — ब्लॉकेज)
  • प्रत्येक उत्पाद पर 3-10 प्रयास करने की आवश्यकता है
  • वास्तविक ट्रैफ़िक: 15-50 GB (पुनरावृत्तियों के कारण)
  • निष्कर्ष: कार्य असंभव है — IP जल्दी से बैन हो जाते हैं, हर कदम पर CAPTCHA होता है

परिदृश्य 2: 500 उत्पादों के लिए एक बार डेटा संग्रह

यदि आपको एक बार बाजार विश्लेषण या अनुसंधान के लिए डेटा एकत्र करने की आवश्यकता है, तो आप एक संयोजित दृष्टिकोण का प्रयास कर सकते हैं:

  • उत्पादों के URL (श्रेणी पृष्ठों) के प्रारंभिक संग्रह के लिए डेटा सेंटर प्रॉक्सी का उपयोग करें
  • उत्पादों की विस्तृत जानकारी प्राप्त करने के लिए रिज़िडेंशियल प्रॉक्सी पर स्विच करें
  • लागत: ~$50-100 एक बार के कार्य के लिए
  • समय सीमा: 2-4 घंटे डेटा सेंटर के साथ 10-20 घंटे के बजाय

चुनाव के प्रमुख कारक:

मानदंड रिज़िडेंशियल डेटा सेंटर
डेटा की मात्रा कोई भी — 100 से लेकर लाखों पृष्ठों तक केवल छोटे वॉल्यूम (1000 पृष्ठों तक)
नियमितता दैनिक/साप्ताहिक पार्सिंग केवल एक बार के कार्य
कार्यान्वयन की गति स्थिर — पुनरावृत्तियों पर कोई देरी नहीं अनिश्चित — बहुत सी पुनरावृत्तियाँ
विश्वसनीयता उच्च — 90-95% सफलता कम — 10-30% सफलता
गलती की लागत कम — केवल सफल ट्रैफ़िक के लिए भुगतान करें उच्च — बैन पर समय और पैसे की बर्बादी

निष्कर्ष: Walmart के किसी भी गंभीर पार्सिंग कार्य के लिए रिज़िडेंशियल या मोबाइल प्रॉक्सी का उपयोग करें। डेटा सेंटर प्रॉक्सी केवल 10-50 पृष्ठों पर पार्सर की लॉजिक का परीक्षण करने के लिए विचार की जा सकती हैं, लेकिन उत्पादन के लिए नहीं। प्रॉक्सी पर बचत समय, तनाव की बर्बादी और अंततः अधिक महंगी पड़ेगी।

IP रोटेशन रणनीतियाँ: परिवर्तन की आवृत्ति और पते के पूल

यहां तक कि रिज़िडेंशियल प्रॉक्सी के साथ भी आपको ब्लॉक मिल सकता है, यदि आप IP पते के रोटेशन को सही तरीके से सेट नहीं करते हैं। PerimeterX व्यवहार के पैटर्न को ट्रैक करता है: यदि एक IP एक मिनट में 100 उत्पाद पृष्ठों का अनुरोध करता है — तो यह स्पष्ट रूप से एक बॉट है। सही रोटेशन रणनीति — बिना ब्लॉकों के स्थिर पार्सिंग की कुंजी है।

तीन मुख्य रोटेशन रणनीतियाँ:

1. प्रत्येक अनुरोध पर रोटेशन (Rotating Proxies)

प्रत्येक HTTP अनुरोध एक नए IP पते के माध्यम से जाता है। यह अधिकांश रिज़िडेंशियल प्रॉक्सी प्रदाताओं का मानक संचालन मोड है।

फायदे:

  • ब्लॉक का न्यूनतम जोखिम — प्रत्येक IP 1-2 अनुरोध करता है
  • सरल सेटअप — प्रदाता स्वयं पूल का प्रबंधन करता है
  • आप आक्रामक रूप से पार्स कर सकते हैं — प्रति मिनट सैकड़ों अनुरोध

नुकसान:

  • सत्रों के साथ समस्याएँ — यदि साइट कुकीज़ का उपयोग करती है, तो प्रत्येक अनुरोध = नया सत्र
  • धीमा — नए कनेक्शन को स्थापित करने में 200-500 मि.से लगते हैं

कब उपयोग करें: Walmart के उत्पाद पृष्ठों को पार्स करने के लिए, जहां प्रमाणीकरण और सत्र की आवश्यकता नहीं है। यह अधिकांश मूल्य निगरानी कार्यों के लिए एक आदर्श रणनीति है।

2. स्टिकी सत्र (Sticky Sessions)

एक IP पता एक निश्चित समय (आमतौर पर 5-30 मिनट) के लिए कई अनुरोधों के लिए उपयोग किया जाता है, फिर नए IP पर स्विच किया जाता है।

फायदे:

  • सत्रों और कुकीज़ को बनाए रखना — आप कार्ट, प्रमाणीकरण के साथ काम कर सकते हैं
  • तेज़ — TCP कनेक्शन का पुन: उपयोग किया जाता है
  • एंटी-बॉट सिस्टम के लिए अधिक "स्वाभाविक" व्यवहार

नुकसान:

  • ब्लॉक होने का जोखिम अधिक है — एक IP 10-50 अनुरोध करता है
  • सीमाओं को नियंत्रित करना आवश्यक है — एक IP से 30-50 अनुरोध से अधिक नहीं

कब उपयोग करें: यदि आपको प्रमाणीकरण की आवश्यकता वाले डेटा को पार्स करना है (जैसे, पंजीकृत उपयोगकर्ताओं के लिए कीमतें), या यदि आप वास्तविक खरीदार के व्यवहार की नकल कर रहे हैं (श्रेणी → उत्पाद → कार्ट में जोड़ना)।

3. स्थिर IP का पूल मैनुअल रोटेशन के साथ

आप 50-100 स्थिर रिज़िडेंशियल IP (ISP प्रॉक्सी) लेते हैं और स्वयं उनके बीच अनुरोधों का वितरण प्रबंधित करते हैं।

फायदे:

  • पूर्ण नियंत्रण — आप जानते हैं कि कौन सा IP कितने अनुरोध कर चुका है
  • अधिकतम गति — स्थिर IP रोटेटिंग से तेज़ होते हैं
  • आप IP को "गर्म" कर सकते हैं — प्रतिष्ठा बढ़ाने के लिए वैध अनुरोध कर सकते हैं

नुकसान:

  • जटिल सेटअप — अनुरोधों के वितरण की लॉजिक लिखनी होगी
  • महंगा — ISP प्रॉक्सी की लागत $30-80 प्रति IP प्रति माह होती है
  • IP खोने का जोखिम — यदि एक बैन हो जाता है, तो उसे बदलना पड़ेगा

कब उपयोग करें: उच्च लोड वाली प्रणालियों के लिए जिनमें 100,000+ अनुरोध प्रति दिन होते हैं, जहां गति और स्थिरता महत्वपूर्ण होती है। यह पार्सर विकसित करने में अनुभव की आवश्यकता होती है।

Walmart के लिए अनुशंसित सेटिंग्स:

कीमतों की निगरानी के लिए (उत्पाद पृष्ठों का सरल पार्सिंग):

  • प्रकार: प्रत्येक अनुरोध पर रोटेशन के साथ रोटेटिंग प्रॉक्सी
  • अनुरोधों के बीच देरी: 2-5 सेकंड
  • समानांतरता: 10-20 थ्रेड्स
  • भौगोलिक स्थान: अमेरिका (वांछित है कि Walmart के भौतिक स्टोर हों)

कठिन पार्सिंग के लिए (प्रमाणीकरण, कार्ट के साथ):

  • प्रकार: 10-15 मिनट की अवधि के साथ स्टिकी सत्र
  • IP पर अनुरोधों की सीमा: अधिकतम 30-40
  • अनुरोधों के बीच देरी: 3-7 सेकंड (मनुष्य की नकल)
  • समानांतरता: 5-10 थ्रेड्स (कम आक्रामकता)

महत्वपूर्ण: कई रिज़िडेंशियल प्रॉक्सी प्रदाता आपको कनेक्शन पैरामीटर के माध्यम से सत्र की अवधि सेट करने की अनुमति देते हैं। उदाहरण के लिए, यदि आप session-15min को उपयोगकर्ता नाम में जोड़ते हैं, तो आपको 15 मिनट के लिए स्टिकी सत्र मिलेगा। अपने प्रदाता से इस सुविधा की पुष्टि करें।

फिंगरप्रिंटिंग को बायपास करना: User-Agent, हेडर और TLS फिंगरप्रिंट

प्रॉक्सी केवल समस्या का आधा समाधान करती हैं — वे आपको एक साफ IP देती हैं। लेकिन PerimeterX केवल IP का विश्लेषण नहीं करता है, बल्कि आपके ब्राउज़र या पार्सर के "फिंगरप्रिंट" का भी विश्लेषण करता है। यहां तक कि यदि आपके पास रिज़िडेंशियल IP है, तो यदि आपका HTTP क्लाइंट एक बॉट की तरह दिखता है, तो आपको ब्लॉक मिल जाएगा।

PerimeterX क्या जांचता है:

1. User-Agent और HTTP हेडर

मानक पुस्तकालय (Python requests, Node.js axios) हेडर भेजते हैं, जो तुरंत बॉट को उजागर करते हैं। उदाहरण के लिए, User-Agent: python-requests/2.28.1 — यह 100% ब्लॉक है।

क्या बदलना है:

  • User-Agent — नवीनतम Chrome/Firefox संस्करणों का उपयोग करें
  • Accept — सामग्री के प्रकार के अनुसार होना चाहिए
  • Accept-Language — Walmart अमेरिका के लिए en-US
  • Accept-Encoding — gzip, deflate, br
  • Referer — पिछले पृष्ठ (श्रेणी या मुख्य)
  • Sec-Fetch-* — CSRF सुरक्षा के लिए Chrome के हेडर

2. TLS फिंगरप्रिंट (JA3)

प्रत्येक HTTP क्लाइंट का एक अद्वितीय TLS फिंगरप्रिंट होता है — साइफर का क्रम, TLS एक्सटेंशन, प्रोटोकॉल का संस्करण। PerimeterX इस फिंगरप्रिंट की तुलना User-Agent से करता है: यदि आप "Chrome 120" लिखते हैं, जबकि TLS फिंगरप्रिंट Python से है — तो आप ब्लॉक हो जाते हैं।

समाधान:

  • कस्टम TLS का समर्थन करने वाले पुस्तकालयों का उपयोग करें: curl-impersonate (Python), tls-client (Go)
  • या Selenium/Puppeteer के माध्यम से वास्तविक ब्राउज़र का उपयोग करें — उनके पास वास्तविक TLS फिंगरप्रिंट होता है

3. JavaScript चुनौतियाँ और कैनवास फिंगरप्रिंटिंग

PerimeterX JavaScript कोड भेज सकता है, जो जांचता है: क्या Canvas API, WebGL उपलब्ध है, कौन से फ़ॉन्ट स्थापित हैं, स्क्रीन का आकार, टाइमज़ोन। साधारण HTTP पार्सर इस कोड को निष्पादित नहीं कर सकते।

समाधान:

  • हेडलेस ब्राउज़रों का उपयोग करें: Puppeteer, Playwright, Selenium
  • डिटेक्शन बायपास मोड सक्षम करना न भूलें: puppeteer-extra-plugin-stealth
  • पैरामीटर को यादृच्छिक बनाएं: विंडो का आकार, टाइमज़ोन, ब्राउज़र की भाषा

Walmart के पार्सिंग के लिए सही हेडरों का उदाहरण:

GET /ip/Product-Name/12345678 HTTP/1.1
Host: www.walmart.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Referer: https://www.walmart.com/browse/electronics/tv-video/3944_1060825
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: same-origin
Sec-Fetch-User: ?1
Upgrade-Insecure-Requests: 1
Connection: keep-alive

महत्वपूर्ण विवरण:

  • हेडरों का क्रम महत्वपूर्ण है — वास्तविक ब्राउज़र उन्हें एक निश्चित क्रम में भेजते हैं। उन पुस्तकालयों का उपयोग करें जो इस क्रम का पालन करते हैं।
  • कुकीज़ — यदि PerimeterX ने कुकी _px3 या _pxvid सेट की है, तो सुनिश्चित करें कि आप इसे अगले अनुरोधों में भेजें। यह आपकी सत्र का टोकन है।
  • HTTP/2 — Walmart HTTP/2 का उपयोग करता है, और इस प्रोटोकॉल का समर्थन न होना बॉट का संकेत हो सकता है। सुनिश्चित करें कि आपका क्लाइंट HTTP/2 का समर्थन करता है।
  • सभी अनुरोधों के लिए समान हेडर का उपयोग न करें — User-Agent को विविध बनाएं, 10-20 विभिन्न ब्राउज़र संस्करणों का पूल उपयोग करें।

रेट लिमिटिंग और देरी: अनुरोधों की सीमाओं को कैसे न बढ़ाएं

यहां तक कि आदर्श प्रॉक्सी और हेडरों के साथ भी, यदि आप बहुत आक्रामक रूप से पार्स करते हैं तो आपको ब्लॉक मिल सकता है। Walmart अनुरोधों की आवृत्ति और व्यवहार के पैटर्न को ट्रैक करता है। एक वास्तविक उपयोगकर्ता एक मिनट में 100 उत्पाद पृष्ठ नहीं खोल सकता — एंटी-बॉट सिस्टम इसे समझता है।

Walmart के लिए अनुशंसित सीमाएँ:

अनुरोध का प्रकार अनुरोधों के बीच देरी एक IP से अधिकतम अनुरोध समानांतरता
उत्पाद पृष्ठ 2-5 सेकंड 30-50 पृष्ठ (रोटेटिंग के साथ) 10-20 थ्रेड्स
श्रेणी पृष्ठ 3-7 सेकंड 20-30 पृष्ठ 5-10 थ्रेड्स
खोज 5-10 सेकंड 10-15 अनुरोध 3-5 थ्रेड्स
API एंडपॉइंट्स 1-3 सेकंड 50-100 अनुरोध 20-30 थ्रेड्स

क्यों देरी का यादृच्छिककरण महत्वपूर्ण है:

यदि आप हर 3 सेकंड में ठीक अनुरोध करते हैं (3.000, 6.000, 9.000...), तो एंटी-बॉट सिस्टम पैटर्न को पहचान लेगा। एक वास्तविक व्यक्ति इतनी सटीकता से नहीं हो सकता — उसके पास भिन्नताएँ होंगी: 2.8 सेकंड, 3.4 सेकंड, 2.9 सेकंड।

देरी का सही कार्यान्वयन (Python):

import random
import time

# गलत — निश्चित देरी
time.sleep(3)

# सही — यादृच्छिक देरी
delay = random.uniform(2.0, 5.0)  # 2 से 5 सेकंड
time.sleep(delay)

लोड प्रबंधन की रणनीतियाँ:

1. अनुकूलन रेट लिमिटिंग

सफल अनुरोधों के प्रतिशत को ट्रैक करें। यदि आप 403 या CAPTCHA प्राप्त करना शुरू करते हैं — तो स्वचालित रूप से देरी बढ़ाएं और समानांतरता कम करें।

success_rate = successful_requests / total_requests

if success_rate < 0.8:  # 80% से कम सफल
    delay_multiplier *= 1.5  # देरी बढ़ाएं
    parallel_workers -= 2    # थ्रेड्स कम करें
elif success_rate > 0.95:  # 95% से अधिक सफल
    delay_multiplier *= 0.9  # गति बढ़ा सकते हैं
    parallel_workers += 1

2. दिन के समय के अनुसार वितरण

वास्तविक उपयोगकर्ताओं की पीक गतिविधि के घंटों (अमेरिका में शाम, 18:00-22:00 EST) में पार्स करें। इस समय आपका ट्रैफ़िक वैध के साथ मिश्रित होता है, और एंटी-बॉट सिस्टम कम आक्रामक होता है। रात में (2:00-6:00 EST) सुरक्षा अधिक सख्त हो सकती है, क्योंकि वास्तविक उपयोगकर्ता कम होते हैं।

3. IP पते को गर्म करना

बड़े पैमाने पर पार्सिंग शुरू करने से पहले, IP पते को वैध अनुरोधों के साथ "गर्म" करें: मुख्य पृष्ठ, कुछ श्रेणियाँ खोलें, खोज करें। यह गतिविधि का इतिहास बनाता है और IP की ट्रस्ट स्कोर बढ़ाता है।

# नए IP के लिए गर्म करने की प्रक्रिया
1. GET https://www.walmart.com/  # मुख्य पृष्ठ
2. देरी 3-5 सेकंड
3. GET https://www.walmart.com/browse/electronics  # श्रेणी
4. देरी 4-7 सेकंड
5. GET https://www.walmart.com/search?q=laptop  # खोज
6. देरी 3-6 सेकंड
# अब लक्षित उत्पादों को पार्स कर सकते हैं

महत्वपूर्ण गलती: सभी अनुरोधों के लिए एक ही Referer का उपयोग न करें। यदि आप 1000 उत्पादों को पार्स कर रहे हैं और सभी के हेडर में एक समान Referer है — तो यह बॉट का स्पष्ट पैटर्न है।

```