Back to Blog

अलीएक्सप्रेस के लिए प्रॉक्सी: बिना ब्लॉक के उत्पाद डेटा कैसे इकट्ठा करें

हम समझते हैं कि कैसे प्रॉक्सी के माध्यम से AliExpress कैटलॉग का सुरक्षित पार्सिंग सेटअप करें: किस प्रकार के IP का उपयोग करें, ब्लॉक से कैसे बचें और उत्पादों और कीमतों के डेटा संग्रह को स्वचालित करें।

📅January 23, 2026
```html

AliExpress सक्रिय रूप से स्वचालित डेटा संग्रह के खिलाफ लड़ाई कर रहा है - पार्सर्स को कैप्चा, IP पर अस्थायी बैन और प्रमाणीकरण की आवश्यकताएँ मिलती हैं। यदि आप प्रतिस्पर्धियों की कीमतों की निगरानी कर रहे हैं, ड्रॉपशिपिंग के लिए ट्रेंडिंग उत्पादों की तलाश कर रहे हैं या मार्केटप्लेस के लिए डेटा संग्रह कर रहे हैं, तो सही तरीके से सेट की गई प्रॉक्सी के बिना काम करना निरंतर ब्लॉक के साथ एक लड़ाई में बदल जाता है।

इस मार्गदर्शिका में, हम समझेंगे कि कैसे AliExpress के लिए प्रॉक्सी का चयन करें, IP पते का रोटेशन सेट करें, एंटी-बॉट सिस्टम को बायपास करें और बिना बैन में फंसने के जोखिम के बिना उत्पादों, कीमतों और समीक्षाओं के डेटा संग्रह को स्वचालित करें।

क्यों AliExpress पार्सिंग को ब्लॉक करता है और यह कैसे काम करता है

AliExpress स्वचालित डेटा संग्रह के खिलाफ एक बहुस्तरीय सुरक्षा प्रणाली का उपयोग करता है। जब प्रतिस्पर्धी बड़े पैमाने पर कैटलॉग की नकल करते हैं, तो प्लेटफ़ॉर्म पैसे खोता है, और सर्वर बॉट्स से ओवरलोड हो जाते हैं। इसलिए सुरक्षा लगातार सुधार की जा रही है और अधिक आक्रामक होती जा रही है।

पार्सर्स का पता लगाने के मुख्य तरीके:

  • एक IP से अनुरोधों की आवृत्ति - यदि एक मिनट में 50+ अनुरोध एक ही पते से आते हैं, तो प्रणाली स्वचालित रूप से कैप्चा दिखाती है या IP को 30-60 मिनट के लिए अस्थायी रूप से ब्लॉक कर देती है।
  • व्यवहार का विश्लेषण - बॉट्स पृष्ठों को बहुत तेजी से (0.5-1 सेकंड) खोलते हैं, माउस नहीं हिलाते, स्क्रॉल नहीं करते, और इंटरफ़ेस के तत्वों पर क्लिक नहीं करते हैं।
  • कुकीज़ की अनुपस्थिति - सामान्य उपयोगकर्ता साइट पर जाने पर कुकीज़ जमा करते हैं, जबकि पार्सर्स अक्सर एक साफ सत्र के साथ काम करते हैं।
  • संदिग्ध User-Agent - पुराने ब्राउज़र संस्करण, सर्वर-साइड पुस्तकालय (Python-requests, curl), सांख्यिकी में मोबाइल उपकरणों की अनुपस्थिति।
  • ब्राउज़र का फिंगरप्रिंट - AliExpress फिंगरप्रिंट एकत्र करता है: स्क्रीन का रिज़ॉल्यूशन, समय क्षेत्र, स्थापित फ़ॉन्ट, WebGL, Canvas। विभिन्न IP से समान फिंगरप्रिंट - बॉट का संकेत।

जब प्रणाली संदिग्ध गतिविधि का पता लगाती है, तो यह ब्लॉकों के ग्रेडेशन को लागू करती है: पहले कैप्चा दिखाती है, फिर 1-2 घंटे के लिए IP पर अस्थायी बैन, पुनरावृत्ति के मामलों में - 24 घंटे या स्थायी बैन।

महत्वपूर्ण: AliExpress Cloudflare और अपनी एंटी-बॉट प्रणाली का उपयोग करता है। वे केवल IP का विश्लेषण नहीं करते, बल्कि TLS-फिंगरप्रिंट (प्रोटोकॉल का संस्करण, एन्क्रिप्शन का क्रम) का भी विश्लेषण करते हैं - यहां तक कि प्रॉक्सी के साथ भी बैन में फंस सकते हैं यदि पुराने HTTP क्लाइंट का उपयोग किया जाए।

कौन से प्रकार की प्रॉक्सी AliExpress के लिए पार्सिंग के लिए उपयुक्त हैं

प्रॉक्सी के प्रकार का चयन पार्सिंग के मात्रा, बजट और डेटा की गुणवत्ता की आवश्यकताओं पर निर्भर करता है। हम प्रत्येक प्रकार को वास्तविक उपयोग के परिदृश्यों के साथ समझेंगे।

प्रॉक्सी का प्रकार गति ब्लॉक होने का जोखिम कब उपयोग करें
डेटा सेंटर प्रॉक्सी उच्च (50-150 मि.सेक) उच्च सार्वजनिक डेटा के तेज़ पार्सिंग के लिए बार-बार IP का रोटेशन
रिज़िडेंट प्रॉक्सी मध्यम (200-500 मि.सेक) कम दीर्घकालिक पार्सिंग, प्रमाणीकरण के साथ डेटा संग्रह
मोबाइल प्रॉक्सी मध्यम (300-700 मि.सेक) बहुत कम मोबाइल संस्करण से पार्सिंग, कठोर ब्लॉकों को बायपास करना

डेटा सेंटर प्रॉक्सी तेज़ पार्सिंग के लिए

जब बड़ी मात्रा में डेटा को तेजी से एकत्रित करने की आवश्यकता होती है: 10000+ उत्पादों की कीमतें, श्रेणियों की विशेषताएँ, विक्रेताओं की सूची। प्रतिक्रिया की गति 50-150 मि.सेक आपको एक IP से 5-10 अनुरोध करने की अनुमति देती है।

उपयोग का परिदृश्य: आपके पास Shopify पर एक ड्रॉपशिपिंग स्टोर है, आपको हर दिन AliExpress से 5000 उत्पादों की कीमतें अपडेट करने की आवश्यकता है। आप 50-100 डेटा सेंटर IP का एक पूल खरीदते हैं, जो हर 10-15 अनुरोधों में रोटेट होते हैं। 2-3 घंटे में सभी डेटा एकत्र करते हैं, प्रॉक्सी पर खर्च - 50-100$ प्रति माह।

नुकसान: AliExpress डेटा सेंटर IP की रेंज को जानता है और उन्हें संदिग्ध मानता है। आक्रामक रोटेशन की आवश्यकता होती है (हर 5-10 अनुरोधों में IP बदलना) और व्यवहार का अनुकरण (अनुरोधों के बीच 2-5 सेकंड की यादृच्छिक देरी)।

रिज़िडेंट प्रॉक्सी स्थिर पार्सिंग के लिए

रिज़िडेंट प्रॉक्सी में वास्तविक घरेलू उपयोगकर्ताओं के IP होते हैं - प्रदाता इन्हें भौतिक व्यक्तियों को प्रदान करते हैं। AliExpress इस प्रकार की प्रॉक्सी के माध्यम से किए गए अनुरोध को सामान्य खरीदार के अनुरोध से भेद नहीं कर सकता। यह डेटा सेंटर की तुलना में ब्लॉकों के जोखिम को 5-10 गुना कम करता है।

उपयोग का परिदृश्य: आप अपने Ozon स्टोर के लिए प्रतिस्पर्धियों की कीमतों की निगरानी कर रहे हैं। आपको हर दिन 200-300 उत्पादों की जांच करने की आवश्यकता है, AliExpress और रूसी आपूर्तिकर्ताओं की कीमतों की तुलना करनी है। आप 10-20 रिज़िडेंट IP का उपयोग करते हैं, जो हर 50-100 अनुरोधों में रोटेट होते हैं। पार्सिंग में 30-40 मिनट लगते हैं, महीनों तक कोई ब्लॉक नहीं।

फायदे: आप एक IP से अधिक समय तक काम कर सकते हैं (100-200 अनुरोध 10-20 के बजाय), कम कैप्चा, प्रमाणीकरण और विक्रेता के व्यक्तिगत खाते के साथ काम करने की संभावना।

मोबाइल प्रॉक्सी कठोर ब्लॉकों को बायपास करने के लिए

मोबाइल IP (3G/4G/5G ऑपरेटरों) को अधिकतम विश्वास प्राप्त होता है - AliExpress मोबाइल ऑपरेटरों के पूरे सबनेट को ब्लॉक नहीं कर सकता, इससे लाखों वास्तविक खरीदारों को ब्लॉक कर दिया जाएगा। एक मोबाइल IP सैकड़ों उपकरणों (NAT) द्वारा साझा किया जा सकता है, इसलिए यहां तक कि आक्रामक पार्सिंग भी विभिन्न उपयोगकर्ताओं की गतिविधि के रूप में दिखाई देती है।

उपयोग का परिदृश्य: आप पहले से ही एक निश्चित क्षेत्र में रिज़िडेंट IP पर बैन हो चुके हैं, आपको ग्राहक के लिए रिपोर्ट के लिए डेटा तुरंत एकत्र करने की आवश्यकता है। आप 2-3 मोबाइल प्रॉक्सी लेते हैं, मोबाइल साइट (m.aliexpress.com) के माध्यम से पार्स करते हैं। यहां तक कि आक्रामक पार्सिंग (1 अनुरोध प्रति सेकंड) के साथ भी कोई ब्लॉक नहीं हैं।

नुकसान: रिज़िडेंट प्रॉक्सी की तुलना में 2-3 गुना महंगा, कम गति (300-700 मि.सेक की देरी), IP ऑपरेटर के पुन: कनेक्ट करने पर बदल सकता है।

IP का रोटेशन सेट करना: परिवर्तन की आवृत्ति और टाइमआउट

सही IP रोटेशन - बिना ब्लॉकों के दीर्घकालिक पार्सिंग की कुंजी है। बहुत बार परिवर्तन संदिग्ध लगता है और प्रॉक्सी को बर्बाद करता है, बहुत कम - बैन का कारण बनता है।

प्रॉक्सी के प्रकार के अनुसार अनुशंसित रोटेशन की आवृत्ति

प्रॉक्सी का प्रकार 1 IP पर अनुरोध अनुरोधों के बीच देरी सत्र का जीवनकाल
डेटा सेंटर 5-15 अनुरोध 2-5 सेकंड 1-3 मिनट
रिज़िडेंट 50-150 अनुरोध 3-8 सेकंड 10-30 मिनट
मोबाइल 100-300 अनुरोध 1-3 सेकंड 30-60 मिनट

विभिन्न कार्यों के लिए रोटेशन रणनीतियाँ

1. कैटलॉग की तेज़ पार्सिंग (1 घंटे में 10000+ उत्पाद)

  • 100-200 डेटा सेंटर IP का पूल उपयोग करें
  • हर 5-10 अनुरोधों में रोटेशन
  • समानांतर धाराएँ: विभिन्न IP से 10-20 समानांतर अनुरोध
  • अनुरोधों के बीच देरी: 1-2 सेकंड (तेज़ उपयोगकर्ता का अनुकरण)
  • यदि IP पर कैप्चा प्राप्त होता है - इसे 2-3 घंटे के लिए पूल से बाहर करें

2. दैनिक कीमतों की निगरानी (500-1000 उत्पाद)

  • 10-20 रिज़िडेंट IP का उपयोग करें
  • हर 50-100 अनुरोधों में रोटेशन
  • अनुरोधों के बीच 3-5 सेकंड की देरी
  • एक ही IP से अनुरोधों के बीच कुकीज़ को सहेजें
  • व्यवहार का अनुकरण करें: कभी-कभी मुख्य पृष्ठ, श्रेणियाँ खोलें

3. प्रमाणीकरण के साथ पार्सिंग (विक्रेता का व्यक्तिगत खाता)

  • प्रत्येक खाते के लिए एक रिज़िडेंट या मोबाइल IP
  • सत्र के दौरान रोटेशन नहीं (30-60 मिनट)
  • अनुरोधों के बीच 5-10 सेकंड की देरी
  • ब्राउज़र का पूर्ण अनुकरण: कुकीज़, localStorage, फिंगरप्रिंट को सहेजना

सलाह: देरी में यादृच्छिकता जोड़ें। निश्चित 3 सेकंड के बजाय 2-5 सेकंड की सीमा का उपयोग करें। यह अनुरोधों के पैटर्न को एंटी-बॉट सिस्टम के लिए कम पूर्वानुमानित बनाता है।

एंटी-बॉट सिस्टम को बायपास करना: User-Agent, कुकीज़ और फिंगरप्रिंट

IP बदलना केवल समस्या का एक हिस्सा हल करता है। AliExpress अनुरोधों और व्यवहार के दर्जनों पैरामीटर का विश्लेषण करता है ताकि बॉट को मानव से अलग किया जा सके। हम समझेंगे कि प्रॉक्सी के अलावा क्या सेट करना आवश्यक है।

User-Agent और HTTP-हेडर

User-Agent सर्वर को बताता है कि कौन सा ब्राउज़र और ऑपरेटिंग सिस्टम अनुरोध कर रहा है। पार्सर्स अक्सर पुस्तकालयों के डिफ़ॉल्ट मान (Python-requests/2.28.0) का उपयोग करते हैं, जिन्हें तुरंत पहचाना जा सकता है।

User-Agent का सही सेटअप:

  • लोकप्रिय ब्राउज़रों के वर्तमान संस्करणों का उपयोग करें: Chrome 120+, Firefox 121+, Safari 17+
  • IP के रोटेशन के दौरान User-Agent बदलें - एक IP को विभिन्न ब्राउज़रों को नहीं दिखाना चाहिए
  • मोबाइल User-Agent को 40-50% के अनुपात में जोड़ें (AliExpress का आधा ट्रैफ़िक मोबाइल उपकरण है)
  • वास्तविक ब्राउज़र से पूर्ण सेट हेडर कॉपी करें: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests

डेस्कटॉप के लिए सही हेडर का उदाहरण:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1

मोबाइल उपकरण के लिए उदाहरण:

User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br

कुकीज़ और सत्रों के साथ काम करना

AliExpress पहले दौरे पर कुकीज़ स्थापित करता है: सत्र पहचानकर्ता, भाषा और मुद्रा सेटिंग्स, ट्रैकिंग के लिए टोकन। बिना कुकीज़ के पार्सर्स संदिग्ध लगते हैं - सामान्य उपयोगकर्ता साइट पर नेविगेट करते समय उन्हें जमा करते हैं।

कुकीज़ के साथ सही काम:

  • पार्सिंग से पहले मुख्य पृष्ठ खोलें और सभी कुकीज़ सहेजें
  • उसी IP से सभी बाद के अनुरोधों के लिए इन कुकीज़ का उपयोग करें
  • IP बदलने पर - नई कुकीज़ के साथ नया सत्र शुरू करें
  • पार्सर के लॉन्च के बीच कुकीज़ को सहेजें - यह एक लौटने वाले उपयोगकर्ता का अनुकरण करता है
  • हर 1-2 घंटे में कुकीज़ को अपडेट करें (मुख्य पृष्ठ को फिर से खोलें)

ब्राउज़र फिंगरप्रिंट और TLS-फिंगरप्रिंट

आधुनिक एंटी-बॉट सिस्टम ब्राउज़र का डिजिटल फिंगरप्रिंट एकत्र करते हैं - पैरामीटर के दशकों का संयोजन, जो डिवाइस की अद्वितीय पहचान करता है। यहां तक कि विभिन्न IP से समान फिंगरप्रिंट बॉट को प्रकट करता है।

ब्राउज़र फिंगरप्रिंट में क्या शामिल है:

  • स्क्रीन का रिज़ॉल्यूशन और रंग की गहराई
  • समय क्षेत्र और सिस्टम की भाषा
  • स्थापित फ़ॉन्ट की सूची
  • WebGL और Canvas फिंगरप्रिंट (ग्राफिक्स को रेंडर करने का अद्वितीय तरीका)
  • ऑडियो-कॉन्टेक्स्ट (AudioContext फिंगरप्रिंट)
  • ब्राउज़र के प्लगइन्स की सूची
  • WebRTC, Battery API और अन्य आधुनिक API का समर्थन

सरल HTTP पुस्तकालय (requests, axios, curl) इन पैरामीटर को नहीं रखते हैं - वे प्रोटोकॉल स्तर पर काम करते हैं बिना रेंडरिंग के। गंभीर पार्सिंग के लिए पूर्ण ब्राउज़र के साथ उपकरणों की आवश्यकता होती है।

ब्राउज़र अनुकरण के लिए समाधान:

  • Selenium + undetected-chromedriver - वास्तविक Chrome को चलाता है जिसमें डिटेक्शन को बायपास करने के लिए संशोधन होते हैं।
  • Puppeteer + puppeteer-extra-plugin-stealth - Node.js पुस्तकालय जिसमें स्वचालन को छिपाने के लिए प्लगइन्स होते हैं।
  • Playwright - Selenium का आधुनिक विकल्प जिसमें बेहतर प्रदर्शन होता है।
  • एंटी-डिटेक्ट ब्राउज़र - Dolphin Anty, AdsPower, Multilogin (इंटरफेस के माध्यम से काम करने के लिए)।

महत्वपूर्ण: TLS-फिंगरप्रिंट (SSL कनेक्शन का फिंगरप्रिंट) का भी विश्लेषण किया जाता है। पुराने Python और Node.js संस्करण पुराने एन्क्रिप्शन सेट का उपयोग करते हैं, जो बॉट को प्रकट करते हैं। आधुनिक ब्राउज़रों का अनुकरण करने के लिए पुस्तकालयों के वर्तमान संस्करणों या curl_cffi का उपयोग करें।

AliExpress के लिए तैयार पार्सिंग उपकरण

शून्य से पार्सर लिखना केवल विशिष्ट कार्यों के लिए समझ में आता है। डेटा संग्रह (उत्पाद, कीमतें, समीक्षाएँ) के लिए तैयार समाधान हैं जो विकास के हफ्तों को बचाते हैं।

API के साथ व्यावसायिक सेवाएँ

1. ScraperAPI (scrape.do, scrapingbee.com)

क्लाउड सेवाएँ, जो प्रॉक्सी और सुरक्षा को बायपास करने का सारा काम संभालती हैं। आप उन्हें AliExpress के उत्पाद का URL भेजते हैं, वे आपको डेटा के साथ HTML या JSON लौटाते हैं।

  • फायदे: अपनी प्रॉक्सी की आवश्यकता नहीं, कैप्चा का स्वचालित बायपास, लोकप्रिय साइटों के लिए तैयार पार्सर्स।
  • नुकसान: बड़े वॉल्यूम में महंगा (100K अनुरोधों के लिए 50$ से शुरू), तीसरे पक्ष की सेवा पर निर्भरता।
  • कब उपयोग करें: एक बार के कार्य, प्रोटोटाइपिंग, छोटे वॉल्यूम (10K उत्पादों तक प्रति माह)।

2. Bright Data (luminati.io)

प्रॉक्सी का सबसे बड़ा प्रदाता जो पार्सिंग के लिए अपने उपकरण प्रदान करता है। वे केवल प्रॉक्सी नहीं, बल्कि AliExpress के साथ तैयार डेटा सेट (अपडेटेड उत्पाद डेटाबेस) भी प्रदान करते हैं।

  • फायदे: विशाल IP पूल (72+ मिलियन रिज़िडेंट), एंटरप्राइज ग्राहकों के लिए बुनियादी ढाँचा।
  • नुकसान: बहुत महंगा (500$ प्रति माह से शुरू), जटिल टैरिफ।
  • कब उपयोग करें: बड़े व्यवसायों के लिए बजट के साथ, बड़े वॉल्यूम की निरंतर पार्सिंग।

ओपन-सोर्स समाधान

1. Scrapy + scrapy-rotating-proxies

Python में पार्सिंग के लिए लोकप्रिय फ्रेमवर्क। यह असिंक्रोनस अनुरोधों, स्वचालित प्रॉक्सी रोटेशन, CSV/JSON/डेटाबेस में निर्यात का समर्थन करता है।

Scrapy में प्रॉक्सी सेटअप का उदाहरण:

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:pass@proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'http://user:pass@proxy3.example.com:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

# बैन को बायपास करने के लिए सेटिंग्स
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300  # प्रॉक्सी पर बैन का समय सेकंड में

2. Puppeteer + puppeteer-extra-plugin-stealth

आक्रामक सुरक्षा वाले साइटों (जैसे AliExpress) के लिए पूर्ण ब्राउज़र की आवश्यकता होती है। Puppeteer DevTools प्रोटोकॉल के माध्यम से Chrome को नियंत्रित करता है, स्टील्थ प्लगइन स्वचालन के संकेतों को छिपाता है।

// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8000',
      '--no-sandbox',
      '--disable-setuid-sandbox'
    ]
  });

  const page = await browser.newPage();
  
  // प्रॉक्सी का प्रमाणीकरण
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });

  // यथार्थवादी व्यू पोर्ट सेट करना
  await page.setViewport({
    width: 1920,
    height: 1080,
    deviceScaleFactor: 1
  });

  // उत्पाद की पार्सिंग
  await page.goto('https://www.aliexpress.com/item/1234567890.html', {
    waitUntil: 'networkidle2'
  });

  const productData = await page.evaluate(() => {
    return {
      title: document.querySelector('.product-title-text')?.innerText,
      price: document.querySelector('.product-price-value')?.innerText,
      rating: document.querySelector('.overview-rating-average')?.innerText
    };
  });

  console.log(productData);
  await browser.close();
})();

गैर-तकनीकी उपयोगकर्ताओं के लिए डेस्कटॉप एप्लिकेशन

1. Octoparse

कोड के बिना एक दृश्य पार्सर - आप पृष्ठ के तत्वों पर क्लिक करते हैं, प्रोग्राम संरचना को याद करता है और डेटा एकत्र करता है। अंतर्निहित प्रॉक्सी समर्थन और कार्यों की योजना।

  • फायदे: प्रोग्रामिंग की आवश्यकता नहीं, गतिशील सामग्री के साथ काम करता है, बैकग्राउंड कार्य के लिए क्लाउड संस्करण।
  • नुकसान: मुफ्त संस्करण में सीमाएँ (10K पंक्तियाँ प्रति माह), कभी-कभी जटिल सुरक्षा से निपटने में असमर्थ।
  • कीमत: Standard योजना के लिए 75$ से शुरू।

2. ParseHub

Octoparse का समकक्ष एक सरल इंटरफेस के साथ। यह लोकप्रिय साइटों के लिए अंतर्निहित टेम्पलेट्स के कारण AliExpress के साथ अच्छी तरह से काम करता है।

  • फायदे: 200 पृष्ठों के लिए मुफ्त योजना, प्रॉक्सी सेटअप सरल।
  • नुकसान: मुफ्त संस्करण में धीमी गति, उन्नत सुविधाओं की कमी (API, वेबहुक)।

जियो-टार्गेटिंग: विभिन्न देशों के लिए कीमतों को कैसे पार्स करें

AliExpress विभिन्न देशों के उपयोगकर्ताओं के लिए अलग-अलग कीमतें, चयन और डिलीवरी की शर्तें दिखाता है। यदि आप अंतरराष्ट्रीय ड्रॉपशिपिंग के साथ काम कर रहे हैं या विभिन्न बाजारों के लिए कीमतों की तुलना कर रहे हैं, तो आपको विशिष्ट क्षेत्रों से प्रॉक्सी की आवश्यकता है।

AliExpress उपयोगकर्ता के देश को कैसे निर्धारित करता है

प्लेटफ़ॉर्म कई डेटा स्रोतों का उपयोग करता है:

  • IP-पता - मुख्य तरीका, IP की भू-स्थान के अनुसार देश निर्धारित करता है।
  • कुकीज़ - aep_usuc_f में चयनित देश को सहेजता है (इसे बदल सकते हैं)।
  • Accept-Language हेडर - ब्राउज़र की भाषा, लेकिन निर्धारण कारक नहीं।
  • URL में मुद्रा - पैरामीटर ?currency=USD या उपडोमेन (ru.aliexpress.com)।

किसी विशेष देश की कीमतों को विश्वसनीय रूप से पार्स करने के लिए, इस क्षेत्र से प्रॉक्सी का उपयोग करना आवश्यक है। केवल कुकीज़ को बदलना हमेशा काम नहीं करता - AliExpress IP भू-स्थान को प्राथमिकता देता है।

पार्सिंग के लिए लोकप्रिय क्षेत्र और उनकी विशेषताएँ

देश कीमतों की विशेषताएँ क्यों पार्स करें
संयुक्त राज्य अमेरिका USD में कीमतें, अक्सर यूरोप की तुलना में कम। संयुक्त राज्य अमेरिका में ड्रॉपशिपिंग, Amazon के साथ तुलना।
रूस RUB में कीमतें, शुल्क और VAT का ध्यान रखना। Wildberries, Ozon के साथ तुलना।
जर्मनी EUR में कीमतें, EU गोदामों से तेज़ डिलीवरी। यूरोप में ड्रॉपशिपिंग, eBay.de।
ब्राज़ीलिया शुल्कों के कारण उच्च कीमतें, लेकिन उच्च मांग। स्थानीय ई-कॉमर्स (Mercado Livre)।

प्रॉक्सी के माध्यम से जियो-टार्गेटिंग सेट करना

अधिकांश रिज़िडेंट और मोबाइल प्रॉक्सी प्रदाता कनेक्शन या API के माध्यम से देश (और यहां तक कि शहर) का चयन करने की अनुमति देते हैं।

प्रॉक्सी के माध्यम से देश का चयन करने का उदाहरण:

# प्रारूप: username-country-country_code
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"

# अमेरिका के लिए कीमत पार्सिंग
response_us = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_us, "https": proxy_us}
)

# जर्मनी के लिए कीमत पार्सिंग
response_de = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_de, "https": proxy_de}
)

क्षेत्र के अनुसार हेडर को अतिरिक्त रूप से सेट करें:

  • Accept-Language: en-US अमेरिका के लिए, de-DE जर्मनी के लिए, pt-BR ब्राज़ील के लिए।
  • संबंधित उपडोमेन का उपयोग करें: ru.aliexpress.com रूस के लिए, de.aliexpress.com जर्मनी के लिए।
  • प्रतिक्रिया में मुद्रा की जांच करें - यदि आप गलत मुद्रा देखते हैं, तो इसका मतलब है कि जियो-टार्गेटिंग काम नहीं किया।

पार्सिंग में सामान्य गलतियाँ और उनसे कैसे बचें

सही प्रॉक्सी और सेटिंग्स के साथ भी, पार्सिंग की लॉजिक में गलतियों के कारण ब्लॉक मिल सकते हैं। हम सामान्य समस्याओं और समाधानों को समझेंगे।

गलती 1: बहुत आक्रामक पार्सिंग

समस्या: पार्सर एक IP से प्रति मिनट 100 अनुरोध करता है, डेटा को तेजी से एकत्र करने की कोशिश करता है। AliExpress इसे DDoS हमले के रूप में पहचानता है और IP को ब्लॉक कर देता है।

समाधान: देरी और अनुरोधों की संख्या पर सीमा जोड़ें। रिज़िडेंट प्रॉक्सी के लिए सुरक्षित गति - एक IP से प्रति मिनट 10-20 अनुरोध (3-6 सेकंड में 1 अनुरोध)। प्रॉक्सी को खोने से बेहतर है कि अधिक समय तक पार्स करें।

गलती 2: कैप्चा और त्रुटियों की अनदेखी

समस्या: पार्सर कैप्चा के साथ पृष्ठ प्राप्त करता है, लेकिन इसे सामान्य सामग्री के रूप में पार्स करना जारी रखता है। परिणामस्वरूप - डेटाबेस में हजारों खाली रिकॉर्ड।

समाधान: पार्सिंग से पहले सर्वर के उत्तर की जांच करें। यदि HTML में "कैप्चा", "Access Denied" या प्रतिक्रिया कोड 403/429 है - तो इस IP का उपयोग 1-2 घंटे के लिए बंद करें।

def is_blocked(html):
    blocked_keywords = ['captcha', 'access denied', 'too many requests']
    return any(keyword in html.lower() for keyword in blocked_keywords)

response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
    print(f"Proxy {proxy} is blocked, switching...")
    # 2 घंटे के लिए प्रॉक्सी को पूल से बाहर करें
    blocked_proxies[proxy] = time.time() + 7200
    continue

गलती 3: पुरानी डेटा की पार्सिंग

समस्या: AliExpress CDN (Cloudflare) के माध्यम से पृष्ठों को कैश करता है। पार्सर डेटा 2-3 घंटे पुराना प्राप्त करता है, बजाय वर्तमान कीमतों के।

समाधान: कैश को बायपास करने के लिए URL में यादृच्छिक पैरामीटर जोड़ें, या Cache-Control: no-cache हेडर का उपयोग करें।

import random
import time

# कैश को बायपास करने के लिए URL में टाइमस्टैम्प जोड़ें
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"

# या हेडर का उपयोग करें
headers = {
    'Cache-Control': 'no-cache',
    'Pragma': 'no-cache'
}

गलती 4: गतिशील सामग्री की गलत हैंडलिंग

समस्या: AliExpress पर उत्पादों की कीमतें और विशेषताएँ पृष्ठ के लोड होने के बाद JavaScript के माध्यम से लोड होती हैं। साधारण HTTP अनुरोध एक खाली HTML टेम्पलेट प्राप्त करता है।

समाधान: एक हेडलेस ब्राउज़र (Selenium, Puppeteer, Playwright) का उपयोग करें जो JavaScript को निष्पादित करता है और सामग्री के पूर्ण लोड होने की प्रतीक्षा करता है। या एक API एंडपॉइंट खोजें जो JSON में डेटा लौटाता है - अक्सर यह नेटवर्क में DevTools के माध्यम से उपलब्ध होता है।

गलती 5: लॉगिंग और निगरानी की कमी

समस्या: पार्सर एक सप्ताह तक काम करता है, डेटा एकत्र करता है, लेकिन कोई गुणवत्ता की जांच नहीं करता। पता चलता है कि 30% रिकॉर्ड साइट की संरचना में बदलाव के कारण खाली हैं।

समाधान: सभी महत्वपूर्ण घटनाओं को लॉग करें - सफल अनुरोध, त्रुटियाँ, प्रॉक्सी के ब्लॉक, डेटा संरचना में परिवर्तन। 10% से अधिक त्रुटियों की संख्या बढ़ने पर अलर्ट सेट करें।

पार्सर को चलाने से पहले चेकलिस्ट:
✅ अनुरोधों के बीच देरी सेट की गई है (रिज़िडेंट प्रॉक्सी के लिए 3-8 सेकंड)
✅ IP का रोटेशन काम कर रहा है (एक IP पर 50-100 अनुरोध से अधिक नहीं)
✅ User-Agent वर्तमान है और IP के साथ बदलता है
✅ कुकीज़ सहेजी जाती हैं और पुन: उपयोग की जाती हैं
✅ कैप्चा और ब्लॉकों की जांच है
✅ लॉगिंग और निगरानी सेट की गई है
✅ 100 उत्पादों पर परीक्षण लॉन्च सफल रहा

निष्कर्ष

AliExpress की पार्सिंग एक समग्र दृष्टिकोण की आवश्यकता होती है: सही प्रॉक्सी केवल समाधान का एक हिस्सा है। IP का सही रोटेशन, वास्तविक ब्राउज़र का अनुकरण, कुकीज़ और फिंगरप्रिंट के साथ काम करना, और डेटा की गुणवत्ता की निरंतर निगरानी आवश्यक है। बहुत आक्रामक पार्सिंग महंगी प्रॉक्सी के साथ भी ब्लॉकों का कारण बनेगी, जबकि सही सेटिंग्स बिना किसी समस्या के महीनों तक डेटा एकत्र करने की अनुमति देंगी।

अधिकांश कार्यों (प्रतिस्पर्धियों की कीमतों की निगरानी, ड्रॉपशिपिंग के लिए कैटलॉग का संग्रह, ट्रेंड विश्लेषण) के लिए, सबसे अच्छा विकल्प है रिज़िडेंट प्रॉक्सी जो हर 50-100 अनुरोधों में रोटेट होती है। ये काम करने की गति और AliExpress की ओर से विश्वास के स्तर के बीच संतुलन प्रदान करते हैं। यदि बजट सीमित है और उच्च गति की आवश्यकता है - डेटा सेंटर प्रॉक्सी से शुरू करें, लेकिन अधिक बार ब्लॉकों और आक्रामक रोटेशन की आवश्यकता के लिए तैयार रहें।

याद रखें: प्रॉक्सी की गुणवत्ता उनकी संख्या से अधिक महत्वपूर्ण है। 10 गुणवत्ता वाले रिज़िडेंट IP सही सेटअप के साथ 100 सस्ते डेटा सेंटर प्रॉक्सी की तुलना में बेहतर परिणाम देंगे, जिनमें उच्च ब्लॉकिंग प्रतिशत होता है। ब्राउज़र अनुकरण, लॉगिंग और निगरानी की सेटिंग में समय निवेश करें - यह पार्सर के स्थिर काम के साथ कैप्चा और बैन की निरंतर समस्याओं से बचने में मदद करेगा।

```