डेटा संग्रह के लिए प्रॉक्सी ML-डेटासेट: पूर्ण गाइड

```html

ML-मॉडल की गुणवत्ता सीधे प्रशिक्षण डेटा की गुणवत्ता और मात्रा पर निर्भर करती है। लेकिन जैसे ही आप हजारों पृष्ठों को इकट्ठा करना शुरू करते हैं — वेबसाइटें अनुरोधों को ब्लॉक करना शुरू कर देती हैं, कैप्चा दिखाती हैं और IP को बैन कर देती हैं। इस लेख में हम समझेंगे कि डेटा संग्रह के लिए एक विश्वसनीय पाइपलाइन कैसे स्थापित करें: कौन से उपकरण का उपयोग करें, सुरक्षा को कैसे बायपास करें और प्रत्येक कार्य के लिए कौन सी प्रॉक्सी उपयुक्त है।

वेबसाइटें डेटा संग्रह को क्यों ब्लॉक करती हैं और इसके साथ क्या करें

जब आप स्वचालित डेटा संग्रह शुरू करते हैं, तो वेबसाइट एक सामान्य उपयोगकर्ता नहीं, बल्कि एक ही IP पते से अनुरोधों की धारा देखती है। यह तुरंत सुरक्षा प्रणालियों — Cloudflare, DataDome, PerimeterX और अन्य एंटी-बॉट समाधानों में लाल झंडे उठाता है। परिणाम: कैप्चा, अस्थायी ब्लॉक या IP का पूर्ण बैन।

समस्या विशेष रूप से ML-प्रोजेक्ट्स के लिए गंभीर है, क्योंकि डेटासेट को 100 पृष्ठों की आवश्यकता नहीं है, बल्कि हजारों की। एक साधारण टेक्स्ट वर्गीकरण मॉडल को प्रशिक्षित करने के लिए कम से कम 5,000–10,000 उदाहरणों की आवश्यकता होती है। कंप्यूटर दृष्टि के लिए — लाखों चित्र। एक ही IP से इस मात्रा को इकट्ठा करना भौतिक रूप से असंभव है।

सुरक्षा प्रणालियाँ निम्नलिखित मापदंडों का विश्लेषण करती हैं:

अनुरोधों की आवृत्ति — एक ही IP से 10–20 अनुरोध प्रति मिनट से अधिक पहले से ही संदिग्ध है।
User-Agent और हेडर — पार्सर के मानक हेडर आसानी से पहचाने जाते हैं।
कुकी और सत्र डेटा की अनुपस्थिति — वास्तविक ब्राउज़र हमेशा इतिहास ले जाता है।
IP की भू-स्थानिकता — नीदरलैंड के डेटा सेंटर का IP रूसी-भाषी वेबसाइट पर संदिग्ध लगता है।
व्यवहार का पैटर्न — एक व्यक्ति पृष्ठ को 30–60 सेकंड पढ़ता है, बॉट — 0.3 सेकंड।

समाधान — सही प्रॉक्सी, IP की रोटेशन और वास्तविक उपयोगकर्ता के व्यवहार की नकल का संयोजन। हम प्रत्येक तत्व को विस्तार से समझेंगे।

ML-डेटासेट के लिए डेटा कहां से मिलता है: मुख्य स्रोत

उपकरणों के बारे में बात करने से पहले, यह समझना महत्वपूर्ण है — डेटा मॉडल को प्रशिक्षित करने के लिए कहां से मिलता है। स्रोतों को कई श्रेणियों में विभाजित किया गया है, और प्रत्येक के लिए अपनी विधि की आवश्यकता होती है।

खुले डेटासेट (बिना पार्सिंग)

पहली बात जो जांचने की है — पहले से मौजूद खुले डेटासेट। Kaggle, Hugging Face Datasets, Google Dataset Search, UCI Machine Learning Repository हजारों तैयार डेटा सेट प्रदान करते हैं। यदि आपका कार्य मानक है (टेक्स्ट वर्गीकरण, वस्तुओं की पहचान, भावना विश्लेषण), तो संभव है कि डेटासेट पहले से मौजूद हो। यह कार्य के हफ्तों को बचा सकता है।

वेब-पार्सिंग (प्रॉक्सी की आवश्यकता है)

जब तैयार डेटा नहीं होते हैं या वे आपकी विशिष्टता के अनुरूप नहीं होते हैं — पार्सिंग की आवश्यकता होती है। सामान्य कार्य:

Wildberries, Ozon, Yandex.Market से समीक्षाएं इकट्ठा करना भावना विश्लेषण के लिए
भाषाई मॉडलों के प्रशिक्षण के लिए समाचार वेबसाइटों से पार्सिंग
कंप्यूटर दृष्टि के लिए उत्पादों की छवियों को इकट्ठा करना
HR-मॉडल के लिए hh.ru, SuperJob से नौकरी की पेशकशों की पार्सिंग
पूर्वानुमान मॉडल के लिए मार्केटप्लेस से कीमतों के डेटा को इकट्ठा करना
NLP कार्यों के लिए सामाजिक नेटवर्क (VKontakte, Twitter/X) की पार्सिंग

API प्लेटफार्म (आंशिक रूप से बंद)

कुछ प्लेटफार्म आधिकारिक API प्रदान करते हैं — Twitter/X API, Reddit API, Google Places API। समस्या: ये महंगे हैं, सीमाएँ हैं और अक्सर आवश्यक मात्रा में डेटा मुफ्त में नहीं देते हैं। इसलिए कई ML टीमें API को पार्सिंग के साथ संयोजित करती हैं।

संविधानिक डेटा

एक अलग दृष्टिकोण — GPT-4 या अन्य LLM के माध्यम से संवैधानिक डेटा का उत्पादन। लेकिन इसके लिए वास्तविक डेटा को आधार के रूप में आवश्यक है (few-shot उदाहरण)। इसलिए पार्सिंग अधिकांश ML प्रोजेक्ट्स के लिए डेटा संग्रह का मूल उपकरण बना हुआ है।

कोड लिखे बिना डेटा संग्रह के लिए उपकरण

अच्छी खबर: ML-डेटासेट के लिए डेटा संग्रह के लिए डेवलपर होना आवश्यक नहीं है। ऐसे तैयार no-code और low-code उपकरण हैं जो प्रॉक्सी के साथ काम कर सकते हैं और बुनियादी सुरक्षा को बायपास कर सकते हैं।

No-code पार्सर

उपकरण	किसके लिए उपयुक्त है	प्रॉक्सी का समर्थन	जटिलता
Octoparse	वेबसाइटें, तालिकाएं, पेजिनेशन	✅ हां	कम
ParseHub	गतिशील वेबसाइटें (JS)	✅ हां	कम
Apify	100+ वेबसाइटों के लिए तैयार अभिनेता	✅ अंतर्निहित	मध्यम
Bright Data IDE	जटिल सुरक्षित वेबसाइटें	✅ अंतर्निहित	मध्यम
Scrapy Cloud	विशाल पार्सिंग	✅ मिडलवेयर के माध्यम से	उच्च

अधिकांश ML डेटा संग्रह कार्यों के लिए Octoparse या Apify पर्याप्त हैं। Octoparse आपको 20–30 मिनट में विज़ुअल रूप से पार्सर सेट करने की अनुमति देता है: आप पृष्ठ पर तत्व निर्दिष्ट करते हैं, पेजिनेशन सेट करते हैं, प्रॉक्सी डालते हैं — और संग्रह शुरू करते हैं। परिणाम CSV या JSON में निर्यात किया जाता है, जिसे तुरंत प्रशिक्षण के लिए उपयोग किया जा सकता है।

Apify विशेष रूप से उपयोगी है यदि आपको लोकप्रिय प्लेटफार्मों को पार्स करना है: उनके पास Instagram, Twitter/X, Amazon, Google Maps, LinkedIn और दर्जनों अन्य वेबसाइटों के लिए तैयार "अभिनेता" हैं। आप बस पैरामीटर सेट करते हैं — और संरचित डेटा प्राप्त करते हैं।

ML-डेटासेट के लिए कौन सी प्रॉक्सी चुनें

प्रॉक्सी के प्रकार का चयन डेटा संग्रह में सफलता के लिए एक प्रमुख कारक है। यहाँ गलती महंगी हो सकती है: या तो आपको आधे रास्ते में ब्लॉक कर दिया जाएगा, या आप अनावश्यक शक्ति के लिए अधिक भुगतान करेंगे। हम तीन मुख्य प्रकारों को समझेंगे।

रहवासी प्रॉक्सी — सुरक्षित वेबसाइटों के लिए

रहवासी प्रॉक्सी — वास्तविक घरेलू उपयोगकर्ताओं के IP पते हैं। एंटी-बॉट सिस्टम के लिए, वे सामान्य आगंतुक से अलग नहीं होते हैं। यह उन्हें गंभीर सुरक्षा वाली वेबसाइटों के पार्सिंग के लिए आदर्श बनाता है: मार्केटप्लेस (Wildberries, Ozon), सामाजिक नेटवर्क, समाचार एग्रीगेटर।

ML कार्यों के लिए मुख्य लाभ: आप भू-स्थानिक डेटा इकट्ठा कर सकते हैं। यदि आप क्षेत्रीय सामग्री पर मॉडल को प्रशिक्षित कर रहे हैं — तो आप रूस या अन्य देशों के आवश्यक क्षेत्र से प्रॉक्सी चुनते हैं। यह भू-स्थानिक वर्गीकरण या क्षेत्रीय बोलियों के विश्लेषण के कार्यों के लिए विशेष रूप से महत्वपूर्ण है।

मोबाइल प्रॉक्सी — सामाजिक नेटवर्क और मोबाइल प्लेटफार्मों के लिए

मोबाइल प्रॉक्सी मोबाइल ऑपरेटरों (4G/5G) के IP का उपयोग करते हैं। उनके पास प्लेटफार्मों पर सबसे उच्च स्तर का विश्वास होता है — क्योंकि एक मोबाइल IP वास्तव में सैकड़ों लोगों द्वारा एक साथ उपयोग किया जाता है (सभी ग्राहक एक टॉवर के माध्यम से एक IP के माध्यम से बाहर आते हैं)। इसका मतलब है कि मोबाइल IP से सक्रिय डेटा संग्रह भी सामान्य लगता है।

मोबाइल प्रॉक्सी विशेष रूप से आवश्यक हैं यदि आप VKontakte, TikTok या Instagram से डेटा इकट्ठा कर रहे हैं — प्लेटफार्म जो डेटा सेंटर के IP को आक्रामक रूप से ब्लॉक करते हैं।

डेटा सेंटर प्रॉक्सी — खुले स्रोतों और गति के लिए

डेटा सेंटर प्रॉक्सी — तेज और सस्ते होते हैं। इनमें वास्तविक उपयोगकर्ताओं से कोई संबंध नहीं होता है, इसलिए सुरक्षा प्रणालियों द्वारा इन्हें पहचानना आसान होता है। लेकिन कई ML कार्यों के लिए, यह पर्याप्त है: यदि आप विकिपीडिया, खुले संग्रह, GitHub, सार्वजनिक API या बिना गंभीर सुरक्षा वाली वेबसाइटों को पार्स कर रहे हैं — डेटा सेंटर प्रॉक्सी शानदार तरीके से काम करेंगे और काफी सस्ते पड़ेंगे।

आपके ML कार्य के लिए प्रॉक्सी का प्रकार कैसे चुनें:

मार्केटप्लेस (Wildberries, Ozon, Avito): रेजिडेंशियल प्रॉक्सी के साथ रोटेशन
सोशल नेटवर्क (VKontakte, Instagram, TikTok): मोबाइल प्रॉक्सी
समाचार वेबसाइटें, फोरम, विकिपीडिया: डेटा सेंटर प्रॉक्सी
गूगल सर्च, यांडेक्स: रेजिडेंशियल या मोबाइल प्रॉक्सी
खुले संग्रह, कॉमन क्रॉल: डेटा सेंटर प्रॉक्सी

व्यावहारिक परिदृश्य: टेक्स्ट, चित्र, मूल्य, समीक्षाएं

हम लोकप्रिय प्रकार के ML कार्यों के लिए डेटा संग्रह के विशिष्ट परिदृश्यों पर चर्चा करेंगे — स्रोतों, उपकरणों और आवश्यक प्रॉक्सी के प्रकार के साथ।

परिदृश्य 1: भावना विश्लेषण (NLP) के लिए समीक्षाओं का डेटासेट

कार्य: Wildberries से 50,000 समीक्षाएं इकट्ठा करना, रेटिंग के साथ, भावना वर्गीकरण मॉडल को प्रशिक्षित करने के लिए।

स्रोत: Wildberries — 1–5 सितारों के साथ उत्पादों की समीक्षाएं (आदर्श मार्कअप पहले से मौजूद है)।
उपकरण: Octoparse या Python में requests लाइब्रेरी के साथ तैयार स्क्रिप्ट।
प्रॉक्सी: रेजिडेंशियल प्रॉक्सी के साथ रोटेशन — Wildberries सक्रिय रूप से डेटा सेंटर के IP को ब्लॉक करता है।
संग्रह की गति: 3–5 सेकंड में 1 अनुरोध के साथ — 50,000 समीक्षाएं 2–3 दिनों में।

आप क्या प्राप्त करते हैं: CSV फ़ाइल जिसमें कॉलम होते हैं: समीक्षाओं का टेक्स्ट, रेटिंग (1–5), उत्पाद श्रेणी, तिथि। यह प्रशिक्षण के लिए तैयार डेटासेट है — मार्कअप पहले से डेटा में शामिल है।

परिदृश्य 2: कंप्यूटर दृष्टि के लिए चित्रों का डेटासेट

कार्य: वर्गीकरण मॉडल को प्रशिक्षित करने के लिए विभिन्न श्रेणियों के 100,000 उत्पादों की छवियां इकट्ठा करना।

स्रोत: Ozon, Yandex.Market — श्रेणियों के साथ उत्पादों की तस्वीरें।
उपकरण: Apify (ई-कॉमर्स के लिए तैयार अभिनेता हैं) या ParseHub।
प्रॉक्सी: रूस में भू-स्थानिक रोटेशन के साथ रेजिडेंशियल प्रॉक्सी।
महत्वपूर्ण: छवियों को प्रॉक्सी के माध्यम से डाउनलोड करें, सीधे नहीं — CDN सर्वर भी बड़े पैमाने पर डाउनलोड को ब्लॉक कर सकते हैं।

आप क्या प्राप्त करते हैं: श्रेणियों के अनुसार विभाजित छवियों के फ़ोल्डर — संरचना जो सीधे Keras में ImageDataGenerator या PyTorch में DataLoader द्वारा स्वीकार की जाती है।

परिदृश्य 3: भाषाई मॉडल के लिए टेक्स्ट कॉर्पस

कार्य: एक विशिष्ट विषय के लिए भाषाई मॉडल को फाइन-ट्यूनिंग (fine-tuning) के लिए बड़े पैमाने पर रूसी भाषाई टेक्स्ट इकट्ठा करना — उदाहरण के लिए, कानूनी टेक्स्ट या चिकित्सा लेख।

स्रोत: विषयगत फोरम, समाचार वेबसाइटें, Habr, पेशेवर पोर्टल।
उपकरण: संरचित संग्रह के लिए Scrapy Cloud या Octoparse।
प्रॉक्सी: रोटेशन के साथ डेटा सेंटर प्रॉक्सी — अधिकांश टेक्स्ट वेबसाइटों में कठोर सुरक्षा नहीं होती है, और गति गुमनामी से अधिक महत्वपूर्ण होती है।
गति: डेटा सेंटर प्रॉक्सी के साथ आप प्रति मिनट 50–100 अनुरोध कर सकते हैं और कुछ दिनों में एक मिलियन दस्तावेज़ इकट्ठा कर सकते हैं।

परिदृश्य 4: HR-मॉडल के लिए नौकरी की पेशकशों का डेटासेट

कार्य: पेशेवर वर्गीकरण या अनुशंसा मॉडल को प्रशिक्षित करने के लिए hh.ru से 200,000 नौकरी की पेशकशें इकट्ठा करना।

स्रोत: hh.ru — उनके पास आधिकारिक API है, लेकिन सीमाओं के साथ। बड़े पैमाने पर डेटा के लिए पार्सिंग की आवश्यकता है।
उपकरण: Apify (hh.ru के लिए अभिनेता है) या Octoparse।
प्रॉक्सी: रेजिडेंशियल प्रॉक्सी — hh.ru अच्छी तरह से सुरक्षित है और डेटा सेंटर के IP को ब्लॉक करता है।
आप क्या प्राप्त करते हैं: संरचित डेटा: नौकरी का शीर्षक, विवरण, वेतन, आवश्यकताएँ, क्षेत्र, उद्योग — NLP और अनुशंसा प्रणालियों के लिए एक उत्कृष्ट डेटासेट।

मास डेटा संग्रह के दौरान ब्लॉकों से कैसे बचें

अच्छे प्रॉक्सी के साथ भी, यदि आप बुनियादी नियमों का पालन नहीं करते हैं तो आपको बैन मिल सकता है। यहाँ कुछ परीक्षण किए गए तरीके हैं जो डेटा को स्थिरता और बिना नुकसान के इकट्ठा करने में मदद करते हैं।

IP और सत्रों की रोटेशन

सबसे महत्वपूर्ण नियम: हजारों अनुरोधों के लिए एक ही IP का उपयोग न करें। रोटेशन को इस तरह सेट करें कि हर 10–50 अनुरोधों के बाद IP बदल जाए। अधिकांश उपकरण (Octoparse, Apify, Scrapy) प्रॉक्सी पूल को कनेक्ट करते समय इसे डिफ़ॉल्ट रूप से समर्थन करते हैं।

अतिरिक्त रूप से, IP के साथ सत्र कुकीज़ को भी बदलें — यह एक नए उपयोगकर्ता की नकल करता है, न कि केवल पते के परिवर्तन की।

अनुरोधों के बीच सही देरी

अनुरोधों के बीच यादृच्छिक देरी जोड़ें — निश्चित 2 सेकंड नहीं, बल्कि 1 से 5 सेकंड के बीच यादृच्छिक। निश्चित अंतराल को बॉट पैटर्न के रूप में आसानी से पहचाना जाता है। यादृच्छिक — मानव व्यवहार की नकल करता है।

विशेष रूप से सुरक्षित वेबसाइटों के लिए, अधिक लंबे विराम जोड़ें: हर 100 अनुरोधों के बाद 30–60 सेकंड का विराम लें। यह गति को कम करता है, लेकिन ब्लॉक होने के जोखिम को नाटकीय रूप से कम करता है।

अनुरोधों के लिए सही हेडर

User-Agent को वर्तमान ब्राउज़र (Chrome, Firefox के नवीनतम संस्करण) पर सेट करें। मानक HTTP हेडर जोड़ें: Accept-Language, Accept-Encoding, Referer। इन हेडरों की अनुपस्थिति अधिकांश सुरक्षा प्रणालियों के लिए बॉट का स्पष्ट संकेत है।

काम के समय में संग्रह

रात में बड़े पैमाने पर संग्रह शुरू करें (मॉस्को समयानुसार 2:00 से 6:00)। इस समय वेबसाइटों पर ट्रैफ़िक न्यूनतम होता है, एंटी-बॉट सिस्टम कम आक्रामक होते हैं, और आपके अनुरोधों का भार अधिक होता है — जो विरोधाभासी रूप से संदेह को कम करता है, क्योंकि प्रतिस्पर्धी ट्रैफ़िक कम होता है।

त्रुटियों को संभालना और पुनः प्रयास करना

उत्तर कोडों की स्वचालित हैंडलिंग सेट करें:

429 (बहुत अधिक अनुरोध) — देरी बढ़ाएं, IP बदलें, 5–10 मिनट प्रतीक्षा करें।
403 (प्रतिबंधित) — IP ब्लॉक किया गया है, प्रॉक्सी बदलना अनिवार्य है।
503 (सेवा अनुपलब्ध) — सर्वर की अस्थायी ओवरलोड, 1–2 मिनट बाद पुनः प्रयास करें।
कैप्चा के साथ 200 — अधिक गुणवत्ता वाली प्रॉक्सी की आवश्यकता है (डेटा सेंटर के बजाय रेजिडेंशियल)।

प्रॉक्सी और वेबसाइट का भू-स्थानिक मेल

उसी देश से प्रॉक्सी का उपयोग करें जहाँ लक्षित वेबसाइट स्थित है। यदि आप Wildberries को पार्स कर रहे हैं — तो रूसी IP चुनें। यदि आप जर्मन वेबसाइट से डेटा इकट्ठा कर रहे हैं — तो जर्मन प्रॉक्सी की आवश्यकता है। भू-स्थानिक असंगति ब्लॉक होने के सबसे सामान्य ट्रिगर्स में से एक है।

चेकलिस्ट: ML के लिए डेटा संग्रह पाइपलाइन सेटअप

इस चेकलिस्ट का उपयोग किसी भी बड़े पैमाने पर डेटा संग्रह शुरू करने से पहले करें:

📋 तैयारी

☐ Kaggle / Hugging Face पर तैयार डेटासेट की उपलब्धता की जांच करें
☐ लक्षित वेबसाइट का robots.txt अध्ययन करें
☐ डेटा की मात्रा और डेटासेट की संरचना निर्धारित करें
☐ पार्सिंग उपकरण चुनें (Octoparse, Apify, Scrapy)
☐ कार्य के लिए प्रॉक्सी का प्रकार चुनें (रेजिडेंशियल / मोबाइल / डेटा सेंटर)

⚙️ सेटअप

☐ IP रोटेशन के साथ प्रॉक्सी पूल कनेक्ट करें
☐ User-Agent सेट करें (वर्तमान Chrome/Firefox)
☐ मानक HTTP हेडर जोड़ें
☐ यादृच्छिक देरी सेट करें (1–5 सेकंड)
☐ त्रुटियों का प्रबंधन सेट करें (429, 403, 503)
☐ डेटा निर्यात प्रारूप निर्दिष्ट करें (CSV, JSON, JSONL)

🧪 परीक्षण

☐ 100–500 रिकॉर्ड पर परीक्षण चलाएँ
☐ डेटा की गुणवत्ता और पूर्णता की जांच करें
☐ सुनिश्चित करें कि परीक्षण मात्रा पर कोई ब्लॉक नहीं हैं
☐ संग्रह की गति की जांच करें और पूर्ण डेटासेट के लिए समय की गणना करें

🚀 लॉन्च और निगरानी

☐ रात के समय (02:00–06:00 MSK) में लॉन्च करें
☐ त्रुटियों के लिए सूचनाएँ सेट करें
☐ इकट्ठा किए गए डेटा की गुणवत्ता की समय-समय पर जांच करें
☐ मध्यवर्ती परिणामों को सहेजें (हर 10,000 रिकॉर्ड पर चेकपॉइंट)

🧹 पोस्ट-प्रोसेसिंग

☐ डुप्लिकेट हटाएं
☐ टेक्स्ट से HTML टैग और विशेष वर्ण साफ करें
☐ वर्गों का संतुलन जांचें (वर्गीकरण कार्यों के लिए)
☐ ट्रेन/वैलिडेशन/टेस्ट सेट में विभाजित करें
☐ अपने ML फ्रेमवर्क के साथ संगत प्रारूप में सहेजें

निष्कर्ष

ML-डेटासेट के लिए डेटा संग्रह एक बार का कार्य नहीं है, बल्कि एक प्रणालीगत प्रक्रिया है। इस लेख से मुख्य निष्कर्ष: प्रॉक्सी का सही चयन यह निर्धारित करता है कि आप अंत तक पहुँचेंगे या ब्लॉकों पर अटक जाएंगे। सुरक्षित मार्केटप्लेस और एग्रीगेटर्स के लिए रेजिडेंशियल प्रॉक्सी की आवश्यकता होती है, सामाजिक नेटवर्क के लिए मोबाइल, और खुले टेक्स्ट स्रोतों के लिए डेटा सेंटर प्रॉक्सी। Octoparse और Apify जैसे उपकरण बिना कोड लिखे पाइपलाइन बनाने की अनुमति देते हैं। और बुनियादी नियमों (IP रोटेशन, यादृच्छिक देरी, सही हेडर) का पालन करने से सैकड़ों हजारों रिकॉर्ड बिना नुकसान के इकट्ठा किए जा सकते हैं।

यदि आप मार्केटप्लेस, समाचार वेबसाइटों या विषयगत पोर्टल से डेटा इकट्ठा करने की योजना बना रहे हैं ताकि ML-मॉडल को प्रशिक्षित किया जा सके, तो हम रेजिडेंशियल प्रॉक्सी से शुरू करने की सिफारिश करते हैं — ये सुरक्षा प्रणालियों से अधिकतम स्तर का विश्वास और बड़े पैमाने पर डेटा संग्रह के दौरान ब्लॉकों का न्यूनतम जोखिम प्रदान करते हैं।

```

मशीन लर्निंग डेटासेट के लिए डेटा संग्रह: बिना ब्लॉक और कैप्चा के हजारों पृष्ठों को कैसे पार्स करें