ट्विटर (अब X) सक्रिय रूप से डेटा के स्वचालित स्क्रैपिंग के खिलाफ लड़ाई कर रहा है: IP पते को ब्लॉक करता है, अनुरोधों की संख्या को सीमित करता है और संदिग्ध गतिविधि पर खातों को बैन करता है। यदि आप मार्केटिंग अनुसंधान, ब्रांड उल्लेखों की निगरानी या प्रतिस्पर्धियों के विश्लेषण के लिए डेटा एकत्र कर रहे हैं - तो आपको प्रॉक्सी और एंटी-डिटेक्ट उपकरणों के साथ काम करने की सही रणनीति की आवश्यकता है।
इस मार्गदर्शिका में, हम देखेंगे कि ट्विटर/X के सुरक्षित स्क्रैपिंग को कैसे सेट करें, विभिन्न कार्यों के लिए कौन सी प्रॉक्सी का चयन करें और बड़े पैमाने पर प्रोफाइल स्क्रैपिंग के दौरान बैन से कैसे बचें।
क्यों ट्विटर/X स्क्रैपिंग को ब्लॉक करता है और यह कैसे काम करता है
X में रीब्रांडिंग के बाद, प्लेटफॉर्म ने स्वचालित डेटा संग्रह के खिलाफ नीति को काफी सख्त कर दिया है। सुरक्षा प्रणाली एक साथ कई मापदंडों का विश्लेषण करती है, और यदि आप सावधानी बरतते हैं तो भी मैनुअल काम करते समय भी ब्लॉक किया जा सकता है।
ट्विटर/X के ब्लॉक होने के मुख्य ट्रिगर
1. दर सीमाओं का उल्लंघन। ट्विटर प्रति मिनट अनुरोधों की संख्या पर सख्त सीमाएँ निर्धारित करता है। अनधिकृत उपयोगकर्ताओं के लिए यह लगभग 180 अनुरोध हर 15 मिनट में है, और अधिकृत उपयोगकर्ताओं के लिए - 900 अनुरोध तक। यदि आप सीमा से अधिक जाते हैं, तो आपको 429 (बहुत अधिक अनुरोध) त्रुटि मिलेगी, और यदि आप लगातार उल्लंघन करते हैं, तो IP पते को बैन किया जाएगा।
2. संदिग्ध व्यवहार पैटर्न। यदि आप प्रति मिनट 10 प्रोफाइल खोलते हैं, समान गति से पृष्ठों को स्क्रॉल करते हैं या बिना रुके क्रियाएँ करते हैं - तो प्रणाली बॉट को पहचान लेगी। वास्तविक उपयोगकर्ता रुकते हैं, सामग्री पढ़ते हैं, कभी-कभी ध्यान भटकाते हैं।
3. कई खातों के लिए एक ही IP का उपयोग। यदि एक IP पते से 5-10 विभिन्न खातों में एक छोटी अवधि में लॉग इन किया जाता है - तो यह एक लाल झंडा है। ट्विटर सभी खातों को श्रृंखला में ब्लॉक कर सकता है (चेन-बैन)।
4. डिजिटल फिंगरप्रिंट (फिंगरप्रिंट) की अनुपस्थिति। प्लेटफॉर्म ब्राउज़र के बारे में डेटा एकत्र करता है: संस्करण, एक्सटेंशन, स्क्रीन रिज़ॉल्यूशन, समय क्षेत्र, WebGL, कैनवास। यदि ये डेटा वास्तविक उपकरण से मेल नहीं खाते हैं या कई खातों में समान हैं - तो यह संदेह का कारण है।
⚠️ महत्वपूर्ण: इलोन मस्क द्वारा ट्विटर के अधिग्रहण और X में रीब्रांडिंग के बाद, सुरक्षा प्रणाली अधिक आक्रामक हो गई है। अब API पहुंच भी भुगतान की गई है (बुनियादी योजना के लिए $100/माह से शुरू), और वेब इंटरफेस के माध्यम से मुफ्त स्क्रैपिंग को विशेष रूप से सख्ती से ट्रैक किया जाता है।
ट्विटर/X स्वचालन को कैसे पहचानता है
सुरक्षा प्रणाली बहु-स्तरीय विश्लेषण का उपयोग करती है:
- User-Agent और हेडर का विश्लेषण। यदि HTTP अनुरोधों के हेडर वास्तविक ब्राउज़र से मेल नहीं खाते हैं या स्वचालन के निशान (जैसे, User-Agent में Selenium, Puppeteer) शामिल हैं - तो अनुरोध ब्लॉक कर दिया जाता है।
- JavaScript की जांच। ट्विटर सक्रिय रूप से यह सुनिश्चित करने के लिए JavaScript कॉल का उपयोग करता है कि पृष्ठ को एक वास्तविक ब्राउज़र द्वारा खोला गया है, न कि साधारण HTTP क्लाइंट द्वारा।
- माउस और कीबोर्ड के व्यवहार का विश्लेषण। प्लेटफॉर्म कर्सर की गति, स्क्रॉलिंग की गति, क्लिक के पैटर्न को ट्रैक करता है। बॉट आमतौर पर सीधी रेखाओं में चलते हैं या माउस को हिलाते नहीं हैं।
- IP पते की प्रतिष्ठा। यदि IP काले सूची में है (किसी प्रसिद्ध होस्टिंग प्रदाता का डेटा सेंटर, खराब प्रतिष्ठा वाले प्रॉक्सी प्रदाता) - तो उस पर विश्वास कम हो जाता है।
कौन सी प्रॉक्सी ट्विटर/X के स्क्रैपिंग के लिए उपयुक्त हैं: प्रकारों की तुलना
प्रॉक्सी के प्रकार का चयन आपके कार्यों पर निर्भर करता है: सार्वजनिक डेटा का बड़े पैमाने पर स्क्रैपिंग, अधिकृत खातों के साथ काम करना या प्रतिस्पर्धियों की निगरानी। हम प्रत्येक प्रकार और ट्विटर/X के लिए इसके उपयोग की व्याख्या करेंगे।
रेसिडेंशियल प्रॉक्सी - खातों के साथ काम करने के लिए सबसे अच्छा विकल्प
रेसिडेंशियल प्रॉक्सी वास्तविक घरेलू उपयोगकर्ताओं द्वारा जारी IP पते का उपयोग करते हैं, जो इंटरनेट सेवा प्रदाताओं द्वारा प्रदान किए जाते हैं। ट्विटर/X के लिए यह सबसे सुरक्षित विकल्प है, क्योंकि प्लेटफॉर्म इस प्रकार के ट्रैफ़िक को सामान्य उपयोगकर्ता से अलग नहीं कर सकता।
कब ट्विटर/X के लिए रेसिडेंशियल प्रॉक्सी का उपयोग करें:
- अधिकृत खातों के साथ काम करना (लॉगिन, बंद प्रोफाइल का स्क्रैपिंग)
- विशिष्ट खातों या हैशटैग की दीर्घकालिक निगरानी
- उच्च तीव्रता के साथ स्क्रैपिंग (जब बैन के जोखिम को न्यूनतम करना आवश्यक हो)
- विभिन्न भौगोलिक क्षेत्रों से डेटा एकत्र करना (उदाहरण के लिए, क्षेत्रीय रुझानों का विश्लेषण करने के लिए)
फायदे: ट्विटर/X से अधिकतम स्तर का विश्वास, बैन का कम प्रतिशत, कैप्चा के साथ काम करने की संभावना (आमतौर पर उत्पन्न नहीं होते), स्थिर सत्रों का समर्थन (10-30 मिनट के लिए एक IP)।
नुकसान: अधिक लागत (आमतौर पर ट्रैफ़िक के लिए भुगतान, 1 जीबी के लिए $7-15 से शुरू), गति डेटा केंद्रों की तुलना में कम है।
मोबाइल प्रॉक्सी - खातों की अधिकतम सुरक्षा के लिए
मोबाइल प्रॉक्सी मोबाइल ऑपरेटरों (4G/5G) के IP पते का उपयोग करते हैं। यह सामाजिक नेटवर्क के लिए सबसे विश्वसनीय प्रकार का IP है, क्योंकि ट्विटर/X मोबाइल IP को बहुत कम ब्लॉक करता है - एक पते के पीछे हजारों वास्तविक उपयोगकर्ता हो सकते हैं।
कब ट्विटर/X के लिए मोबाइल प्रॉक्सी का उपयोग करें:
- महत्वपूर्ण खातों के साथ काम करना, जिन्हें खोना नहीं चाहिए
- पिछले बैन के बाद स्क्रैपिंग (जब अधिकतम सुरक्षा की आवश्यकता हो)
- क्रियाओं का स्वचालन: लाइक्स, रीट्वीट, सब्सक्रिप्शन (हालांकि यह ट्विटर के ToS का उल्लंघन करता है)
- IP द्वारा कठोर बैन को बायपास करना (मोबाइल IP लगभग कभी काले सूचियों में नहीं आते)
फायदे: अधिकतम स्तर का विश्वास, IP द्वारा बैन का लगभग शून्य जोखिम, "एयरप्लेन मोड" के माध्यम से IP का रोटेशन (हर 5-10 मिनट में IP बदलना)।
नुकसान: सबसे महंगा प्रकार की प्रॉक्सी (एक IP के लिए प्रति माह $50-100 से शुरू), उपलब्ध IP की सीमित संख्या, गति मोबाइल कनेक्शन की गुणवत्ता पर निर्भर करती है।
डेटा सेंटर प्रॉक्सी - सार्वजनिक डेटा के बड़े पैमाने पर स्क्रैपिंग के लिए
डेटा सेंटर प्रॉक्सी - यह होस्टिंग प्रदाताओं के सर्वरों के IP पते हैं। ये तेज़ और सस्ते होते हैं, लेकिन ट्विटर/X इन्हें संदेह के साथ देखता है।
कब ट्विटर/X के लिए डेटा सेंटर का उपयोग करें:
- अनधिकृत (सीमित कार्यक्षमता) के बिना सार्वजनिक प्रोफाइल का स्क्रैपिंग
- कम तीव्रता के साथ डेटा का एक बार संग्रह
- रेसिडेंशियल प्रॉक्सी पर लॉन्च करने से पहले स्क्रैपिंग स्क्रिप्ट का परीक्षण करना
- आधिकारिक API के माध्यम से काम करना (यदि आपके पास भुगतान की गई पहुंच है)
फायदे: कम लागत (एक IP के लिए $1-3 से शुरू), उच्च गति (1 जीबी/सेकंड तक), कनेक्शन की स्थिरता।
नुकसान: बैन का उच्च जोखिम, अक्सर कैप्चा का समाधान आवश्यक होता है, अधिकृत खातों के साथ काम करने के लिए उपयुक्त नहीं हैं, कई IP पहले से ही ट्विटर/X की काली सूचियों में हैं।
ट्विटर/X के लिए प्रॉक्सी प्रकारों की तुलना तालिका
| पैरामीटर | रेसिडेंशियल | मोबाइल | डेटा सेंटर |
|---|---|---|---|
| ट्विटर/X से विश्वास स्तर | उच्च | बहुत उच्च | कम |
| बैन का जोखिम | कम (5-10%) | न्यूनतम (1-3%) | उच्च (30-50%) |
| खातों के साथ काम करना | ✅ हाँ | ✅ हाँ | ❌ अनुशंसित नहीं |
| गति | मध्यम (10-50 एमबीपीएस) | मध्यम (5-30 एमबीपीएस) | उच्च (100-1000 एमबीपीएस) |
| लागत | $7-15 प्रति 1 जीबी | $50-100 प्रति IP/महीना | $1-3 प्रति IP/महीना |
| सर्वश्रेष्ठ उपयोग | प्राधिकृत स्क्रैपिंग | महत्वपूर्ण खाते | सार्वजनिक डेटा |
ट्विटर/X की दर सीमाएँ: अनुरोधों की सीमाओं को कैसे न बढ़ाएँ
ट्विटर/X अनुरोधों की संख्या पर सख्त सीमाएँ निर्धारित करता है ताकि सर्वरों के ओवरलोड और स्वचालित डेटा संग्रह को रोका जा सके। यदि आप सीमाओं को पार करते हैं - तो आपको अस्थायी ब्लॉक (15 मिनट से लेकर कई घंटों तक) या स्थायी IP/खाता बैन प्राप्त होगा।
ट्विटर/X की वर्तमान सीमाएँ (2024)
X प्रीमियम भुगतान सदस्यता के बाद सीमाएँ कई श्रेणियों में विभाजित हो गई हैं:
| खाते का प्रकार | ट्वीट देखने की संख्या/दिन | API अनुरोध (15 मिनट) |
|---|---|---|
| अनधिकृत | सीमित पहुंच | ~180 अनुरोध |
| मुफ्त खाता | 600-1000 ट्वीट | ~300 अनुरोध |
| X प्रीमियम ($8/माह) | 6000-10000 ट्वीट | ~900 अनुरोध |
| प्रमाणित (पुराना) | कठोर सीमाओं के बिना | ~900 अनुरोध |
महत्वपूर्ण: ये सीमाएँ केवल API पर लागू नहीं होती हैं, बल्कि सामान्य वेब इंटरफेस के माध्यम से देखने पर भी लागू होती हैं। यदि आप उपयोगकर्ता की गतिविधियों का अनुकरण करते हुए ब्राउज़र के माध्यम से स्क्रैप करते हैं - तो ये सीमाएँ फिर भी लागू होती हैं।
स्क्रैपिंग के दौरान दर सीमाओं को कैसे बायपास करें
1. IP पतों का रोटेशन। स्वचालित रोटेशन के साथ प्रॉक्सी का पूल उपयोग करें। रेसिडेंशियल प्रॉक्सी के लिए आदर्श परिवर्तन की आवृत्ति - हर 50-100 अनुरोध या हर 10-15 मिनट। इससे विभिन्न IP के बीच लोड वितरित करने में मदद मिलती है और एक पते पर सीमाएँ नहीं बढ़ती हैं।
2. कई खातों का उपयोग। यदि आपको बड़ी मात्रा में डेटा एकत्र करने की आवश्यकता है, तो 5-10 ट्विटर/X खाते बनाएं और स्क्रैपिंग को उनके बीच वितरित करें। प्रत्येक खाता अपने अद्वितीय प्रॉक्सी के माध्यम से काम करना चाहिए और अलग डिजिटल फिंगरप्रिंट (फिंगरप्रिंट) होना चाहिए।
3. अनुरोधों के बीच में देरी। अधिकतम गति से अनुरोध न करें। यादृच्छिक विराम जोड़ें:
- प्रोफाइल देखने के बीच: 3-7 सेकंड
- फीड स्क्रॉल करने के बीच: 2-5 सेकंड
- हैशटैग खोजने के बीच: 5-10 सेकंड
- 50-100 क्रियाओं के बाद लंबे विराम: 30-60 सेकंड
4. डेटा कैश करना। एक ही डेटा को फिर से अनुरोध न करें। स्क्रैपिंग के परिणामों को डेटाबेस में सहेजें और जांचें कि क्या प्रोफाइल पहले से ही संसाधित किया गया है।
💡 टिप: यदि आपको 429 त्रुटि (बहुत अधिक अनुरोध) मिलती है, तो तुरंत अनुरोध को फिर से करने की कोशिश न करें। कम से कम 15 मिनट के लिए विराम लें, और बेहतर है कि प्रॉक्सी के माध्यम से IP पता बदलें। पुनः प्रयास स्थायी बैन का कारण बन सकता है।
सुरक्षित स्क्रैपिंग के लिए एंटी-डिटेक्ट ब्राउज़र सेटअप
एंटी-डिटेक्ट ब्राउज़र प्रत्येक ट्विटर/X खाते के लिए अद्वितीय डिजिटल फिंगरप्रिंट (फिंगरप्रिंट) बनाने की अनुमति देते हैं, जो सुरक्षित स्क्रैपिंग के लिए महत्वपूर्ण है। इसके बिना, प्लेटफॉर्म कई खातों को एक-दूसरे से जोड़ सकता है और उन्हें श्रृंखला में ब्लॉक कर सकता है।
ट्विटर/X के लिए लोकप्रिय एंटी-डिटेक्ट ब्राउज़र
Dolphin Anty - यह आर्बिट्रेजर्स और SMM विशेषज्ञों के बीच सबसे लोकप्रिय विकल्पों में से एक है। मुफ्त योजना 10 प्रोफाइल बनाने की अनुमति देती है, जो छोटे स्क्रैपिंग कार्यों के लिए पर्याप्त है।
AdsPower - कार्यक्षमता और कीमत के बीच अच्छा संतुलन। इसमें RPA (रोबोटिक प्रोसेस ऑटोमेशन) के माध्यम से अंतर्निहित स्वचालन है, जो कोड लिखे बिना स्क्रैपिंग सेट करने की अनुमति देता है।
Multilogin - अधिकतम सुरक्षा स्तर के साथ प्रीमियम समाधान। बड़े एजेंसियों द्वारा उपयोग किया जाता है, लेकिन इसकी कीमत अधिक होती है (99 यूरो/माह से शुरू)। यह बड़े पैमाने पर डेटा के पेशेवर स्क्रैपिंग के लिए उचित है।
GoLogin - अच्छे फिंगरप्रिंट गुणवत्ता के साथ बजट विकल्प। चलते-फिरते खातों के साथ काम करने के लिए मोबाइल ऐप है।
ट्विटर/X के लिए स्क्रैपिंग प्रोफाइल सेटअप के चरण-दर-चरण निर्देश (Dolphin Anty के उदाहरण पर)
चरण 1: ब्राउज़र प्रोफाइल बनाना
- Dolphin Anty खोलें और "प्रोफाइल बनाएं" पर क्लिक करें
- ऑपरेटिंग सिस्टम चुनें: Windows, macOS या Linux (वास्तविक उपकरण से मेल खाने वाला या ट्विटर उपयोगकर्ताओं के बीच सबसे लोकप्रिय चुनें)
- प्रोफाइल का नाम दें: उदाहरण के लिए, "Twitter Parser US #1"
चरण 2: प्रॉक्सी सेट करना
- "प्रॉक्सी" अनुभाग में, प्रकार चुनें: HTTP, HTTPS या SOCKS5 (SOCKS5 ट्विटर/X के लिए पसंदीदा है)
- प्रॉक्सी डेटा दर्ज करें: IP पता, पोर्ट, लॉगिन, पासवर्ड
- "प्रॉक्सी जांचें" पर क्लिक करें - सुनिश्चित करें कि स्थिति हरी है और भू-स्थान सही है
- महत्वपूर्ण: प्रत्येक ट्विटर/X खाते के लिए अलग प्रॉक्सी का उपयोग करें
चरण 3: फिंगरप्रिंट सेट करना (डिजिटल फिंगरप्रिंट)
- User-Agent: वर्तमान Chrome के वास्तविक User-Agent का चयन करें (उदाहरण के लिए, Windows 10 पर Chrome 120)
- स्क्रीन रिज़ॉल्यूशन: लोकप्रिय रिज़ॉल्यूशन का उपयोग करें (1920x1080, 1366x768, 1440x900) - अजीब मान न रखें
- समय क्षेत्र: प्रॉक्सी के भू-स्थान से मेल खाना चाहिए (यदि प्रॉक्सी अमेरिका/न्यूयॉर्क से है - तो EST सेट करें)
- ब्राउज़र की भाषा: क्षेत्र के अनुसार (अमेरिका के लिए en-US, ब्रिटेन के लिए en-GB)
- WebRTC: बंद करें या प्रॉक्सी के IP से बदलें (अन्यथा वास्तविक IP लीक हो सकता है)
- कैनवास और WebGL: "शोर" मोड का उपयोग करें (शोर जोड़ना) - यह प्रत्येक प्रोफाइल के लिए अद्वितीय फिंगरप्रिंट बनाता है
चरण 4: सुरक्षा के लिए अतिरिक्त सेटिंग्स
- पासवर्ड के ऑटोफिल को बंद करें (ट्विटर सहेजे गए डेटा की जांच कर सकता है)
- हर स्क्रैपिंग सत्र के बाद कुकीज़ को साफ करें
- ब्राउज़र एक्सटेंशन का उपयोग न करें - ये अद्वितीय फिंगरप्रिंट बनाते हैं और स्वचालन को उजागर कर सकते हैं
- "Do Not Track" (DNT) चालू करें - कई वास्तविक उपयोगकर्ता इसका उपयोग करते हैं
⚠️ गंभीर गलती: कई खातों के लिए एक ही फिंगरप्रिंट का उपयोग न करें! ट्विटर/X समान डिजिटल फिंगरप्रिंट को आसानी से पहचानता है और सभी संबंधित खातों को ब्लॉक कर देता है। एंटी-डिटेक्ट ब्राउज़र में प्रत्येक प्रोफाइल के लिए अद्वितीय सेटिंग्स होनी चाहिए।
ट्विटर/X के लिए उपकरण: तैयार समाधानों से कोड तक
उपकरण का चयन आपके तकनीकी कौशल और कार्यों की मात्रा पर निर्भर करता है। हम बिना कोड के सरल सेवाओं से लेकर पेशेवर स्क्रिप्ट तक के विकल्पों की व्याख्या करेंगे।
ट्विटर/X के लिए तैयार स्क्रैपिंग सेवाएँ (कोड के बिना)
Phantombuster - यह एक क्लाउड स्वचालन सेवा है जिसमें ट्विटर/X के लिए तैयार टेम्पलेट होते हैं। यह प्रोफाइल, अनुयायियों, हैशटैग के अनुसार ट्वीट्स को स्क्रैप करने की अनुमति देता है। सेटअप में 5-10 मिनट लगते हैं: आप टेम्पलेट चुनते हैं, पैरामीटर (हैशटैग, खातों की सूची) निर्दिष्ट करते हैं, प्रॉक्सी कनेक्ट करते हैं और चलाते हैं।
Apify - तैयार स्क्रैपर्स का मार्केटप्लेस। ट्विटर/X के लिए कई अभिनेता (तैयार स्क्रिप्ट) हैं: प्रोफाइल का स्क्रैपिंग, ट्वीट्स का संग्रह, उल्लेखों की निगरानी। यह क्लाउड के माध्यम से काम करता है, प्रॉक्सी का समर्थन करता है, और इसमें सीमाओं के साथ एक मुफ्त योजना है।
Octoparse - स्क्रैपर्स के लिए एक दृश्य निर्माता। आप कार्यक्रम के इंटरफेस में ट्विटर/X खोलते हैं, उन तत्वों पर क्लिक करते हैं जिन्हें एकत्रित करना है (नाम, बायो, अनुयायियों की संख्या), और कार्यक्रम स्वचालित रूप से स्क्रिप्ट बनाता है। यह सरल कार्यों के लिए उपयुक्त है, लेकिन जटिल पृष्ठ संरचना के साथ संघर्ष कर सकता है।
एंटी-डिटेक्ट ब्राउज़रों में RPA के माध्यम से स्वचालन
कुछ एंटी-डिटेक्ट ब्राउज़र (AdsPower, Octo Browser) में अंतर्निहित RPA (रोबोटिक प्रोसेस ऑटोमेशन) उपकरण होते हैं, जो उपयोगकर्ता की गतिविधियों को रिकॉर्ड और पुन: पेश करने की अनुमति देते हैं।
यह कैसे काम करता है:
- एंटी-डिटेक्ट ब्राउज़र में ट्विटर/X खोलें
- गतिविधियों के रिकॉर्डिंग मोड को चालू करें
- आवश्यक गतिविधियाँ करें: प्रोफाइल खोलें, डेटा कॉपी करें, अगले पर जाएँ
- रिकॉर्डिंग रोकें - ब्राउज़र ने स्क्रिप्ट बनाई
- स्क्रैपिंग के लिए खातों की सूची अपलोड करें और स्क्रिप्ट को लूप में चलाएँ
फायदे: प्रोग्रामिंग कौशल की आवश्यकता नहीं है, वास्तविक ब्राउज़र के माध्यम से काम करता है (सुरक्षा को बायपास करने का उच्च स्तर), यादृच्छिक विराम और व्यवहार अनुकरण को जोड़ना आसान है।
कोड के माध्यम से स्क्रैपिंग: Python + Selenium/Playwright
अधिक जटिल कार्यों और प्रक्रिया पर पूर्ण नियंत्रण के लिए प्रोग्रामिंग का उपयोग करें। Python स्क्रैपिंग के लिए सबसे लोकप्रिय भाषा है, जो समृद्ध पुस्तकालयों की पारिस्थितिकी तंत्र के लिए धन्यवाद है।
मुख्य पुस्तकालय:
- Selenium - ब्राउज़र का स्वचालन, Chrome/Firefox के साथ काम करता है, प्रॉक्सी और उपयोगकर्ता की गतिविधियों के अनुकरण का समर्थन करता है
- Playwright - Selenium का आधुनिक विकल्प, तेज और अधिक स्थिर, हेडलेस मोड का समर्थन करता है
- Tweepy - आधिकारिक ट्विटर API के साथ काम करने के लिए पुस्तकालय (भुगतान की पहुंच की आवश्यकता होती है)
- Twint - बिना API के ट्विटर का स्क्रैपिंग (ध्यान दें: ट्विटर इस विधि को सक्रिय रूप से ब्लॉक करता है, यह अस्थिर रूप से काम करता है)
Python + Selenium पर एक मूल स्क्रिप्ट का उदाहरण:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
import random
# प्रॉक्सी सेट करना
proxy = "123.45.67.89:8080" # अपने प्रॉक्सी से बदलें
chrome_options = Options()
chrome_options.add_argument(f'--proxy-server={proxy}')
chrome_options.add_argument('--disable-blink-features=AutomationControlled')
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
# ब्राउज़र प्रारंभ करना
driver = webdriver.Chrome(options=chrome_options)
# ट्विटर प्रोफाइल खोलें
driver.get('https://twitter.com/elonmusk')
time.sleep(random.uniform(3, 7)) # यादृच्छिक विराम
# प्रोफाइल डेटा स्क्रैप करें
try:
name = driver.find_element(By.XPATH, '//div[@data-testid="UserName"]').text
bio = driver.find_element(By.XPATH, '//div[@data-testid="UserDescription"]').text
followers = driver.find_element(By.XPATH, '//a[contains(@href, "/followers")]/span').text
print(f"नाम: {name}")
print(f"बायो: {bio}")
print(f"अनुयायी: {followers}")
except Exception as e:
print(f"स्क्रैपिंग त्रुटि: {e}")
driver.quit()
कोड के साथ काम करते समय महत्वपूर्ण बिंदु:
- गतिविधियों के बीच
time.sleep(random.uniform(3, 7))जोड़ें - यह वास्तविक उपयोगकर्ता के व्यवहार का अनुकरण करता है - स्वचालन के संकेतों को छिपाने के लिए
--disable-blink-features=AutomationControlledका उपयोग करें - User-Agent को वास्तविक में बदलें:
chrome_options.add_argument('user-agent=Mozilla/5.0...') - try/except के माध्यम से त्रुटियों को संभालें - ट्विटर/X अक्सर पृष्ठों की संरचना बदलता है
- परिणामों को डेटाबेस (SQLite, PostgreSQL) या CSV फ़ाइल में सहेजें
बड़े पैमाने पर स्क्रैपिंग से पहले ट्विटर/X खातों को गर्म करना
यदि आप स्क्रैपिंग के लिए नए ट्विटर/X खातों का उपयोग कर रहे हैं, तो तुरंत बड़े पैमाने पर डेटा संग्रह शुरू नहीं करना चाहिए। प्लेटफॉर्म "खाते की उम्र" और इसकी गतिविधि को ट्रैक करता है - नए खाते आक्रामक व्यवहार के साथ पहले ब्लॉक किए जाते हैं।
खाते को गर्म करने की योजना (7-14 दिन)
दिन 1-3: बुनियादी सेटअप और न्यूनतम गतिविधि
- प्रोफाइल भरें: अवतार, बायो, वेबसाइट का लिंक (वास्तविक डेटा का उपयोग करें, प्रोफाइल को खाली न छोड़ें)
- अपने क्षेत्र के 5-10 लोकप्रिय खातों का अनुसरण करें
- फीड को 2-3 मिनट तक स्क्रॉल करें, 2-3 लाइक्स दें
- 1-2 रीट्वीट करें
- दिन में 10 से अधिक क्रियाएँ न करें
दिन 4-7: गतिविधि बढ़ाना
- और 10-15 खातों का अनुसरण करें
- 1-2 अपने ट्वीट्स प्रकाशित करें (सरल ट्वीट, जैसे "Hello Twitter!")
- दिन में लाइक्स की संख्या 5-10 तक बढ़ाएँ
- अन्य उपयोगकर्ताओं के प्रोफाइल को देखना शुरू करें (दिन में 5-10 प्रोफाइल)
- कुछ ट्वीट्स को बुकमार्क करें
दिन 8-14: स्क्रैपिंग के लिए तैयारी
- 20-30 खातों का अनुसरण करें, ताकि कुल अनुसरण 50-70 हो
- हर 2-3 दिन में 1 ट्वीट प्रकाशित करें
- दिन में 10-20 प्रोफाइल देखें
- हैशटैग के माध्यम से खोजें (लेकिन अभी स्क्रैप न करें - बस खोजें और पढ़ें)
- 12-14 दिन में हल्की स्क्रैपिंग शुरू कर सकते हैं: 20-30 प्रोफाइल प्रति दिन विराम के साथ
💡 टिप: यदि आप ट्विटर/X खाते खरीदते हैं (फार्म खाते), तो उन खातों को चुनें जिनकी उम्र कम से कम 3-6 महीने हो, भरे हुए प्रोफाइल और गतिविधि का इतिहास हो। ऐसे खातों का तुरंत स्क्रैपिंग के लिए उपयोग किया जा सकता है, लेकिन फिर भी छोटे वॉल्यूम से शुरू करें।
"गर्म" खाते के संकेत
- खाते की उम्र: कम से कम 14 दिन, बेहतर 30+ दिन
- अनुसरण की संख्या: 50-100 (न बहुत अधिक, न बहुत कम)
- अनुयायियों की संख्या: 5-20 (कुछ वास्तविक अनुयायी भी विश्वास बढ़ाते हैं)
- ट्वीट्स का इतिहास: कम से कम 5-10 प्रकाशन
- लाइक्स और रीट्वीट: इतिहास में 20-50 क्रियाएँ
- भरा हुआ प्रोफाइल: अवतार, बायो, संभवतः लिंक
सुरक्षित स्क्रैपिंग की चेकलिस्ट: बैन से सुरक्षा के 12 नियम
ट्विटर/X के स्क्रैपिंग के दौरान पालन करने के लिए सभी सिफारिशों को एक चेकलिस्ट में संकलित करें:
✅ सुरक्षा चेकलिस्ट
1. उच्च गुणवत्ता वाली प्रॉक्सी का उपयोग करें
- खातों के साथ काम करने के लिए: रेसिडेंशियल या मोबाइल प्रॉक्सी
- एक प्रॉक्सी = एक खाता (मिश्रण न करें)
- उपयोग से पहले प्रॉक्सी के भू-स्थान की जांच करें
2. अद्वितीय फिंगरप्रिंट सेट करें
- एंटी-डिटेक्ट ब्राउज़र का उपयोग करें (Dolphin Anty, AdsPower, Multilogin)
- प्रत्येक खाता = अद्वितीय सेटिंग्स का सेट (User-Agent, रिज़ॉल्यूशन, समय क्षेत्र)
- WebRTC को बंद करें या प्रॉक्सी के IP से बदलें
3. दर सीमाओं का पालन करें
- एक खाते से प्रति घंटे 300-500 अनुरोधों से अधिक नहीं
- यादृच्छिक विराम जोड़ें: क्रियाओं के बीच 3-7 सेकंड
- 50-100 क्रियाओं के बाद लंबे विराम लें (30-60 सेकंड)
4. नए खातों को गर्म करें
- सक्रिय स्क्रैपिंग से पहले कम से कम 7-14 दिन
- प्रोफाइल भरें और गतिविधि का इतिहास बनाएं
- छोटे वॉल्यूम से शुरू करें: 20-30 प्रोफाइल प्रति दिन
5. वास्तविक उपयोगकर्ता के व्यवहार का अनुकरण करें
- यादृच्छिक माउस मूवमेंट जोड़ें
- विभिन्न गति से पृष्ठों को स्क्रॉल करें
- कभी-कभी ध्यान भटकाएँ: अन्य टैब खोलें, विराम लें
6. IP पतों का रोटेशन करें
- हर 50-100 अनुरोधों या हर 10-15 मिनट में IP बदलें
- स्थिरता के लिए स्टिकी सत्रों का उपयोग करें (10-30 मिनट के लिए एक IP)
- एक ही IP पर बहुत बार वापस न लौटें
7. त्रुटियों को सही ढंग से संभालें
- 429 (बहुत अधिक अनुरोध) त्रुटि पर - कम से कम 15 मिनट का विराम लें
- 403 (प्रतिबंधित) त्रुटि पर - IP बदलें और फिंगरप्रिंट की जांच करें
- कैप्चा पर - इसे मैन्युअल रूप से या सेवाओं (2Captcha, AntiCaptcha) के माध्यम से हल करें
8. डेटा कैश करें
- परिणामों को डेटाबेस में सहेजें
- एक ही प्रोफाइल को फिर से स्क्रैप न करें
- लॉग रखें: कौन से प्रोफाइल संसाधित किए गए, कब, किस परिणाम के साथ
9. लोड वितरित करें
- बड़े पैमाने पर स्क्रैपिंग के लिए 5-10 खातों का उपयोग करें
- प्रत्येक खाता अपने लय में काम करता है (उन्हें समन्वयित न करें)
- दिन के विभिन्न समय पर स्क्रैप करें (सभी खातों को एक साथ नहीं)
10. पीक गतिविधि के घंटों में काम करें
- लक्षित भू-स्थान के कार्य घंटों में स्क्रैप करें (स्थानीय समय के अनुसार 9:00-18:00)
- रात के समय स्क्रैपिंग से बचें (00:00-06:00) - यह संदिग्ध है
11. खातों की स्थिति की निगरानी करें
- हर दिन खातों की जांच करें: क्या वे ब्लॉक नहीं हैं, क्या कोई चेतावनी नहीं है
- यदि खाते को चेतावनी मिली है - तो 3-7 दिनों के लिए गतिविधि कम करें
- आँकड़े रखें: प्रत्येक खाते ने कितने प्रोफाइल स्क्रैप किए, क्या कोई समस्या थी
12. व्यक्तिगत संदेशों और बंद डेटा को स्क्रैप न करें
- केवल सार्वजनिक डेटा एकत्र करें: प्रोफाइल, ट्वीट्स, फॉलोइंग
- निजी खातों को बायपास करने की कोशिश न करें
- ट्विटर/X की सेवा की शर्तों का पालन करें (हालांकि स्क्रैपिंग उनका उल्लंघन करती है, जोखिमों को न्यूनतम करें)