Back to Blog

लिंक्डइन और हेडहंटर से बिना बैन के नौकरी की रिक्तियों का पार्सिंग: भर्तीकर्ताओं के लिए उपकरण और प्रॉक्सी

हम समझते हैं कि लिंक्डइन और हेडहंटर से स्वचालित रूप से नौकरियों को कैसे इकट्ठा करें, बिना बैन हुए - उपकरण, प्रॉक्सी और भर्ती करने वालों और एचआर विशेषज्ञों के लिए चरण-दर-चरण सेटिंग्स।

📅March 13, 2026
```html

यदि आप भर्ती या HR विश्लेषण में हैं, तो आपने निश्चित रूप से इस स्थिति का सामना किया होगा: आपको प्रतिस्पर्धियों से 500+ नौकरियों को जल्दी इकट्ठा करना है, वेतन बाजार का ट्रैक रखना है या नियोक्ताओं के संपर्कों को डाउनलोड करना है - और प्लेटफ़ॉर्म आपको 20-30 अनुरोधों के बाद ही ब्लॉक कर देते हैं। LinkedIn और HeadHunter सक्रिय रूप से अपने डेटा की सुरक्षा करते हैं, और सही दृष्टिकोण के बिना स्क्रैपिंग कैप्चा और बैन के साथ अंतहीन संघर्ष में बदल जाती है।

इस मार्गदर्शिका में हम देखेंगे कि 2024 में कौन से उपकरण वास्तव में काम करते हैं, डेटा इकट्ठा करने के लिए प्रॉक्सी को कैसे सेट करें और किन गलतियों से बचें ताकि आपका खाता न खोए।

क्यों LinkedIn और HeadHunter स्क्रैपिंग को ब्लॉक करते हैं

दोनों प्लेटफार्म डेटा पर कमाई करते हैं। LinkedIn भुगतान योजनाओं के माध्यम से डेटा बेस तक पहुंच बेचता है, जबकि HeadHunter API और भुगतान वाले विज्ञापनों के माध्यम से। जब कोई इन डेटा को मुफ्त में बड़े पैमाने पर इकट्ठा करना शुरू करता है, तो प्लेटफार्मों की प्रतिक्रिया कठोर होती है। यहाँ कुछ विशिष्ट सुरक्षा तंत्र हैं जिनका आप सामना करेंगे:

रेट लिमिटिंग - अनुरोधों की आवृत्ति पर प्रतिबंध

LinkedIn एक निश्चित समय में प्रोफाइल और नौकरी पृष्ठों के दृश्यता की संख्या को ट्रैक करता है। एक मुफ्त खाता लगभग 300 प्रोफाइल प्रति माह देख सकता है - इसके बाद आपको चेतावनी या अस्थायी ब्लॉक मिलता है। यदि आप बिना किसी देरी के स्वचालित स्क्रैपिंग करते हैं, तो यह सीमा कुछ मिनटों में समाप्त हो जाती है। HeadHunter एक IP से खोज अनुरोधों की संख्या को सीमित करता है - यदि यह सीमा पार होती है, तो यह कैप्चा दिखाता है या अस्थायी रूप से पहुंच को ब्लॉक करता है।

व्यवहार का विश्लेषण और यूजर-एजेंट

प्लेटफार्म उपयोगकर्ता के व्यवहार के पैटर्न का विश्लेषण करते हैं: एक वास्तविक उपयोगकर्ता पृष्ठ को स्क्रॉल करता है, सामग्री पर रुकता है, असंगत रूप से क्लिक करता है। एक बॉट समान अंतराल के साथ अनुरोध करता है, स्क्रॉल नहीं करता, असामान्य हेडर भेजता है। LinkedIn अतिरिक्त रूप से अधिकृत सत्र की उपस्थिति की जांच करता है - यदि आप खाते में लॉग इन नहीं करते हैं, तो आप सीमित डेटा देखते हैं और बहुत जल्दी IP द्वारा ब्लॉक हो जाते हैं।

IP पते द्वारा ब्लॉक करना

यह सबसे सामान्य सुरक्षा है। यदि एक IP से बहुत अधिक अनुरोध आते हैं - IP काले सूची में चला जाता है। विशेष रूप से डेटा केंद्रों (AWS, Google Cloud, Hetzner) के IP जल्दी ब्लॉक होते हैं: प्लेटफार्म इन पते की श्रृंखलाओं को जानते हैं और इन्हें उच्च संदेह के साथ देखते हैं। घरेलू और मोबाइल IP कम बार ब्लॉक होते हैं, क्योंकि उनके पीछे वास्तविक उपयोगकर्ता हो सकते हैं।

⚠️ जानना महत्वपूर्ण है

LinkedIn ने 2023 में सुरक्षा को काफी सख्त कर दिया है: अब यहां तक कि VPN या डेटा सेंटर प्रॉक्सी के साथ प्रोफाइल को मैन्युअल रूप से देखने पर भी खाता ब्लॉक हो सकता है। LinkedIn के साथ काम करने के लिए निवासी या मोबाइल प्रॉक्सी अत्यंत महत्वपूर्ण हैं।

भर्तीकर्ता और HR विश्लेषक क्या स्क्रैप करते हैं

उपकरण सेट करने से पहले, कार्य को स्पष्ट करें - यह दृष्टिकोण और प्रॉक्सी के प्रकार को निर्धारित करता है। यहाँ कुछ मुख्य परिदृश्य हैं जिन पर HR विशेषज्ञ और भर्ती एजेंसियाँ काम करती हैं:

कार्य प्लेटफार्म डेटा की मात्रा
बाजार में वेतन की निगरानी HeadHunter, LinkedIn 500–5000 नौकरियाँ/दिन
नियोक्ताओं के संपर्कों को इकट्ठा करना LinkedIn 100–1000 प्रोफाइल/दिन
उम्मीदवारों की आवश्यकताओं का विश्लेषण HeadHunter, LinkedIn 1000–10,000 नौकरियाँ
प्रतिस्पर्धियों की नई नौकरियों का ट्रैक रखना HeadHunter दैनिक निगरानी
निष्क्रिय उम्मीदवारों की खोज LinkedIn 50–500 प्रोफाइल/दिन

मुख्य बिंदु: बड़ी मात्रा के कार्य (प्रतिदिन हजारों नौकरियाँ) के लिए रोटेशन के साथ प्रॉक्सी का पूल आवश्यक है। छोटी मात्रा के कार्य (50-100 पदों की दैनिक निगरानी) को 1-2 स्थिर प्रॉक्सी के साथ किया जा सकता है यदि अनुरोधों के बीच देरी का पालन किया जाए।

नौकरी की स्क्रैपिंग के लिए तैयार उपकरण

अच्छी खबर: शून्य से कोड लिखने की आवश्यकता नहीं है। विभिन्न कार्यों और तकनीकी तैयारी के स्तर के लिए तैयार समाधान हैं। हम मुख्य श्रेणियों को देखेंगे।

नो-कोड उपकरण (बिना प्रोग्रामिंग)

Apify — LinkedIn और HeadHunter के लिए तैयार "एक्टर" के साथ एक क्लाउड प्लेटफार्म। यहाँ LinkedIn जॉब्स स्क्रैपर और HH.ru स्क्रैपर उपलब्ध हैं। आप बस खोज के पैरामीटर निर्दिष्ट करते हैं, प्लेटफार्म बाकी सब कुछ करता है। अपने प्रॉक्सी को कनेक्ट करने का समर्थन करता है। टैरिफ $49/माह से शुरू होते हैं, एक मुफ्त सीमा भी है।

Phantombuster — LinkedIn पर विशेष ध्यान केंद्रित करता है। यह नौकरियाँ, प्रोफाइल, कंपनियों के संपर्कों को इकट्ठा कर सकता है। यह अधिकृत LinkedIn खाते के माध्यम से काम करता है। प्रॉक्सी का समर्थन करता है। महत्वपूर्ण: एक LinkedIn खाता = एक प्रॉक्सी प्रोफाइल, अन्यथा IP बदलने के लिए बैन मिल जाएगा।

Octoparse — स्क्रैपर्स का एक दृश्य निर्माता। बिना कोड के किसी भी वेबसाइट से डेटा इकट्ठा करने के लिए आवश्यक तत्वों को माउस से निर्दिष्ट करके सेटअप करने की अनुमति देता है। प्रॉक्सी के रोटेशन का समर्थन करता है। HeadHunter के लिए उपयुक्त - इंटरफेस सरल और स्पष्ट है।

तकनीकी उपयोगकर्ताओं के लिए उपकरण

ParseHub — एक डेस्कटॉप एप्लिकेशन जिसमें दृश्य इंटरफेस है, लेकिन Octoparse की तुलना में अधिक लचीला है। यह गतिशील सामग्री (JavaScript पृष्ठों) के साथ काम कर सकता है। LinkedIn के लिए यह महत्वपूर्ण है - अधिकांश डेटा गतिशील रूप से लोड होता है।

Bright Data (Web Scraper IDE) — अंतर्निहित प्रॉक्सी के साथ एक पेशेवर प्लेटफार्म। LinkedIn के लिए तैयार टेम्पलेट उपलब्ध हैं। महंगा है, लेकिन औद्योगिक मात्रा के लिए विश्वसनीय है।

HH.ru API — HeadHunter का आधिकारिक API। गैर-व्यावसायिक उपयोग के लिए मुफ्त, व्यावसायिक उपयोग के लिए भुगतान। यदि आपका कार्य नौकरी की निगरानी करना है, न कि संपर्कों का बड़े पैमाने पर संग्रह करना, तो आधिकारिक API सबसे स्थिर विकल्प है। सीमाएँ: अधिकृत अनुप्रयोगों के लिए प्रति सेकंड 50 अनुरोध।

💡 सुझाव

HeadHunter के लिए आधिकारिक API से शुरू करें - यह कानूनी, स्थिर और कुछ सीमाओं तक मुफ्त है। LinkedIn के लिए बिना तृतीय पक्ष के उपकरण और प्रॉक्सी के काम नहीं चलेगा, क्योंकि नौकरी के लिए कोई आधिकारिक सार्वजनिक API नहीं है।

प्रॉक्सी की आवश्यकता और किस प्रकार का चयन करें

प्रॉक्सी एक मध्यवर्ती सर्वर है, जिसके माध्यम से आपके अनुरोध जाते हैं। प्लेटफार्म प्रॉक्सी का IP देखता है, न कि आपका असली पता। प्रॉक्सी के रोटेशन (IP का स्वचालित परिवर्तन) के साथ, प्रत्येक अनुरोध एक नए उपयोगकर्ता के अनुरोध के रूप में दिखाई देता है - इससे सीमाओं और ब्लॉकों को बायपास करना संभव होता है।

लेकिन सभी प्रॉक्सी LinkedIn और HeadHunter के लिए समान रूप से प्रभावी नहीं हैं। प्रॉक्सी के प्रकार का चयन परिणाम पर महत्वपूर्ण प्रभाव डालता है:

प्रॉक्सी का प्रकार LinkedIn HeadHunter गति कीमत
निवासी ✅ उत्कृष्ट ✅ उत्कृष्ट मध्यम $$
मोबाइल ✅ उत्कृष्ट ✅ अच्छा मध्यम $$$
डेटा सेंटर ❌ अक्सर ब्लॉक होते हैं ⚠️ मध्यम उच्च $

निवासी प्रॉक्सी - LinkedIn के लिए सर्वोत्तम विकल्प

निवासी प्रॉक्सी वास्तविक घरेलू उपयोगकर्ताओं के IP पते का उपयोग करते हैं। LinkedIn के दृष्टिकोण से - यह एक सामान्य व्यक्ति है जो घर पर बैठा है। ऐसे IP बहुत कम काले सूचियों में आते हैं, और प्लेटफार्म उन्हें वास्तविक उपयोगकर्ता से अलग नहीं कर सकता। LinkedIn की स्क्रैपिंग के लिए यह उद्योग मानक है।

नौकरी की स्क्रैपिंग के लिए निवासी प्रॉक्सी के चयन के दौरान मुख्य पैरामीटर:

  • भौगोलिक स्थान: उस देश के IP का चयन करें, जिसकी नौकरियाँ आप स्क्रैप कर रहे हैं (HeadHunter के लिए - रूस, LinkedIn के लिए - आवश्यक देश)
  • रोटेशन: प्रत्येक अनुरोध के बाद या टाइमर के अनुसार IP का स्वचालित परिवर्तन
  • IP पूल: जितना बड़ा होगा, उतना बेहतर होगा, यह ब्लॉक किए गए IP के पुन: उपयोग के जोखिम को कम करता है
  • HTTP/HTTPS और SOCKS5 का समर्थन - अधिकांश स्क्रैपिंग उपकरणों को इन प्रोटोकॉल की आवश्यकता होती है

मोबाइल प्रॉक्सी - LinkedIn खातों के साथ काम करने के लिए

यदि आप अधिकृत खाते के माध्यम से LinkedIn को स्क्रैप कर रहे हैं (जैसे कि Phantombuster काम करता है), मोबाइल प्रॉक्सी अतिरिक्त लाभ देती हैं: LinkedIn मोबाइल ऑपरेटर को स्रोत के रूप में देखता है और ऐसे IP पर अधिक भरोसा करता है। एक मोबाइल IP हजारों वास्तविक उपयोगकर्ताओं की सेवा कर सकता है (ऑपरेटर के NAT के पीछे), इसलिए इससे उच्च गतिविधि भी संदेह नहीं पैदा करती है।

डेटा सेंटर प्रॉक्सी - केवल HeadHunter के लिए

डेटा सेंटर प्रॉक्सी तेज और सस्ते होते हैं, लेकिन LinkedIn उन्हें आक्रामक रूप से ब्लॉक करता है। HeadHunter के लिए वे बेहतर काम करते हैं: प्लेटफार्म डेटा सेंटर IP के प्रति कम पैरानोइड है, विशेष रूप से यदि अनुरोधों के बीच देरी का पालन किया जाए। ये छोटे वॉल्यूम में HH पर नौकरी की निगरानी के लिए बजट के अनुकूल होते हैं।

LinkedIn स्क्रैपिंग: चरण-दर-चरण सेटअप

LinkedIn स्क्रैपिंग के लिए सबसे कठिन प्लेटफार्म है। यहाँ सावधानी से कार्य करना महत्वपूर्ण है, ताकि आपका खाता न खोए। हम Phantombuster के उदाहरण पर काम करने की योजना को देखेंगे - जो भर्तीकर्ताओं के बीच सबसे लोकप्रिय उपकरणों में से एक है।

चरण 1: LinkedIn खाता तैयार करें

स्क्रैपिंग के लिए कभी भी अपने मुख्य कार्य खाते का उपयोग न करें। एक अलग खाता बनाएं या एक द्वितीयक खाता उपयोग करें। यदि इसे ब्लॉक किया जाता है - तो आप मूल्यवान संपर्कों और इतिहास को नहीं खोएंगे। खाता "गर्म" होना चाहिए: भरा हुआ प्रोफाइल, कुछ संपर्क, स्क्रैपिंग शुरू करने से पहले कम से कम एक सप्ताह की गतिविधि।

चरण 2: खाते से प्रॉक्सी को लिंक करें

महत्वपूर्ण नियम: एक LinkedIn खाता = एक IP पता। यदि आप आज IP 1 से लॉग इन करते हैं, और कल IP 2 से - तो यह LinkedIn की सुरक्षा प्रणाली के लिए एक लाल झंडा है। प्रत्येक खाते के लिए स्थिर निवासी प्रॉक्सी (स्टिकी सत्र) का उपयोग करें।

Phantombuster में प्रॉक्सी सेटअप इस प्रकार है:

  1. अपने Phantombuster खाते में Settings → Proxies पर जाएँ
  2. Add Proxy पर क्लिक करें
  3. प्रॉक्सी का डेटा दर्ज करें: होस्ट, पोर्ट, लॉगिन, पासवर्ड
  4. प्रकार चुनें: HTTP या SOCKS5 (आपके प्रॉक्सी प्रदाता पर निर्भर करता है)
  5. Test Proxy पर क्लिक करें - सुनिश्चित करें कि प्रॉक्सी काम कर रही है
  6. इस प्रॉक्सी को आपके खाते के साथ काम करने वाले विशेष "फैंटम" (कार्य) पर असाइन करें

चरण 3: LinkedIn जॉब्स एक्सपोर्ट सेट करें

Phantombuster में "LinkedIn Jobs Search Export" फैंटम खोजें। सेटिंग्स:

  • Search URL: आवश्यक फ़िल्टर (पद, शहर, रोजगार का प्रकार) के साथ LinkedIn नौकरी खोज का URL डालें
  • Number of jobs per launch: 25-50 से शुरू करें। पहले दिन 500 न रखें
  • Launch frequency: 2-3 घंटे में एक बार। लगातार न चलाएँ
  • Session cookie: ब्राउज़र से li_at कुकी कॉपी करें (निर्देश Phantombuster में हैं)

चरण 4: सुरक्षित सीमाएँ सेट करें

LinkedIn आक्रामकता के लिए ब्लॉक करता है, न कि स्क्रैपिंग के तथ्य के लिए। एक खाते के लिए सुरक्षित सीमाएँ:

  • दिन में 80-100 नौकरी के दृश्यता से अधिक नहीं
  • अनुरोधों के बीच देरी: कम से कम 3-5 सेकंड
  • रात के समय में ब्रेक लें (मानव व्यवहार की नकल करें)
  • सप्ताहांत में स्क्रैपिंग न चलाएँ - यह B2B प्लेटफार्म के लिए संदेहास्पद लगता है

⚠️ यदि LinkedIn से बड़ी मात्रा में डेटा की आवश्यकता है

यदि आपको प्रतिदिन हजारों नौकरियों को स्क्रैप करना है - तो कई खातों का उपयोग करें, प्रत्येक के साथ अपना निवासी प्रॉक्सी। एक खाता + एक IP = बिना ब्लॉक के प्रति दिन अधिकतम 100 नौकरियाँ। 10 खाते × 100 = 1000 नौकरियाँ प्रति दिन।

HeadHunter स्क्रैपिंग: विशेषताएँ और सेटअप

HeadHunter LinkedIn की तुलना में स्क्रैपिंग के मामले में दो कारणों से आसान है: एक आधिकारिक API है, और सुरक्षा कम आक्रामक है। लेकिन यदि सही सेटअप के बिना बड़े पैमाने पर डेटा इकट्ठा किया जाता है, तो आपको फिर भी ब्लॉक मिल जाएगा।

विकल्प 1: आधिकारिक HeadHunter API (सिफारिश की गई)

यदि आपका कार्य नौकरी की निगरानी और बाजार का विश्लेषण करना है (संपर्कों का संग्रह नहीं), तो hh.ru का आधिकारिक API उपयोग करें। यह पूरी तरह से कानूनी है और डेटा तक स्थिर पहुंच प्रदान करता है।

  1. dev.hh.ru पर एप्लिकेशन पंजीकृत करें
  2. client_id और client_secret प्राप्त करें
  3. नौकरियों की खोज के लिए GET /vacancies एंडपॉइंट का उपयोग करें
  4. फिल्टरिंग पैरामीटर: text, area (क्षेत्र), salary, experience, schedule
  5. सीमा: अधिकृत अनुप्रयोगों के लिए प्रति सेकंड 50 अनुरोध

परिणाम JSON प्रारूप में आता है - इसे Excel या Google Sheets में आसानी से लोड किया जा सकता है, जैसे कि Zapier या Make (पूर्व में Integromat) के माध्यम से बिना कोड लिखे।

विकल्प 2: Apify के माध्यम से स्क्रैपिंग (कोड के बिना)

यदि आपको ऐसे डेटा की आवश्यकता है जो आधिकारिक API में नहीं है (जैसे नियोक्ताओं के संपर्क या असामान्य प्रारूप में डेटा), तो HH.ru के लिए तैयार अभिनेता के साथ Apify का उपयोग करें:

  1. apify.com पर जाएँ और "HH.ru Scraper" अभिनेता खोजें
  2. Try for free पर क्लिक करें
  3. सेटिंग्स में खोज क्वेरी (पद, शहर) निर्दिष्ट करें
  4. Proxy configuration अनुभाग में "Custom proxies" चुनें और अपने प्रॉक्सी का डेटा डालें
  5. HeadHunter के लिए निवासी प्रॉक्सी के साथ रूसी IP उपयुक्त होंगे - प्लेटफार्म क्षेत्रीय है
  6. Start पर क्लिक करें और परिणामों की प्रतीक्षा करें
  7. डेटा को CSV, JSON या Excel में निर्यात करें

विकल्प 3: उन्नत कार्यों के लिए Octoparse

Octoparse HH.ru के किसी भी पृष्ठ के तत्वों की स्क्रैपिंग को सेटअप करने की अनुमति देता है - जिसमें वे भी शामिल हैं जो API में नहीं हैं। उदाहरण के लिए, आप नौकरी के विवरण को पूरी तरह से, संपर्क जानकारी (यदि वे दिखाई देते हैं), कंपनियों के लिंक इकट्ठा कर सकते हैं।

  1. Octoparse डाउनलोड और इंस्टॉल करें
  2. एक नया कार्य बनाएं, hh.ru पर नौकरी खोज का URL डालें
  3. ऑटो-डिटेक्ट मोड का उपयोग करें - Octoparse स्वचालित रूप से सूची की संरचना का निर्धारण करेगा
  4. सुनिश्चित करें कि सभी आवश्यक फ़ील्ड हाइलाइट किए गए हैं (शीर्षक, कंपनी, वेतन, शहर)
  5. कार्य सेटिंग्स में IP Rotation सक्षम करें और अपने प्रॉक्सी जोड़ें
  6. अनुरोधों के बीच देरी सेट करें: 2-4 सेकंड
  7. निरंतर संग्रह के लिए क्लाउड में चलाएँ (Cloud Extraction)

💡 HeadHunter के लिए प्रॉक्सी का भौगोलिक स्थान

HeadHunter उपयोगकर्ता के क्षेत्र को IP द्वारा निर्धारित करता है और क्षेत्रीय नौकरियाँ दिखाता है। यदि आप किसी विशेष शहर (जैसे केवल मॉस्को या सेंट पीटर्सबर्ग) से नौकरियों को स्क्रैप करना चाहते हैं, तो उस क्षेत्र के IP के साथ प्रॉक्सी का उपयोग करें। सामान्य रूसी निगरानी के लिए किसी भी रूसी IP का उपयोग करना पर्याप्त है।

आम गलतियाँ और उनसे कैसे बचें

LinkedIn और HeadHunter पर स्क्रैपिंग के दौरान अधिकांश समस्याएँ समान गलतियों के कारण होती हैं। यहाँ उन चीजों की चेक-लिस्ट है जो नहीं करनी चाहिए:

❌ गलती 1: सब कुछ के लिए एक IP का उपयोग करना

शुरुआती लोगों की सबसे सामान्य गलती - अपने घरेलू IP या एक प्रॉक्सी से स्क्रैपिंग करना। जैसे ही प्लेटफार्म असामान्य गतिविधि का पता लगाते हैं - IP हमेशा के लिए ब्लॉक हो जाता है। समाधान: रोटेशन प्रॉक्सी का उपयोग करें जो स्वचालित रूप से IP बदलता है या कई स्थिर प्रॉक्सी का पूल।

❌ गलती 2: अनुरोधों की बहुत उच्च गति

10 मिनट में 1000 पृष्ठों की स्क्रैपिंग - बैन का सही रास्ता है। एक वास्तविक उपयोगकर्ता शारीरिक रूप से इतनी तेजी से पृष्ठों को नहीं देख सकता। देरी सेट करें: HeadHunter के लिए अनुरोधों के बीच न्यूनतम 2-3 सेकंड, LinkedIn के लिए 5-10 सेकंड। देरी में यादृच्छिक परिवर्तन जोड़ें (सिर्फ 3 सेकंड नहीं, बल्कि 2 से 5 के बीच - यह मानव की नकल करता है)।

❌ गलती 3: LinkedIn खाते के लिए IP बदलना

यदि आप अधिकृत LinkedIn खाते के साथ काम करने के लिए रोटेशन प्रॉक्सी का उपयोग कर रहे हैं - तो प्रत्येक अनुरोध नए IP से जाता है। LinkedIn इसे खाता हैक के रूप में देखता है (कोई विभिन्न स्थानों से कनेक्ट हो रहा है) और इसे ब्लॉक कर देता है। अधिकृत सत्रों के लिए केवल स्टिकी प्रॉक्सी (लंबे समय के लिए स्थिर IP) या स्थिर निवासी प्रॉक्सी का उपयोग करें।

❌ गलती 4: यूजर-एजेंट की अनदेखी करना

यूजर-एजेंट वह स्ट्रिंग है जो ब्राउज़र सर्वर को भेजता है, जो खुद को पहचानता है। कई स्क्रैपिंग उपकरण डिफ़ॉल्ट रूप से "python-requests/2.28.0" जैसा यूजर-एजेंट भेजते हैं - यह तुरंत बॉट को उजागर करता है। एक आधुनिक ब्राउज़र का यथार्थवादी यूजर-एजेंट सेट करें। Apify और Phantombuster में यह स्वचालित रूप से किया जाता है, Octoparse में - कार्य सेटिंग्स में।

❌ गलती 5: robots.txt की जांच किए बिना स्क्रैपिंग करना

LinkedIn अपने robots.txt में स्क्रैपिंग को मना करता है और उन कंपनियों के खिलाफ सक्रिय रूप से मुकदमा करता है जो इसे औद्योगिक पैमाने पर करती हैं। इसका मतलब यह नहीं है कि व्यक्तिगत विश्लेषण के लिए डेटा इकट्ठा नहीं किया जा सकता - लेकिन व्यावसायिक उपयोग के दौरान कानूनी जोखिम को समझना महत्वपूर्ण है। HeadHunter अधिक सहिष्णु है, विशेष रूप से यदि आधिकारिक API का उपयोग किया जाए।

❌ गलती 6: सस्ते सार्वजनिक प्रॉक्सी

मुफ्त या बहुत सस्ते प्रॉक्सी जो सार्वजनिक सूचियों से हैं - यह एक जाल है। ये पहले से ही अधिकांश प्लेटफार्मों द्वारा ब्लॉक किए गए हैं, अस्थिर रूप से काम करते हैं, अक्सर डेटा को इंटरसेप्ट करते हैं। गंभीर काम के लिए वास्तविक निवासी या मोबाइल IP के साथ विश्वसनीय प्रदाताओं से भुगतान प्रॉक्सी की आवश्यकता होती है।

स्क्रैपिंग शुरू करने से पहले चेक-लिस्ट

  • ✅ एक अलग खाता उपयोग किया गया (मुख्य कार्य खाता नहीं)
  • ✅ निवासी या मोबाइल प्रॉक्सी जुड़े हुए हैं
  • ✅ LinkedIn के लिए: एक खाता = एक स्थिर IP
  • ✅ अनुरोधों के बीच देरी सेट की गई है (न्यूनतम 3 सेकंड)
  • ✅ यूजर-एजेंट वास्तविक ब्राउज़र के रूप में सेट किया गया है
  • ✅ दैनिक अनुरोधों की सीमा उचित मानों तक सीमित है
  • ✅ स्क्रैपिंग शुरू करने से पहले प्रॉक्सी का परीक्षण किया गया है
  • ✅ प्रॉक्सी का भौगोलिक स्थान लक्षित क्षेत्र के अनुरूप है

निष्कर्ष

LinkedIn और HeadHunter से नौकरी की स्क्रैपिंग - भर्तीकर्ताओं, HR विश्लेषकों और श्रम बाजार के शोधकर्ताओं के लिए एक कार्यशील उपकरण है। मुख्य बात - सही दृष्टिकोण चुनना: HeadHunter के लिए आधिकारिक API से शुरू करें, LinkedIn के लिए Phantombuster या Apify जैसे विशेष उपकरणों का उपयोग करें, सही प्रॉक्सी के साथ।

मार्गदर्शिका से मुख्य निष्कर्ष: LinkedIn को प्रत्येक खाते पर स्थिर IP के साथ निवासी या मोबाइल प्रॉक्सी की आवश्यकता होती है, HeadHunter कम सख्त है, लेकिन बड़े वॉल्यूम में प्रॉक्सी की भी आवश्यकता होती है। अनुरोधों की सीमाओं का पालन करें, मानव व्यवहार की नकल करें और कभी भी स्वचालन के लिए मुख्य खाते का उपयोग न करें।

यदि आप नौकरी की नियमित निगरानी या LinkedIn से बड़े पैमाने पर डेटा संग्रह की योजना बना रहे हैं, तो हम निवासी प्रॉक्सी का उपयोग करने की सिफारिश करते हैं - वे दोनों प्लेटफार्मों के साथ अधिकतम संगतता और दीर्घकालिक काम के दौरान ब्लॉक के न्यूनतम जोखिम को सुनिश्चित करते हैं।

```