العودة إلى المدونة

تحليل الوظائف من لينكدإن وHeadHunter بدون حظر: أدوات وبروكسي للمسؤولين عن التوظيف

نستعرض كيفية جمع الوظائف تلقائيًا من LinkedIn وHeadHunter دون التعرض للحظر - الأدوات، البروكسي، والإعدادات خطوة بخطوة للمجندين والمتخصصين في الموارد البشرية.

📅٢٤ رمضان ١٤٤٧ هـ
```html

إذا كنت تعمل في مجال التوظيف أو تحليل الموارد البشرية، فمن المؤكد أنك واجهت موقفًا: تحتاج إلى جمع 500+ وظيفة من المنافسين بسرعة، تتبع سوق الرواتب أو استخراج جهات الاتصال لأرباب العمل - بينما تقوم المنصات بحظرك بعد 20-30 طلبًا فقط. LinkedIn و HeadHunter يحميان بياناتهما بنشاط، وبدون النهج الصحيح، يتحول استخراج البيانات إلى صراع لا نهاية له مع الكابتشا والحظر.

في هذا الدليل، سنستعرض الأدوات التي تعمل فعليًا في عام 2024، كيفية إعداد البروكسي لجمع البيانات بشكل مستقر، والأخطاء التي يجب تجنبها حتى لا تفقد حسابك.

لماذا تقوم LinkedIn و HeadHunter بحظر الاستخراج

كلا المنصتين تكسبان من البيانات. تقوم LinkedIn ببيع الوصول إلى قاعدة البيانات من خلال خطط اشتراك مدفوعة مثل Recruiter و Recruiter Lite، بينما HeadHunter تفعل ذلك من خلال API والإعلانات المدفوعة. عندما يبدأ شخص ما في جمع هذه البيانات بكثافة مجانًا، تتفاعل المنصات بشكل صارم. إليك آليات الحماية المحددة التي ستواجهها:

تحديد معدل الطلبات - تحديد معدل الطلبات

تقوم LinkedIn بتتبع عدد مشاهدات الملفات الشخصية وصفحات الوظائف في وحدة زمنية معينة. يمكن للحساب المجاني مشاهدة حوالي 300 ملف شخصي في الشهر - بعد ذلك ستحصل على تحذير أو حظر مؤقت. عند الاستخراج التلقائي بدون تأخيرات بين الطلبات، يتم استنفاد هذا الحد في غضون دقائق. تقوم HeadHunter بتحديد عدد طلبات البحث من عنوان IP واحد - عند تجاوز الحد، تظهر كابتشا أو يتم حظر الوصول مؤقتًا.

تحليل السلوك و User-Agent

تقوم المنصات بتحليل أنماط السلوك: المستخدم الحقيقي يقوم بالتمرير عبر الصفحة، ويتوقف على المحتوى، وينقر بشكل غير متسق. بينما يقوم الروبوت بإرسال الطلبات بفواصل زمنية متساوية، ولا يقوم بالتمرير، ويرسل رؤوس غير نمطية. تتحقق LinkedIn أيضًا من وجود جلسة مصرح بها - بدون تسجيل الدخول إلى الحساب، سترى بيانات محدودة وسرعان ما ستحصل على حظر من IP.

حظر عنوان IP

هذه هي الحماية الأكثر شيوعًا. إذا كانت هناك طلبات كثيرة جدًا من عنوان IP واحد - يتم إدراج IP في القائمة السوداء. يتم حظر عناوين IP الخاصة بمراكز البيانات (AWS، Google Cloud، Hetzner) بسرعة خاصة: تعرف المنصات على هذه النطاقات من العناوين وتعاملها بشك متزايد. يتم حظر عناوين IP المنزلية والمحمولة بشكل أقل، لأنها قد تكون مرتبطة بمستخدمين حقيقيين.

⚠️ من المهم أن تعرف

لقد قامت LinkedIn في عام 2023 بتشديد الحماية بشكل كبير: حتى عند مشاهدة الملفات الشخصية يدويًا باستخدام VPN أو بروكسي من مركز البيانات، قد يتم حظر الحساب. من الضروري استخدام بروكسي سكنية أو محمولة للعمل مع LinkedIn.

ما الذي يقوم به المستقطبون ومحللو الموارد البشرية

قبل إعداد الأدوات، حدد المهمة - حيث يعتمد عليها اختيار النهج ونوع البروكسي. إليك السيناريوهات الرئيسية التي يعمل بها متخصصو الموارد البشرية ووكالات التوظيف:

المهمة المنصة حجم البيانات
مراقبة الرواتب في السوق HeadHunter، LinkedIn 500–5000 وظيفة/يوم
جمع جهات الاتصال لأرباب العمل LinkedIn 100–1000 ملف شخصي/يوم
تحليل متطلبات المرشحين HeadHunter، LinkedIn 1000–10 000 وظيفة
تتبع الوظائف الجديدة للمنافسين HeadHunter مراقبة يومية
البحث عن المرشحين السلبيين LinkedIn 50–500 ملف شخصي/يوم

النقطة الرئيسية: المهام ذات الحجم الكبير من البيانات (آلاف الوظائف يوميًا) تتطلب مجموعة من البروكسي مع التدوير. المهام ذات الحجم الصغير (مراقبة 50-100 وظيفة يوميًا) يمكن حلها باستخدام 1-2 بروكسي ثابتة مع الالتزام بالتأخيرات بين الطلبات.

أدوات جاهزة لاستخراج الوظائف

الخبر الجيد: لا تحتاج إلى كتابة كود من الصفر. هناك حلول جاهزة لمهام مختلفة ومستويات مختلفة من التحضير الفني. دعونا نستعرض الفئات الرئيسية.

أدوات بدون كود (بدون برمجة)

Apify - منصة سحابية مع "ممثلي" جاهزين لـ LinkedIn و HeadHunter. هناك مستخرج وظائف LinkedIn ومخرب HH.ru جاهز. كل ما عليك هو تحديد معلمات البحث، وتقوم المنصة بكل شيء آخر. تدعم الاتصال بالبروكسي الخاصة. الأسعار تبدأ من 49 دولارًا/شهر، وهناك حد مجاني.

Phantombuster - متخصص في LinkedIn. يمكنه جمع الوظائف، الملفات الشخصية، جهات الاتصال للشركات. يعمل من خلال حساب LinkedIn مصرح به. يدعم البروكسي. من المهم: حساب LinkedIn واحد = ملف بروكسي واحد، وإلا ستحصل على حظر بسبب تغيير IP.

Octoparse - منشئ بصري للمستخرجين. يسمح لك بإعداد جمع البيانات من أي موقع بدون كود، من خلال تحديد العناصر المطلوبة باستخدام الماوس. يدعم تدوير البروكسي. مناسب لـ HeadHunter - الواجهة بسيطة وسهلة الفهم.

أدوات للمستخدمين التقنيين

ParseHub - تطبيق سطح مكتب مع واجهة بصرية، ولكنه أكثر مرونة من Octoparse. يمكنه العمل مع المحتوى الديناميكي (صفحات JavaScript). بالنسبة لـ LinkedIn، هذا أمر حاسم - يتم تحميل معظم البيانات ديناميكيًا.

Bright Data (Web Scraper IDE) - منصة احترافية مع بروكسي مدمجة. هناك قوالب جاهزة لـ LinkedIn. مكلفة، ولكن موثوقة لحجم صناعي.

HH.ru API - API الرسمي لـ HeadHunter. مجاني للاستخدام غير التجاري، ومدفوع للأعمال. إذا كانت مهمتك هي مراقبة الوظائف، وليس جمع جهات الاتصال بكثافة، فإن API الرسمي هو الخيار الأكثر استقرارًا. الحدود: 50 طلبًا في الثانية للتطبيقات المصرح بها.

💡 نصيحة

بالنسبة لـ HeadHunter، ابدأ باستخدام API الرسمي - هذا قانوني، مستقر ومجاني حتى حدود معينة. بالنسبة لـ LinkedIn، لا يمكنك الاستغناء عن الأدوات الخارجية والبروكسي، حيث لا يوجد API عام رسمي للوظائف.

لماذا تحتاج إلى بروكسي وأي نوع تختار

البروكسي هو خادم وسيط تمر عبره طلباتك. ترى المنصة IP البروكسي، وليس عنوانك الحقيقي. عند تدوير البروكسي (تغيير IP تلقائي)، يبدو كل طلب وكأنه طلب من مستخدم جديد - مما يسمح بتجاوز الحدود والحظر.

لكن ليس كل البروكسي فعالة بنفس القدر لـ LinkedIn و HeadHunter. يؤثر اختيار نوع البروكسي بشكل حاسم على النتيجة:

نوع البروكسي LinkedIn HeadHunter السرعة السعر
سكنية ✅ ممتاز ✅ ممتاز متوسطة $$
محمولة ✅ ممتاز ✅ جيد متوسطة $$$
مراكز البيانات ❌ غالبًا ما يتم حظرها ⚠️ معتدل عالية $

البروكسي السكنية - الخيار الأمثل لـ LinkedIn

البروكسي السكنية تستخدم عناوين IP حقيقية لمستخدمين منزليين. من وجهة نظر LinkedIn - هذا شخص عادي يجلس في منزله. نادرًا ما يتم إدراج هذه العناوين في القوائم السوداء، ولا يمكن للمنصة تمييزها عن المستخدم الحقيقي. لاستخراج LinkedIn، هذا هو المعيار الصناعي.

المعايير الرئيسية عند اختيار البروكسي السكنية لاستخراج الوظائف:

  • الموقع الجغرافي: اختر IP من البلد التي تقوم باستخراج الوظائف منها (لـ HeadHunter - روسيا، ولـ LinkedIn - البلد المطلوبة)
  • التدوير: تغيير IP تلقائي بعد كل طلب أو حسب المؤقت
  • مجموعة IP: كلما زادت، كان ذلك أفضل، يقلل من خطر إعادة استخدام IP المحظور
  • دعم HTTP/HTTPS و SOCKS5 - تتطلب معظم أدوات الاستخراج هذه البروتوكولات

البروكسي المحمولة - للعمل مع حسابات LinkedIn

إذا كنت تقوم باستخراج LinkedIn من خلال حساب مصرح به (كما يعمل Phantombuster)، فإن البروكسي المحمولة توفر ميزة إضافية: ترى LinkedIn مزود الخدمة المحمولة كمصدر وتثق في هذه العناوين أكثر. يمكن أن يخدم IP المحمول آلاف المستخدمين الحقيقيين (خلف NAT الخاص بمزود الخدمة)، لذلك حتى النشاط العالي منه لا يثير الشكوك.

بروكسي مراكز البيانات - فقط لـ HeadHunter

بروكسي مراكز البيانات - سريعة ورخيصة، لكن LinkedIn تحظرها بشكل عدواني. بالنسبة لـ HeadHunter، تعمل بشكل أفضل: المنصة أقل جنونًا تجاه عناوين IP الخاصة بمراكز البيانات، خاصة إذا تم الالتزام بالتأخيرات بين الطلبات. مناسبة لمراقبة الوظائف بميزانية صغيرة على HH عند أحجام صغيرة.

استخراج LinkedIn: إعداد خطوة بخطوة

LinkedIn هي المنصة الأكثر تعقيدًا للاستخراج. من المهم التصرف بحذر حتى لا تفقد حسابك. دعونا نستعرض خطة عمل باستخدام Phantombuster - واحدة من أكثر الأدوات شعبية بين المستقطبين.

الخطوة 1: إعداد حساب LinkedIn

لا تستخدم أبدًا حساب العمل الرئيسي للاستخراج. أنشئ حسابًا منفصلًا أو استخدم حسابًا ثانويًا. إذا تم حظره - فلن تفقد اتصالاتك القيمة وسجل النشاط. يجب أن يكون الحساب "مدفئًا": ملف شخصي مكتمل، عدة اتصالات، على الأقل أسبوع من النشاط قبل بدء الاستخراج.

الخطوة 2: ربط البروكسي بالحساب

قاعدة حرجة: حساب LinkedIn واحد = عنوان IP واحد. إذا قمت بتسجيل الدخول اليوم من IP 1، وغدًا من IP 2 - فهذا علم أحمر لنظام أمان LinkedIn. استخدم بروكسي سكنية ثابتة (جلسة ثابتة) لكل حساب.

في Phantombuster، يبدو إعداد البروكسي كالتالي:

  1. اذهب إلى الإعدادات → البروكسي في حسابك على Phantombuster
  2. اضغط على إضافة بروكسي
  3. أدخل بيانات البروكسي: المضيف، المنفذ، اسم المستخدم، كلمة المرور
  4. اختر النوع: HTTP أو SOCKS5 (يعتمد على مزود البروكسي الخاص بك)
  5. اضغط على اختبار البروكسي - تأكد من أن البروكسي يعمل
  6. خصص هذا البروكسي لـ "شبح" معين (مهمة) تعمل مع حسابك

الخطوة 3: إعداد تصدير وظائف LinkedIn

في Phantombuster، ابحث عن شبح "تصدير بحث وظائف LinkedIn". الإعدادات:

  • رابط البحث: أدخل رابط بحث الوظائف في LinkedIn مع الفلاتر المطلوبة (المسمى الوظيفي، المدينة، نوع التوظيف)
  • عدد الوظائف لكل إطلاق: ابدأ من 25-50. لا تضع 500 من اليوم الأول
  • تكرار الإطلاق: مرة واحدة كل 2-3 ساعات. لا تطلق بشكل مستمر
  • ملف تعريف الجلسة: انسخ ملف تعريف li_at من المتصفح (التعليمات موجودة في Phantombuster)

الخطوة 4: إعداد الحدود الآمنة

تقوم LinkedIn بحظر النشاط العدواني، وليس مجرد حقيقة الاستخراج. الحدود الآمنة لحساب واحد:

  • لا تزيد عن 80-100 مشاهدة للوظائف في اليوم
  • تأخير بين الطلبات: الحد الأدنى 3-5 ثوانٍ
  • قم بأخذ فترات راحة في الليل (تظاهر بسلوك إنساني)
  • لا تطلق الاستخراج في عطلات نهاية الأسبوع - يبدو ذلك مشبوهًا لمنصة B2B

⚠️ إذا كنت بحاجة إلى حجم كبير من البيانات من LinkedIn

إذا كنت بحاجة لاستخراج آلاف الوظائف يوميًا - استخدم عدة حسابات، كل منها مع بروكسي سكنية خاصة به. حساب واحد + IP واحد = حد أقصى 100 وظيفة في اليوم بدون خطر الحظر. 10 حسابات × 100 = 1000 وظيفة في اليوم.

استخراج HeadHunter: الخصائص والإعداد

HeadHunter أسهل من LinkedIn من حيث الاستخراج لسببين: هناك API رسمي، والحماية أقل عدوانية. لكن عند جمع البيانات بكثافة بدون إعداد صحيح، ستواجه الحظر أيضًا.

الخيار 1: API الرسمي لـ HeadHunter (موصى به)

إذا كانت مهمتك هي مراقبة الوظائف وتحليل السوق (بدون جمع جهات الاتصال)، استخدم API الرسمي لـ hh.ru. هذا قانوني تمامًا ويوفر وصولًا مستقرًا للبيانات.

  1. سجل تطبيقًا على dev.hh.ru
  2. احصل على client_id و client_secret
  3. استخدم نقطة النهاية GET /vacancies للبحث عن الوظائف
  4. معلمات التصفية: النص، المنطقة (المنطقة)، الراتب، الخبرة، الجدول الزمني
  5. الحد: 50 طلبًا في الثانية للتطبيقات المصرح بها

تأتي النتائج بتنسيق JSON - من السهل تحميلها في Excel أو Google Sheets من خلال أدوات مثل Zapier أو Make (المعروفة سابقًا باسم Integromat) بدون كتابة كود.

الخيار 2: الاستخراج عبر Apify (بدون كود)

إذا كنت بحاجة إلى بيانات غير متوفرة في API الرسمي (مثل جهات الاتصال لأرباب العمل أو البيانات بتنسيق غير قياسي)، استخدم Apify مع ممثل جاهز لـ HH.ru:

  1. اذهب إلى apify.com وابحث عن ممثل "HH.ru Scraper"
  2. اضغط على جرب مجانًا
  3. في الإعدادات، حدد استعلام البحث (المسمى الوظيفي، المدينة)
  4. في قسم إعداد البروكسي، اختر "بروكسي مخصصة" وأدخل بيانات البروكسي الخاصة بك
  5. لـ HeadHunter، ستناسب البروكسي السكنية مع عناوين IP الروسية - المنصة إقليمية
  6. اضغط على ابدأ وانتظر النتائج
  7. قم بتصدير البيانات إلى CSV أو JSON أو Excel

الخيار 3: Octoparse للمهام المتقدمة

يسمح لك Octoparse بإعداد استخراج أي عناصر من صفحة HH.ru - بما في ذلك تلك التي لا توجد في API. على سبيل المثال، يمكنك جمع أوصاف الوظائف بالكامل، وبيانات الاتصال (إذا كانت مرئية)، وروابط الشركات.

  1. قم بتنزيل وتثبيت Octoparse
  2. أنشئ مهمة جديدة، وأدخل رابط بحث الوظائف على hh.ru
  3. استخدم وضع الكشف التلقائي - سيحدد Octoparse هيكل القائمة بنفسه
  4. تحقق من أن جميع الحقول المطلوبة محددة (العنوان، الشركة، الراتب، المدينة)
  5. في إعدادات المهمة، قم بتمكين تدوير IP وأضف البروكسي الخاصة بك
  6. حدد تأخيرًا بين الطلبات: 2-4 ثوانٍ
  7. قم بتشغيله في السحابة (استخراج سحابي) لجمع مستمر

💡 الموقع الجغرافي للبروكسي لـ HeadHunter

تحدد HeadHunter المنطقة الجغرافية للمستخدم من خلال IP وتعرض الوظائف الإقليمية. إذا كنت ترغب في استخراج الوظائف من مدينة معينة (مثل موسكو أو سانت بطرسبرغ فقط)، استخدم بروكسي مع IP من تلك المنطقة. لمراقبة عامة في روسيا، يكفي أي IP روسي.

الأخطاء الشائعة وكيفية تجنبها

تحدث معظم المشاكل عند استخراج البيانات من LinkedIn و HeadHunter بسبب نفس الأخطاء. إليك قائمة مرجعية لما لا يجب القيام به:

❌ الخطأ 1: استخدام IP واحد لكل شيء

الخطأ الأكثر شيوعًا بين المبتدئين هو بدء الاستخراج من IP المنزلي الخاص بهم أو من بروكسي واحد. بمجرد أن تكتشف المنصة نشاطًا غير طبيعي - يتم حظر IP بشكل دائم. الحل: استخدم بروكسي متغيرة مع تغيير تلقائي لـ IP أو مجموعة من البروكسي الثابتة.

❌ الخطأ 2: سرعة الطلبات العالية جدًا

استخراج 1000 صفحة في 10 دقائق هو طريق مؤكد للحظر. لا يمكن للمستخدم الحقيقي تصفح الصفحات بهذه السرعة. قم بتعيين التأخيرات: الحد الأدنى 2-3 ثوانٍ بين الطلبات لـ HeadHunter، و5-10 ثوانٍ لـ LinkedIn. أضف تنوعًا عشوائيًا في التأخير (ليس 3 ثوانٍ بالضبط، بل من 2 إلى 5 - هذا يحاكي السلوك البشري).

❌ الخطأ 3: تغيير IP لحساب LinkedIn

إذا كنت تستخدم بروكسي متغيرة للعمل مع حساب LinkedIn مصرح به - فإن كل طلب يأتي من IP جديد. ترى LinkedIn هذا كاختراق للحساب (شخص ما يتصل من أماكن مختلفة) وتحظره. استخدم فقط بروكسي ثابتة (IP ثابت لفترة طويلة) أو بروكسي سكنية ثابتة للجلسات المصرح بها.

❌ الخطأ 4: تجاهل User-Agent

User-Agent هو السلسلة التي يرسلها المتصفح إلى الخادم، معرفًا نفسه. العديد من أدوات الاستخراج ترسل بشكل افتراضي User-Agent مثل "python-requests/2.28.0" - وهذا يكشف الروبوت على الفور. قم بإعداد User-Agent واقعي لمتصفح حديث. في Apify و Phantombuster، يتم ذلك تلقائيًا، في Octoparse - في إعدادات المهمة.

❌ الخطأ 5: الاستخراج بدون التحقق من robots.txt

تحظر LinkedIn الاستخراج في ملف robots.txt الخاص بها وتقوم بمقاضاة الشركات التي تقوم بذلك على نطاق واسع. هذا لا يعني أنه لا يمكنك جمع البيانات للتحليل الشخصي - ولكن من المهم فهم المخاطر القانونية عند الاستخدام التجاري. HeadHunter أكثر تسامحًا، خاصة عند استخدام API الرسمي.

❌ الخطأ 6: بروكسي عامة رخيصة

البروكسي المجانية أو الرخيصة جدًا من القوائم العامة - هي فخ. تم حظرها بالفعل من قبل معظم المنصات، وتعمل بشكل غير مستقر، وغالبًا ما تلتقط البيانات. للعمل الجاد، تحتاج إلى بروكسي مدفوعة من مزودين موثوقين مع عناوين IP سكنية أو محمولة حقيقية.

قائمة مرجعية قبل بدء الاستخراج

  • ✅ يتم استخدام حساب منفصل (ليس الحساب الرئيسي للعمل)
  • ✅ تم توصيل بروكسي سكنية أو محمولة
  • ✅ بالنسبة لـ LinkedIn: حساب واحد = IP ثابت واحد
  • ✅ تم إعداد التأخيرات بين الطلبات (الحد الأدنى 3 ثوانٍ)
  • ✅ تم تعيين User-Agent مثل متصفح حقيقي
  • ✅ تم تحديد حد يومي للطلبات بقيم معقولة
  • ✅ تم اختبار البروكسي قبل البدء
  • ✅ يتوافق الموقع الجغرافي للبروكسي مع المنطقة المستهدفة

الخاتمة

استخراج الوظائف من LinkedIn و HeadHunter هو أداة فعالة لمتخصصي التوظيف، ومحللي الموارد البشرية، وباحثي سوق العمل. الأهم هو اختيار النهج الصحيح: بالنسبة لـ HeadHunter، ابدأ باستخدام API الرسمي، بالنسبة لـ LinkedIn، استخدم أدوات متخصصة مثل Phantombuster أو Apify مع إعدادات بروكسي صحيحة.

الاستنتاجات الرئيسية من الدليل: تتطلب LinkedIn بروكسي سكنية أو محمولة مع IP ثابت لكل حساب، بينما تكون HeadHunter أقل صرامة، ولكنها تحتاج أيضًا إلى بروكسي عند أحجام كبيرة. التزم بحدود الطلبات، وتظاهر بالسلوك البشري، ولا تستخدم أبدًا حسابك الرئيسي للأتمتة.

إذا كنت تخطط لمراقبة منتظمة للوظائف أو جمع بيانات على نطاق واسع من LinkedIn، نوصي باستخدام البروكسي السكنية - فهي توفر أقصى توافق مع كلا المنصتين وأقل خطر للحظر حتى مع العمل لفترات طويلة.

```