あなたがリクルーティングやHR分析を行っている場合、500以上の競合の求人を迅速に収集したり、給与市場を追跡したり、雇用主の連絡先を抽出したりする必要がある状況に直面したことがあるでしょう。しかし、プラットフォームは20〜30のリクエストの後にあなたをブロックします。LinkedInとHeadHunterはデータを積極的に保護しており、正しいアプローチなしでは、解析はCAPTCHAやブロックとの終わりのない戦いに変わります。
このガイドでは、2024年に実際に機能するツール、データを安定して収集するためのプロキシの設定方法、アカウントを失わないために避けるべきエラーについて説明します。
なぜLinkedInとHeadHunterは解析をブロックするのか
両方のプラットフォームはデータで収益を上げています。LinkedInは、RecruiterやRecruiter Liteの有料プランを通じてデータベースへのアクセスを販売し、HeadHunterはAPIや有料掲載を通じて収益を上げています。誰かがこれらのデータを無料で大量に収集し始めると、プラットフォームは厳しく反応します。以下は、あなたが直面する具体的な保護メカニズムです:
レート制限 — リクエストの頻度制限
LinkedInは、一定の時間内にプロファイルや求人ページの閲覧数を追跡します。無料アカウントは月に約300のプロファイルを閲覧できます — それを超えると警告または一時的なブロックを受けます。リクエスト間に遅延がない自動解析では、この制限が数分で消費されます。HeadHunterは、1つのIPからの検索リクエストの数を制限しており、超過するとCAPTCHAを表示したり、一時的にアクセスをブロックしたりします。
行動分析とUser-Agent
プラットフォームは行動パターンを分析します:実際のユーザーはページをスクロールし、コンテンツに留まり、非連続的にクリックします。ボットは同じ間隔でリクエストを行い、スクロールせず、非典型的なヘッダーを送信します。LinkedInはさらに、認証されたセッションの存在を確認します — アカウントにログインしないと、制限されたデータしか表示されず、非常に早くIPがブロックされます。
IPアドレスによるブロック
これは最も一般的な保護です。1つのIPからのリクエストが多すぎると、そのIPはブラックリストに載ります。特にデータセンターのIP(AWS、Google Cloud、Hetzner)は迅速にブロックされます:プラットフォームはこれらのアドレス範囲を知っており、特に疑いを持って扱います。家庭用やモバイルのIPは、実際のユーザーが背後にいる可能性があるため、ブロックされることは少ないです。
⚠️ 知っておくべきこと
LinkedInは2023年に保護を大幅に強化しました:現在、VPNやデータセンターのプロキシを使用してプロファイルを手動で閲覧しても、アカウントがブロックされる可能性があります。LinkedInでの作業には、居住用またはモバイルプロキシが極めて重要です。
リクルーターとHRアナリストが解析する内容
ツールを設定する前に、タスクを明確に定義してください — それによってアプローチとプロキシのタイプが決まります。以下は、HR専門家やリクルーティングエージェンシーが取り組む主なシナリオです:
| タスク | プラットフォーム | データ量 |
|---|---|---|
| 市場の給与の監視 | HeadHunter、LinkedIn | 500–5000求人/日 |
| 雇用主の連絡先の収集 | 100–1000プロファイル/日 | |
| 候補者に対する要求の分析 | HeadHunter、LinkedIn | 1000–10,000求人 |
| 競合の新しい求人の追跡 | HeadHunter | 日々の監視 |
| 受動的候補者の検索 | 50–500プロファイル/日 |
重要な点:大量のデータを必要とするタスク(1日あたり数千の求人)は、ローテーションのあるプロキシプールを必要とします。少量のデータを必要とするタスク(毎日50-100のポジションの監視)は、リクエスト間に遅延を守ることで1-2の静的プロキシで解決できます。
求人解析のための完成したツール
良いニュース:ゼロからコードを書く必要はありません。さまざまなタスクと技術的な準備レベルに応じた完成したソリューションがあります。主要なカテゴリを見ていきましょう。
ノーコードツール(プログラミングなし)
Apify — LinkedInとHeadHunterのための完成した「アクター」を持つクラウドプラットフォームです。LinkedIn Jobs ScraperとHH.ru Scraperがあります。検索パラメータを指定するだけで、プラットフォームが残りを処理します。独自のプロキシを接続できます。料金は月49ドルからで、無料制限があります。
Phantombuster — LinkedInに特化しています。求人、プロファイル、企業の連絡先を収集できます。認証されたLinkedInアカウントを介して動作します。プロキシをサポートしています。重要:1つのLinkedInアカウント = 1つのプロキシプロファイル、そうでないとIPの変更によるブロックを受けます。
Octoparse — ビジュアルパーサーの構築ツールです。必要な要素をマウスで指定することで、コードなしで任意のウェブサイトからデータを収集する設定ができます。プロキシのローテーションをサポートしています。HeadHunterに適しており、インターフェースはシンプルでわかりやすいです。
技術的ユーザー向けのツール
ParseHub — ビジュアルインターフェースを持つデスクトップアプリですが、Octoparseよりも柔軟です。動的コンテンツ(JavaScriptページ)で動作できます。LinkedInにとっては重要です — 大部分のデータは動的に読み込まれます。
Bright Data (Web Scraper IDE) — 組み込みのプロキシを持つプロフェッショナルプラットフォームです。LinkedIn用の完成したテンプレートがあります。高価ですが、産業規模の信頼性があります。
HH.ru API — HeadHunterの公式APIです。非営利目的で無料、ビジネス用は有料です。求人の監視が目的であり、連絡先の大量収集ではない場合、公式APIが最も安定したオプションです。制限:認証されたアプリケーションに対して1秒あたり50リクエスト。
💡 アドバイス
HeadHunterの場合、公式APIから始めてください — これは合法で、安定しており、特定の制限まで無料です。LinkedInの場合は、外部ツールやプロキシなしでは避けられません。求人用の公式の公開APIはありません。
プロキシはなぜ必要で、どのタイプを選ぶべきか
プロキシは、リクエストが通過する中間サーバーです。プラットフォームはプロキシのIPを見ており、あなたの実際のアドレスは見えません。プロキシのローテーション(IPの自動変更)を使用すると、各リクエストは新しいユーザーからのリクエストのように見え — これにより制限やブロックを回避できます。
しかし、すべてのプロキシがLinkedInやHeadHunterに対して同じように効果的ではありません。プロキシのタイプの選択は結果に重大な影響を与えます:
| プロキシの種類 | HeadHunter | 速度 | 価格 | |
|---|---|---|---|---|
| 居住用 | ✅ 素晴らしい | ✅ 素晴らしい | 中程度 | $$ |
| モバイル | ✅ 素晴らしい | ✅ 良好 | 中程度 | $$$ |
| データセンター | ❌ よくブロックされる | ⚠️ 中程度 | 高い | $ |
居住用プロキシ — LinkedInに最適な選択
居住用プロキシは、実際の家庭ユーザーのIPアドレスを使用します。LinkedInの観点から見ると、これは自宅にいる普通の人です。このようなIPは非常にまれにブラックリストに載り、プラットフォームはそれらを実際のユーザーと区別できません。LinkedInの解析には業界標準です。
求人解析のための居住用プロキシを選ぶ際の重要なパラメータ:
- ジオロケーション:解析する求人の国のIPを選択してください(HeadHunterの場合はロシア、LinkedInの場合は必要な国)
- ローテーション:各リクエスト後またはタイマーによる自動IP変更
- IPプール:多いほど良い — ブロックされたIPの再利用リスクを減らします
- HTTP/HTTPSおよびSOCKS5のサポート — ほとんどの解析ツールはこれらのプロトコルを必要とします
モバイルプロキシ — LinkedInアカウントでの作業に最適
認証されたアカウントを介してLinkedInを解析する場合(Phantombusterがどのように機能するか)、モバイルプロキシは追加の利点を提供します:LinkedInはモバイルオペレーターをソースとして認識し、そのようなIPをさらに信頼します。1つのモバイルIPは、数千の実際のユーザー(オペレーターのNATの背後)をサポートできるため、高いアクティビティでも疑いを持たれません。
データセンターのプロキシ — HeadHunter専用
データセンターのプロキシは高速で安価ですが、LinkedInはそれらを積極的にブロックします。HeadHunterではより良く機能します:プラットフォームはデータセンターのIPに対してそれほど偏執的ではなく、リクエスト間の遅延を守ると特に良好です。少量の求人の予算監視に適しています。
LinkedInの解析: ステップバイステップの設定
LinkedInは解析に最も難しいプラットフォームです。アカウントを失わないように慎重に行動することが重要です。リクルーターの間で最も人気のあるツールの1つであるPhantombusterを例に、作業フローを見ていきましょう。
ステップ 1: LinkedInアカウントを準備する
解析のためにメインの作業アカウントを使用しないでください。別のアカウントを作成するか、サブアカウントを使用してください。ブロックされた場合でも、貴重なコネクションや履歴を失うことはありません。アカウントは「加熱」されている必要があります:プロフィールが埋められ、いくつかのコネクションがあり、解析を開始する前に少なくとも1週間のアクティビティが必要です。
ステップ 2: アカウントにプロキシをリンクする
重要なルール:1つのLinkedInアカウント = 1つのIPアドレス。今日IP 1でログインし、明日IP 2でログインすると、LinkedInのセキュリティシステムにとっては赤信号です。各アカウントに対して静的居住用プロキシ(スティッキーセッション)を使用してください。
Phantombusterでのプロキシ設定は次のようになります:
- あなたのPhantombusterアカウントの設定 → プロキシにアクセスします
- プロキシを追加をクリックします
- プロキシのデータを入力します:ホスト、ポート、ログイン、パスワード
- タイプを選択します:HTTPまたはSOCKS5(プロキシプロバイダーによります)
- プロキシをテストをクリックして、プロキシが機能していることを確認します
- このプロキシをあなたのアカウントで動作する特定の「ファントム」(タスク)に割り当てます
ステップ 3: LinkedIn求人エクスポートを設定する
Phantombusterで「LinkedIn求人検索エクスポート」というファントムを見つけます。設定:
- 検索URL: 必要なフィルター(職種、都市、雇用形態)を持つLinkedInの求人検索URLを貼り付けます
- 起動ごとの求人数: 25-50から始めます。最初の日に500を設定しないでください
- 起動頻度: 2-3時間に1回。連続して起動しないでください
- セッションクッキー: ブラウザからli_atクッキーをコピーします(Phantombusterに手順があります)
ステップ 4: 安全な制限を設定する
LinkedInは攻撃的な行動に対してブロックしますが、解析自体の事実ではありません。1つのアカウントに対する安全な制限:
- 1日あたり80-100の求人閲覧を超えないこと
- リクエスト間の遅延:最低3-5秒
- 夜間に休止を取る(人間の行動を模倣する)
- 週末に解析を開始しない — B2Bプラットフォームにとっては疑わしく見えます
⚠️ LinkedInから大量のデータが必要な場合
1日あたり数千の求人を解析する必要がある場合は、各居住用プロキシを持つ複数のアカウントを使用してください。1つのアカウント + 1つのIP = 最大100の求人/日、ブロックのリスクなし。10アカウント × 100 = 1000求人/日。
HeadHunterの解析: 特徴と設定
HeadHunterは、公式APIがあり、保護がそれほど攻撃的でないため、LinkedInよりも解析が簡単です。しかし、正しい設定なしで大量のデータを収集すると、やはりブロックされます。
オプション 1: HeadHunterの公式API(推奨)
あなたのタスクが求人の監視と市場分析(連絡先の収集なし)である場合、hh.ruの公式APIを使用してください。これは完全に合法で、データへの安定したアクセスを提供します。
- dev.hh.ruにアプリケーションを登録します
- client_idとclient_secretを取得します
- GET /vacanciesエンドポイントを使用して求人を検索します
- フィルタリングパラメータ:text、area(地域)、salary、experience、schedule
- 制限:認証されたアプリケーションに対して1秒あたり50リクエスト
結果はJSON形式で返されます — コードを書くことなく、ZapierやMake(旧Integromat)などのツールを介してExcelやGoogle Sheetsに簡単に読み込むことができます。
オプション 2: Apifyを介した解析(ノーコード)
公式APIにないデータ(例えば、雇用主の連絡先や非標準形式のデータ)が必要な場合は、HH.ru用の完成したアクターを持つApifyを使用してください:
- apify.comにアクセスし、「HH.ru Scraper」アクターを見つけます
- 無料で試すをクリックします
- 設定で検索クエリ(職種、都市)を指定します
- プロキシ設定セクションで「カスタムプロキシ」を選択し、プロキシのデータを貼り付けます
- HeadHunterにはロシアのIPを持つ居住用プロキシが適しています — プラットフォームは地域的です
- 開始をクリックし、結果を待ちます
- データをCSV、JSON、またはExcelにエクスポートします
オプション 3: 高度なタスクのためのOctoparse
Octoparseは、APIにないHH.ruのページの任意の要素を解析する設定を可能にします。例えば、求人の説明を完全に収集したり、連絡先情報(表示されている場合)や企業のリンクを収集したりできます。
- Octoparseをダウンロードしてインストールします
- 新しいタスクを作成し、hh.ruの求人検索URLを貼り付けます
- Auto-detectモードを使用します — Octoparseがリストの構造を自動的に特定します
- すべての必要なフィールドが強調表示されていることを確認します(タイトル、会社、給与、都市)
- タスクの設定でIPローテーションを有効にし、プロキシを追加します
- リクエスト間の遅延を設定します:2-4秒
- クラウドで実行(Cloud Extraction)して継続的に収集します
💡 HeadHunterのためのプロキシのジオロケーション
HeadHunterはIPによってユーザーの地域を特定し、地域の求人を表示します。特定の都市(例えば、モスクワやサンクトペテルブルク)の求人を解析したい場合は、その地域のIPを持つプロキシを使用してください。全国的な監視には、任意のロシアのIPで十分です。
よくあるエラーとその回避方法
LinkedInとHeadHunterの解析におけるほとんどの問題は、同じエラーから発生します。以下は、避けるべきことのチェックリストです:
❌ エラー 1: すべての作業に1つのIPを使用する
初心者の最も一般的なエラーは、自宅のIPや1つのプロキシから解析を開始することです。プラットフォームが異常なアクティビティを検出すると、IPは永久にブロックされます。解決策:IPの自動変更を伴うローテーションプロキシまたは複数の静的プロキシのプールを使用します。
❌ エラー 2: リクエストの速度が高すぎる
10分で1000ページを解析することは、ブロックされる確実な道です。実際のユーザーはその速度でページを閲覧することはできません。遅延を設定してください:HeadHunterの場合はリクエスト間に最低2-3秒、LinkedInの場合は5-10秒。遅延にランダムな変動を加える(正確に3秒ではなく、2秒から5秒の間 — これは人間を模倣します)。
❌ エラー 3: LinkedInアカウントのためのIPの変更
認証されたLinkedInアカウントでローテーションプロキシを使用している場合、各リクエストは新しいIPから行われます。LinkedInはこれをアカウントのハッキングとして認識します(誰かが異なる場所から接続している)ので、アカウントがブロックされます。認証されたセッションには、スティッキープロキシ(長期間の固定IP)または静的居住用プロキシのみを使用してください。
❌ エラー 4: User-Agentを無視する
User-Agentは、ブラウザがサーバーに送信する文字列で、自身を識別します。多くの解析ツールはデフォルトで「python-requests/2.28.0」のようなUser-Agentを送信します — これはボットを即座に示します。現代のブラウザのリアルなUser-Agentを設定してください。ApifyやPhantombusterでは自動的に行われ、Octoparseではタスクの設定で行います。
❌ エラー 5: robots.txtを確認せずに解析する
LinkedInはrobots.txtで解析を禁止しており、産業規模で行う企業と積極的に訴訟を行っています。これは、個人的な分析のためにデータを収集できないという意味ではありませんが、商業利用における法的リスクを理解することが重要です。HeadHunterは公式APIを使用する場合、より寛容です。
❌ エラー 6: 安価な公開プロキシ
無料または非常に安価な公開リストからのプロキシは罠です。これらはすでにほとんどのプラットフォームでブロックされており、不安定に動作し、データをしばしば傍受します。真剣な作業には、信頼できるプロバイダーからの有料プロキシが必要です。
解析を開始する前のチェックリスト
- ✅ 別のアカウントを使用している(メインの作業アカウントではない)
- ✅ 居住用またはモバイルプロキシが接続されている
- ✅ LinkedInの場合:1つのアカウント = 1つの固定IP
- ✅ リクエスト間の遅延が設定されている(最低3秒)
- ✅ User-Agentが実際のブラウザのものに設定されている
- ✅ 1日のリクエスト制限が合理的な値に制限されている
- ✅ プロキシが解析前にテストされている
- ✅ プロキシのジオロケーションがターゲット地域に合致している
結論
LinkedInとHeadHunterからの求人解析は、リクルーター、HRアナリスト、労働市場の研究者にとって有効なツールです。重要なのは正しいアプローチを選ぶことです:HeadHunterの場合は公式APIから始め、LinkedInの場合はPhantombusterやApifyのような専門ツールを使用し、適切に設定されたプロキシを利用してください。
ガイドからの重要な結論:LinkedInは居住用またはモバイルプロキシを必要とし、アカウントごとに固定IPが必要です。HeadHunterはそれほど厳しくありませんが、大量のデータを扱う場合にはプロキシが必要です。リクエスト制限を守り、人間の行動を模倣し、決してメインアカウントを自動化に使用しないでください。
定期的に求人を監視したり、LinkedInからの大規模なデータ収集を計画している場合は、居住用プロキシの使用をお勧めします — これにより、両方のプラットフォームとの最大の互換性と、長期間の作業でもブロックのリスクを最小限に抑えることができます。