アビトは、ロシアで最も保護されたマーケットプレイスの一つです。ここでは、アンチボットシステムが厳しく機能しており、プロキシなしで単一のIPは数分間のデータ収集で禁止されます。不動産の価格監視、自動車の広告追跡、競合分析を行っている場合、この文書は、常にブロックされることなく安定したパースを構築する方法を示します。
なぜアビトはパーサーをブロックするのか、保護はどのように機能するか
アビトは自動データ収集に対して積極的に戦っています — これは商業的な理由があります。プラットフォームは公式APIを通じてデータへのアクセスを販売しており、大量のパースはサーバーへの負荷を軽減し、企業が収益化するデータを「盗む」ことになります。したがって、ここでは多層的なアンチボットシステムが機能しています。
アビトが自動リクエストをどのように特定するかは以下の通りです:
- リクエストの頻度。 一つのIPから1分間に30〜50以上のリクエストがあると、システムはそれに気付き、キャプチャまたは一時的な禁止を発行します。
- ブラウザのヘッダーがない。 通常のパーサーはUser-Agent、Referer、Accept-Languageなど、実際のブラウザに特有のヘッダーを送信しません。
- 行動パターン。 実際のユーザーはページをスクロールする際に間隔を置き、ランダムにクリックします。パーサーは同じ間隔でリクエストを行うため、これは異常です。
- IPアドレスの評判。 データセンターからのIP(Amazon AWS、DigitalOcean、Hetzner)はすぐに疑わしいと見なされます — 普通の人々はそのようなアドレスからアビトを使用しません。
- ブラウザのフィンガープリンティング。 アビトは、画面の解像度、フォント、プラグインに関するデータを収集するJavaScriptスクリプトを使用しています。マスキングなしのヘッドレスブラウザは簡単に特定されます。
- ジオロケーション。 IPが他の国や地域にある場合も、システム保護への信号となります。
重要なのは、アビトは最初のリクエストで永遠にブロックするわけではないということです。最初はソフトバン(キャプチャまたは一時停止)があり、その後、数時間のIPの一時的なブロックが続き、体系的な違反がある場合にのみ、アドレスの恒久的な禁止が行われます。これは、プロキシとツールを正しく設定すれば、安定して長期間パースできることを意味します。
知っておくべきこと
アビトは定期的に保護アルゴリズムを更新します — 特にパーサーを通じたデータの大量漏洩の後。6ヶ月前に機能していたものが、今日では機能しない可能性があります。したがって、実際のIPを持つ最新のプロキシと最新のツールを使用することが重要です。
アビトで最もよくパースされるもの:不動産、自動車、価格
ツールを選ぶ前に、何を収集したいのか、なぜそれが必要なのかを理解することが重要です。これにより、パースの戦略 — リクエストの頻度、必要な地域、データ収集の深さが決まります。
不動産
これはパースに最も人気のあるセグメントの一つです。不動産仲介業者、物件集約サイト、分析サービスは、アパート、家、商業不動産の販売および賃貸の広告を収集します。典型的なタスクには、特定の地域での新しい広告の出現を監視すること、平方メートルあたりの価格の動向を追跡すること、広告数や価格政策に基づく競合分析が含まれます。このセグメントの特徴は、大量のデータと複数の地域を同時にパースする必要があることで、異なるロシアのIPを持つプロキシプールが必要です。
自動車
アビトの自動車市場は、パースの人気が2番目の対象です。自動車ディーラー、中古車集約サイト、個人の転売業者は、有利なロットを探すため、特定のモデルの市場価格を監視するため、地域ごとの需要を分析するためにパースを使用します。ここでは速度が重要です:良い広告はすぐに消えるため、頻繁な監視が必要です — 時には5〜10分ごとに。これはプロキシへの負荷を高め、IPのローテーションを必要とします。
価格と競争分析
アビトの販売者 — 電子機器、衣料品、建材の店舗など — は、競合の価格を定期的に監視します。タスクは、特定の商品のカテゴリの価格を収集し、プロモーションや割引を追跡し、市場の平均価格がどのように変化するかを分析することです。このタイプのパースは通常、頻度が低く、広範な地理的カバレッジが必要です — ロシアの異なる都市からのプロキシが必要です。
連絡先情報とリード生成
一部の企業は、アビトをパースして潜在的な顧客の連絡先を収集します:不動産や自動車の広告からの電話番号。これは、各広告を開いて「電話を表示」ボタンをクリックする必要があるため、ブロックの観点から最もリスクの高いパースの種類です — これは異常な行動として簡単に検出されます。
アビトに適したプロキシの種類
すべてのプロキシがアビトで同じように機能するわけではありません。このタスクに適した3つの主要なタイプを見てみましょう。
| プロキシの種類 | どのように機能するか | アビトに適しているか? | ブロックのリスク |
|---|---|---|---|
| データセンター | サーバープロバイダーからのIP(AWS、Hetzner) | ⚠️ 制限あり | 高い |
| レジデンシャル | 実際の家庭ユーザーからのIP | ✅ 良好 | 低い |
| モバイル | モバイルプロバイダーからのIP(MTS、ビライン、メガフォン) | ✅ 素晴らしい | 最小限 |
データセンターのプロキシ:速いがリスクが高い
データセンターのプロキシは、最も速くて安価です。保護が必要ないタスクには最適ですが、アビトには不安定に機能します。問題は、データセンターのIP範囲がよく知られていることです — アビトや他の大規模プラットフォームは、これらのアドレスのデータベースをすでに作成しており、予防的にブロックしたり、自動的な活動の最初の兆候でブロックしたりします。あまり頻繁にパースしない場合(1時間に1回以下)で、連絡先情報を開かない場合は、データセンターのプロキシがまだ機能する可能性があります。集中的なパースには適していません。
レジデンシャルプロキシとモバイルプロキシ:どちらを選ぶべきか
アビトの本格的なパースには、レジデンシャルプロキシとモバイルプロキシの間での選択が重要です。両方のタイプは「生きた」IPを使用しますが、機能は異なります。
レジデンシャルプロキシ
レジデンシャルプロキシは、実際の家庭ユーザーのIPアドレスです。このプロキシを通じてリクエストが行われると、アビトは自宅のコンピュータの前にいる普通の人を見ます。これは実際のユーザーに最大限に近いため、アンチボットシステムは疑いなくそのリクエストを通過させます。
アビトのパースにおける主な利点:
- 大規模なIPプール — ロシアのさまざまな都市からの数千のアドレス
- 地域を選択する機能:モスクワ、サンクトペテルブルク、エカテリンブルクなど
- 各リクエストごとまたは指定された間隔でのIPのローテーション
- 適度なリクエスト頻度での低いブロック率
レジデンシャルプロキシは、アビトのパースタスクのほとんどに最適な選択です:価格監視、不動産や自動車の広告収集、競争分析。
モバイルプロキシ
モバイルプロキシは、MTS、ビライン、メガフォン、テレ2などのモバイルプロバイダーからのIPを使用します。これは、アンチボットシステムの観点から最も「クリーンな」トラフィックタイプです。なぜなら、1つのモバイルIPの背後には同時に数百の実際のユーザーがいるからです(これはプロバイダーのNATの特性です)。アビトは、通常の人々を何千人も遮断するリスクなしにそのIPをブロックできないため、モバイルIPは非常に稀にしかブロックされません。
モバイルプロキシが特に重要なのは次のような場合です:
- 頻繁にパースする場合 — 5〜15分ごと
- 販売者の連絡先情報を開く必要がある場合
- アビトのアカウントを使用している場合(ゲストとしてだけでなく)
- 以前のプロキシがすでにブロックされた場合
モバイルプロキシの欠点は価格です:レジデンシャルプロキシよりも高価です。しかし、安定性が重要であれば、それは正当な投資です。
実践的なアドバイス
ほとんどのタスク — 価格監視、15〜30分ごとの広告収集 — にはレジデンシャルプロキシで十分です。アカウント操作や非常に頻繁なパースが必要な場合はモバイルプロキシを選択してください。これにより、安定性を犠牲にすることなく予算を節約できます。
コードなしでアビトをパースするためのツール
アビトをパースする人のほとんどは開発者ではありません。彼らは、コードを書く必要のない既製のサービスやツールを使用します。以下は主なオプションです。
Octoparse
最も人気のあるビジュアルパーサーの一つです。「要素を指定 — データを取得」という原則で動作します。プロキシの組み込みサポートがあります:タスク設定でアドレスのリストを挿入すると、Octoparseはページを巡回する際に自動的にそれらをローテーションします。スケジュールの実行をサポートしており、あなたの介入なしで1時間ごとや1日ごとにパースを設定できます。リクエスト間の遅延を正しく設定すれば、アビトでうまく機能します。
ParseHub
JavaScriptサイトをサポートするビジュアルパーサーです。アビトはコンテンツの読み込みにJSを積極的に使用しているため、JSエンジンのないツールではデータを取得できません。ParseHubは、実際のブラウザのようにページをレンダリングし、一部の保護を回避します。プロジェクトの設定を通じてプロキシを接続します。
Bright Data Scraping Browser / 類似のもの
パース用の専門的なブラウザ環境で、プロキシがすでにインフラに組み込まれています。より経験豊富なユーザーに適していますが、コードを書く必要はなく、ビジュアルインターフェースを介して管理できます。
アビト専用のパーサー
アビト専用に設計された既製のSaaSサービスがあります:これらはすでにキャプチャを回避し、ユーザーの行動を模倣し、特定のフィールド(価格、説明、電話、公開日)を収集することができます。例:Avito Parser、広告を監視するためのさまざまなTelegramボット。このようなサービスにも、組み込まれたプロキシが不足している場合は外部プロキシを接続する必要があります。
Google Sheets + 拡張機能
簡単なタスク — 数十の広告を追跡するためには、Instant Data Scraperや類似のブラウザ拡張機能を使用できます。これは最も簡単なオプションですが、プロキシなしでは定期的な使用で迅速にブロックに達します。
パース用プロキシの設定方法:ステップバイステップガイド
プロキシをパースツールに接続するための一般的なアルゴリズムを考えてみましょう。原則はほとんどのサービスで同じです。
ステップ 1. プロキシのデータを取得する
プロキシを購入すると、次の形式のデータを受け取ります:IP:ポート:ユーザー名:パスワード。例えば:185.XXX.XXX.XXX:8080:user123:pass456。アビトにはHTTPまたはSOCKS5プロトコルを使用してください — 両方とも機能しますが、SOCKS5の方が汎用性があります。
ステップ 2. ロシアのIPを選択する
アビトはロシアのサービスです。ドイツやアメリカのIPを持つプロキシはすぐに疑いを呼び起こします。購入時には、地理的位置をロシアに選択してください。特定の地域が必要な場合 — 例えば、モスクワの広告 — モスクワのIPを選択してください。これはアンチボットシステムからの信頼を高め、正確な地域データを提供します。
ステップ 3. IPのローテーションを設定する
ローテーションは、各N番目のリクエストの後または指定された時間間隔でIPを自動的に変更することです。アビトに推奨される設定は次の通りです:
- 10〜20リクエストごとにIPを変更する(または2〜5分ごと)
- リクエスト間の遅延:3〜8秒(人間を模倣)
- 遅延のランダムな間隔(固定ではない!):例えば、3〜7秒の範囲
ステップ 4. Octoparseにプロキシを接続する(例)
Octoparseを開く → タスク設定に入る → 「プロキシ設定」セクションを見つける → 「カスタムプロキシ」を選択 → IP:ポート:ユーザー名:パスワード形式でプロキシのリストを挿入する(各プロキシを新しい行に) → ローテーションモード「ランダム」または「順次」を選択 → 設定を保存してタスクを開始します。
ステップ 5. User-Agentとヘッダーを設定する
プロキシはIPを変更しますが、あなたのパーサーをブラウザのように見せるわけではありません。リアルなUser-Agentを設定する必要があります — これはブラウザがサーバーに送信する文字列です。WindowsのChrome用の現在のUser-Agentの例:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36。ほとんどのビジュアルパーサーは、設定でUser-Agentを指定することができます。
ステップ 6. 小規模でテストする
本格的なパースを開始する前にテストを行います:20〜30の広告からデータを収集し、エラー、ブロック、キャプチャがないか確認します。すべてがクリーンであれば、スケールアップします。キャプチャが表示された場合は、リクエスト間の遅延を増やすか、1つのIPからのリクエスト数を減らします。
IPがブロックされる原因となる一般的な間違い
良いプロキシを持っていても、一般的な間違いを犯すとブロックされる可能性があります。以下は、禁止につながることが多い原因です:
間違い 1: リクエストが頻繁すぎる
最も一般的な問題は、すべてを一度に収集したいという欲望です。1秒ごとまたはそれ以上の速さでリクエストを行うと、システムはそれに気付きます。アビトは、単一のIPからの頻度だけでなく、類似のパターンからの全体的な負荷も分析します。解決策:リクエスト間の遅延を3〜10秒に設定し、ランダムな間隔を設けます。
間違い 2: 外国のプロキシを使用する
ドイツ、アメリカ、オランダのプロキシは即座に赤信号を出します。アビトはローカルサービスであり、海外のユーザーは稀です。常にロシアのIPを使用してください。正確なデータのために特定の地域が必要な場合は、その都市の地理的位置を持つプロキシを選択してください。
間違い 3: 一つのプロキシで全てのパースを行う
一部の人々は節約のために一つのプロキシアドレスを使用します。これは非常に稀なリクエストの場合にのみ機能します。定期的な監視には、10〜50以上のIPのプールとローテーションが必要です。データの量が増えるほど、必要なアドレスも増えます。
間違い 4: クッキーとセッションを無視する
実際のユーザーはアビトを訪れる際にクッキーを取得し、セッション間で保存されます。クッキーなしのパーサーは、各リクエストで「新しい」ユーザーのように見えます — これはそれ自体が疑わしいです。パーサーでクッキーの保存と送信を設定してください。
間違い 5: JavaScriptレンダリングなしでのパース
アビトは一部のコンテンツをJavaScriptを通じて読み込みます。JSをレンダリングしない単純なHTTPパーサーは、空のページまたは不完全なデータを取得します。ブラウザレンダリングをサポートするツール(Selenium、Playwright、Puppeteer)や、OctoparseやParseHubのようなビジュアルパーサーを使用してください。
間違い 6: ピーク時間にパースする
アビトはピーク負荷時(10:00〜22:00)に監視を強化します。一部の専門家は、保護がより緩やかな夜間(1:00〜7:00)に集中的なパースを開始します。これは保証ではありませんが、大量のデータを扱う際のリスクを減少させます。
チェックリスト:ブロックなしでアビトをパースする
パースを開始する前に、このチェックリストを使用してブロックのリスクを最小限に抑えてください:
✅ 技術的設定
- プロキシ — レジデンシャルまたはモバイル(データセンターではない)
- プロキシの地理的位置 — ロシア(必要な地域)
- IPプール — ローテーション用に最低10アドレス
- IPのローテーション — 10〜20リクエストごと
- リクエスト間の遅延 — 3〜10秒(ランダムな間隔)
- User-Agent — 現在のChromeまたはFirefox
- JavaScriptレンダリング — 有効
- クッキー — 保存され、送信される
✅ パース戦略
- 20〜30の広告でテストランを開始する
- 同じページを必要以上にパースしない
- 頻繁な監視(5〜10分ごと)の場合 — モバイルプロキシを使用する
- 連絡先を収集する場合 — 最小限の負荷で別のIPプールを使用する
- エラーをログに記録する:403、429のコード、キャプチャの出現 — 負荷を減らす信号
- 2〜4週間ごとにプロキシを更新するか、ブロック数が増加した場合
✅ ツール
- コードなしでパースするため:Octoparse、ParseHub
- アビトのアカウントで作業するため:アンチデテクトブラウザ(AdsPower、Dolphin Anty) + プロキシ
- 特定の広告を監視するため:Telegramボットや専門サービス
- 使用前にプロキシをチェックするため:IPチェックサービス(ipinfo.io、whoer.net)
結論
アビトのパースは実現可能なタスクですが、正しいアプローチが必要です。最も重要なルールは、プロキシにお金を節約しないことです。アビトにはデータセンターのIPは常にブロックされ、時間を無駄にします。ロシアの地理的位置を持つレジデンシャルおよびモバイルプロキシは、基本的なルール(IPのローテーション、リクエスト間の遅延、リアルなブラウザヘッダー)を守ることで安定した結果を提供します。
ほとんどのタスク — 不動産の価格監視、自動車の広告収集、競争分析 — には、ロシアのIPとローテーションを持つレジデンシャルプロキシで十分です。アビトのアカウントで作業するか、非常に頻繁にパースする場合は、MTS、ビライン、メガフォンのモバイルプロキシを検討してください:高負荷でもブロックのリスクが最小限です。
この文書のチェックリストに従って一度設定すれば、あなたのパースは安定して動作し、あなたの介入なしで継続します。