Ozonは、ロシアのマーケットプレイスの中で最も保護されたプラットフォームの一つです。アンチボットシステム、CAPTCHA、リクエストの制限、IPによるブロックが、自動データ収集を本当の試練にしています。競合の価格を監視したり、品揃えを分析したり、分析のためにレビューを収集したりする場合、適切に設定されたプロキシがなければ、数分でパーサーがブロックされてしまいます。このガイドでは、Ozonに適したプロキシ、正しい設定方法、データ収集プロジェクトを台無しにするミスについて解説します。
なぜOzonはパーシングをブロックするのか:保護の仕組み
プロキシを設定する前に、何に直面するかを理解することが重要です。Ozonは自動リクエストに対する多層的な保護システムを使用しており、その各要素をパーサーの構築時に考慮する必要があります。
レート制限 — リクエストの頻度制限
1つのIPアドレスから30〜50リクエスト以上が1分間に送信されると、Ozonはエラー429(Too Many Requests)を返すか、IPを完全にブロックし始めます。通常のユーザーはそのような頻度でリクエストを行わないため、これはボットと見なされます。そのため、1つのプロキシサーバーでは不十分で、ローテーションを伴う数十または数百のIPアドレスのプールが必要です。
User-AgentとHTTPヘッダーの分析
Ozonのシステムは、各リクエストのヘッダーを確認します。User-Agentがスクリプトのように見える場合(例:python-requests/2.28)、リクエストは即座にブロックされます。実際のブラウザのヘッダーを模倣する必要があります:正しいUser-Agent、Accept-Language、Accept-Encoding、Referer。
ブラウザのフィンガープリンティング
OzonのページではJavaScriptが動作し、ブラウザのフィンガープリンティングを収集します:画面の解像度、インストールされているフォント、WebGL、Canvas。ヘッドレスブラウザ(Puppeteer、Playwright)を使用してマスキングなしでパーシングを行うと、システムがこれを検出します。したがって、ステルスモードのツールを使用するか、JSのレンダリングなしでAPIを介してパーシングすることが重要です。
ジオブロックとIPの評判チェック
Ozonはロシアのマーケットプレイスであり、ロシアのIPからのリクエストを期待しています。ドイツやアメリカのデータセンターを介して接続すると、すぐに疑わしくなります。さらに、データセンターのIPアドレスはしばしばアンチボットシステム(Cloudflare、DataDome)のデータベースに登録されているため、Ozonにはロシアの居住者またはモバイルIPが必要です。
要点:Ozonがブロックするもの
- データセンターやVPNサーバーのIP(ブラックリストに登録されている)
- 1つのIPからのリクエストの頻度が高すぎる
- 非現実的なHTTPヘッダー(スクリプトのUser-Agent)
- ロシアのマーケットプレイスに対する外国のIPアドレス
- クッキーやセッションデータの欠如
Ozonに適したプロキシ:タイプの比較
すべてのプロキシがOzonの保護に同じように対応できるわけではありません。ここでは、3つの主要なタイプとそれらのマーケットプレイスでの適用性について説明します。
| プロキシの種類 | Ozonに対する見え方 | 速度 | ブロックのリスク | Ozonに適していますか? |
|---|---|---|---|---|
| データセンター | ホスティング/クラウドのIP | 非常に高速 | 高い | ⚠️ 軽いタスクのみ |
| 居住者 | 家庭ユーザーのIP | 中程度 | 低い | ✅ 素晴らしい |
| モバイル | モバイルオペレーターのIP | 中程度 | 最小限 | ✅ 理想的 |
居住者プロキシ — Ozonの作業馬
居住者プロキシは、実際の家庭ユーザーのIPアドレスを使用します。Ozonに対するそのリクエストは、家庭のインターネットを介してサイトにアクセスした通常の人間のように見えます。アンチボットシステムはIPレベルでの自動化の兆候を検出しません。これにより、居住者プロキシは大規模なパーシングの主要な選択肢となります:数千のSKUの価格監視、商品カードの収集、競合の品揃えの分析。
主要な利点は、ロシアのジオロケーションを選択できる大規模なIPアドレスプールです。Ozonはロシアのアドレスからのリクエストを期待しており、ロシア向けのジオターゲティングを持つ居住者プロキシは、最小限の疑わしさを提供します。
モバイルプロキシ — 最大の信頼性
モバイルプロキシは、モバイルオペレーター(MTS、ビライン、メガフォン、テレ2)のIPを介して動作します。これは、アンチボットシステムの観点から最も「クリーン」なトラフィックタイプです:モバイルIPはほとんどブラックリストに載ることがなく、1つのIPは同時に数千の実際のユーザーによって使用されることがあります。居住者IPがブロックされると、それは疑わしいです。モバイルIPがブロックされると、Ozonは数千の実際の顧客を失うリスクがあるため、それは彼らにとって不利益です。
モバイルプロキシは、レビューの収集やリアルタイムでのプロモーションやセールの監視など、高い信頼性が必要なタスクに特に適しています。
データセンターのプロキシ — 簡単なタスクのみに
データセンターのプロキシは高速で、コストが安いですが、Ozonでの使用は制限されています。ほとんどのIPはすでにアンチボットシステムのデータベースに登録されています。リクエストの頻度が低い単発のタスクには適しているかもしれませんが、例えば特定の商品が1時間ごとに存在するかを確認する場合などです。定期的な大規模な監視には適していません。
使用シナリオ:価格、商品、レビュー
Ozonからデータを収集するタスクはさまざまであり、それぞれに適した戦略が必要です。ここでは、3つの主要なシナリオを説明します。
📊 競合の価格監視
これはセラーの間で最も人気のあるシナリオです。タスク:競合の数百または数千の商品の価格を追跡し、自社の価格設定を迅速に調整することです。Ozonは特にプロモーション中に、1日に何度も価格を変更します。
プロキシの要件:ロシアのジオロケーションを持つ50〜200の居住者IPのプールが必要です。リクエストは、各リクエストの間に2〜5秒の遅延を持って行われ、5〜10リクエストごとにIPが変更される必要があります。このモードでは、パーサーは1時間に500〜1000の商品カードをブロックなしで処理できます。
収集するデータ:現在の価格、割引前の価格、在庫状況、販売者の評価、レビューの数、Ozonのプロモーションへの参加状況。
🛍️ 商品と品揃えのデータ収集
アナリストやマーケティング担当者は、品揃えに関するデータを収集します:どのカテゴリーが成長しているか、どの商品が検索のトップに出ているか、ニッチ内の販売者の数がどのように変化しているか。これはより大規模なタスクであり、数千ページのカタログを巡回する必要があります。
プロキシの要件:ローテーションを伴う200以上のIPのプールが必要です。ページネーションを正しく回避するために、スティッキーセッション(1つのIPが数分間1つのセッションに「固定」されること)を使用することが重要です。そうしないと、カタログの次のページでIPが変更されると、異なる結果が得られる可能性があります。
収集するデータ:商品名、SKU(商品番号)、カテゴリー、ブランド、説明、仕様、写真、販売者の数、検索順位。
⭐ レビューと評価のパーシング
レビューは、消費者の好みを分析し、競合の弱点を見つけ、自社の製品を改善するための貴重なデータソースです。Ozonのレビューのページは特に保護が強化されており、読み込むためにはJavaScriptが必要で、データはしばしばAJAXリクエストを介して読み込まれます。
プロキシの要件:レビューのパーシングには、ロシアのIPを持つモバイルプロキシが最適です。各レビューのページは複数のリクエスト(メインページ + コンテンツを読み込むためのAJAX)を必要とするため、モバイルIPはセッションの安定性を提供します。
収集するデータ:レビューのテキスト、評価(1〜5つ星)、公開日、レビューの有用性(いいね)、販売者の回答、レビュー内の写真、確認済み購入。
IPのローテーションとセッション管理:ブロックを避ける方法
良いプロキシを使用していても、セッションとローテーションを適切に管理しないとブロックされる可能性があります。これはOzonのパーシングにおける重要な技術的側面の一つです。
2つのローテーションモード:ローテーション vs スティッキー
ローテーション(ランダムローテーション) — 各リクエストは新しいIPから行われます。これは独立したリクエストに適しています。例えば、特定の商品価格を確認する場合です。Ozonはリクエスト間の関連性を認識しません。
スティッキーセッション(固定セッション) — 1つのIPは1つの「セッション」(通常1〜30分)内の複数の連続リクエストに使用されます。これは、カタログのページネーションを回避したり、1つの商品に対する複数のレビューのページを収集したり、カートや認証を扱ったりする場合に必要です。セッションの途中での急激なIPの変更は疑わしく見えます。
リクエスト間の遅延のルール
| タスクの種類 | リクエスト間の遅延 | IPの変更 |
|---|---|---|
| 価格監視(1000以上のSKU) | 2〜4秒 | 5〜10リクエストごと |
| カタログの巡回(ページネーション) | 3〜6秒 | 20〜30ページごと |
| レビューの収集 | 4〜8秒 | 各商品 — 新しいIP |
| 単発の在庫確認 | 1〜2秒 | 各リクエスト |
クッキーとセッションデータの管理
Ozonはクッキーを追跡します。すべてのリクエストがクッキーなしで送信されるか、新しいクッキーで送信される場合、それはボットの兆候です。新しいIPからの最初の訪問時には、セッションを「ウォームアップ」することをお勧めします。最初にメインページを読み込み、その後カテゴリに移動し、必要なデータをリクエストするのです。これは実際のユーザーの行動を模倣し、ブロックのリスクを3〜5倍減少させます。
Ozonのパーシング用プロキシの設定:ステップバイステップガイド
人気のあるツールを例にして、実際の設定を説明します。ほとんどのシナリオに適した基本的な構成から始めましょう。
ステップ1. プロキシのデータを取得
居住者またはモバイルプロキシに接続すると、次の形式で接続データが提供されます:
host: proxy.example.com port: 8080 username: your_username password: your_password protocol: HTTP / HTTPS / SOCKS5
OzonにはHTTPSまたはSOCKS5プロトコルの使用をお勧めします。ツールがそれをサポートしている場合、SOCKS5が好ましいです — それは識別可能なヘッダーを少なく送信します。
ステップ2. ロシアへのジオターゲティングを設定
プロキシサービスの設定で国を選択します:ロシア(RU)。特定の都市が重要なタスクもあります — 例えば、モスクワやサンクトペテルブルクへの配達を考慮した価格を見たい場合です。この場合、都市レベルでのジオターゲティングを選択します。
サービスがURLにジオロケーションパラメータを持つエンドポイントを提供する場合、次のようになります:
proxy.example.com:8080?country=ru&city=moscow&session=random
ステップ3. 正しいHTTPヘッダーを設定
これは非常に重要なステップです。Ozonへのリクエストは、Windows上の実際のChromeブラウザからのリクエストのように見える必要があります。最小限のヘッダーセット:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
ステップ4. ローテーションと遅延を設定
ほとんどの既製のパーサーやノーコードツールには、遅延とローテーションの設定があります。次のように設定します:
- リクエスト間の遅延:3〜5秒(ランダム性を加えることができます:2〜7秒)
- IPのローテーション:価格監視のために5〜10リクエストごと、単発の確認のためには各リクエストごと
- リクエストのタイムアウト:15〜30秒(Ozonは時々遅く応答します)
- エラー時の再試行:403/429/503を受け取った場合、新しいIPで3回の再試行
ステップ5. 実行前に動作を確認
本格的なパーシングを開始する前に、テストを行います:Ozonの異なるページに対して20〜30リクエストを5秒間隔で行います。すべてのリクエストがステータス200と正しいHTMLを返す場合、設定は正しく行われています。403やCAPTCHAへのリダイレクトが表示される場合は、ヘッダーを調整するか、プロキシのタイプを変更する必要があります。
コードなしでOzonをパーシングするためのツール
ほとんどのセラーやアナリストは、最初からパーサーを作成しません。プロキシ接続をサポートし、プログラミングスキルを必要としない既製のツールがあります。
Octoparse — プロキシサポートのあるビジュアルパーサー
Octoparseは人気のあるノーコードツールの一つです。ページ上の収集する要素を視覚的に指定し、ツールが自動的にパーサーを生成します。タスク設定を通じてプロキシ接続をサポートします:アドレス、ポート、ログイン、パスワードを指定すると、ツールが自動的にIPをローテーションします。
Octoparseでプロキシを接続する方法:タスクを開く → 設定 → プロキシ設定 → プロキシを追加 → 接続データを入力 → ローテーションモードを選択します。Ozonには「NリクエストごとにIPをローテーション」モードを推奨します。値は5〜10です。
ParseHub — 複雑なサイト用のクラウドパーサー
ParseHubは、データがJavaScriptを介して読み込まれるページ(Ozonに関連)をうまく処理します。有料プランでプロキシを介しての作業をサポートしています。ツールにはJSをレンダリングする内蔵ブラウザがあり、通常のHTTPリクエストでは利用できないデータを収集するのに役立ちます。
価格監視のための専門サービス
Ozonの価格監視タスクには、Priceva、Metacommerce、Price2Spyなどの専門的なSaaSソリューションがあります。これらはすでにOzonの保護を回避するための組み込みロジックを含んでおり、サブスクリプションで動作します。あなたのタスクがカスタムデータなしの価格監視だけである場合、これらのサービスはプロキシを使用したパーサーの設定よりも便利かもしれません。
n8n / Make (Integromat) — HTTPリクエストによる自動化
簡単なタスク、例えば特定の商品価格を1時間ごとに確認する場合は、自動化プラットフォームn8nやMakeを使用できます。これらはOzonにHTTPリクエストを送信し、指定されたテンプレートに従って応答をパースします。プロキシはHTTPノードの設定で接続されます:プロキシURLフィールドにプロキシのアドレスを指定します。これは最も強力な方法ではありませんが、コードなしでの自動化の最も簡単な方法です。
💡 ヒント:可能な限りOzon APIを使用してください
Ozonは販売者向けに公式のSeller APIを提供しています。登録された販売者であれば、注文、在庫、販売分析の一部のデータをプロキシなしでAPIを介して取得できます。プロキシを介したパーシングは、APIが提供しないデータ、競合の価格、レビュー、検索順位のデータに必要です。
Ozonパーシング時のトップ7のミスとその回避方法
ブロックに関する問題のほとんどは、同じミスから生じます。絶対にやってはいけないことのリストと、その修正方法を以下に示します。
❌ エラー1:すべてのリクエストに1つのIPを使用する
最も「クリーン」なIPでも、1時間に500リクエストが送信されるとブロックされます。解決策:ローテーションを伴う最低50のIPのプールを使用します。
❌ エラー2:遅延なしでパーシングする
遅延なしのリクエストは、ボットの最も明白な兆候です。リクエスト間に1秒の遅延を設けるだけでも、ブロックのリスクを大幅に減少させます。最適な遅延は、ランダムなばらつきを持つ3〜5秒です。
❌ エラー3:ライブラリのデフォルトのUser-Agentを使用する
python-requests/2.28.0 — これは即座にブロックされます。常にUser-Agentを最新のChromeに置き換えてください。
❌ エラー4:Ozonに対して外国のIPを使用する
Ozonはロシアのサービスです。ドイツやアメリカのIPからのリクエストは疑わしいです。常にロシアへのジオターゲティングを選択してください。
❌ エラー5:429エラーを無視してリクエストを送り続ける
429を受け取った場合、そのIPからのリクエストを直ちに停止し、5〜10分待ってからIPを変更してください。429の状態でリクエストを続けると、IPが永続的にブロックされるリスクが高まります。
❌ エラー6:CAPTCHAへのリダイレクトを処理しない
Ozonは時々、ブロックの代わりにCAPTCHAのページにリダイレクトします。パーサーは、取得したHTMLが必要なデータを含んでいるか、CAPTCHAのページではないかを確認する必要があります。CAPTCHAが表示された場合は、IPを変更してください。
❌ エラー7:ピーク時にパーシングする
ピーク時(夕方、週末)には、Ozonがトラフィックをより積極的にフィルタリングします。大規模なタスクの場合、パーシングを夜間や早朝に計画してください — サーバーの負荷が低く、アンチボットシステムも厳しくありません。
結論:Ozonからのデータ収集を安定させる方法
Ozonのパーシングは、一度きりの設定ではなく、インフラストラクチャとの継続的な作業です。マーケットプレイスは定期的に保護を更新し、ページの構造を変更し、アンチボットフィルターを厳しくします。成功した監視は、正しいプロキシのタイプ、適切なIPのローテーション、実際のユーザーの行動を模倣することに基づいています。
ここまでの内容を簡潔にまとめると:
- 価格と品揃えの監視には、ロシアのジオロケーションを持つ居住者プロキシと50のIPのプールを使用してください。
- レビューの収集や高い信頼性が必要なタスクには、ロシアのオペレーターのモバイルプロキシを使用してください。
- 常に遅延、ローテーション、正しいHTTPヘッダーを設定してください。
- ページネーションを回避する際にはスティッキーセッションを使用してください。
- 大規模なタスクは夜間に計画してください。
Ozonの監視システムを構築し始めたばかりの場合は、ロシアのIPを持つ居住者プロキシから始めることをお勧めします。これは、マーケットプレイスからのデータ収集において、コスト、速度、信頼性のバランスを提供します。すべてのリクエストが問題なく通過する必要がある重要なタスクには、モバイルプロキシを検討してください。これらは高価ですが、集中的な使用でもほとんどブロックされません。