マーケットプレイスでの成功は、トレンドに対する反応の速さに直接依存しています。あなたがWildberriesやOzonのカタログを手動でめくっている間に、競合他社はすでにプロキシを通じてデータ収集を自動化し、リアルタイムで売上のヒット情報を得ています。しかし、マーケットプレイスは積極的にパーシングをブロックしており、適切にプロキシを設定しなければ、プラットフォームへのアクセスを失ったり、不完全なデータを得たりするリスクがあります。
このガイドでは、トレンド商品に関するデータを自動的に収集するシステムを設定する方法、さまざまなマーケットプレイスに適したプロキシの種類を選ぶ方法、ブロックを引き起こす一般的なエラーを回避する方法について説明します。
なぜマーケットプレイスはパーシングをブロックするのか、プロキシがその問題を解決する方法
マーケットプレイスは自動データ収集からの保護に数百万を費やしています。その理由は簡単です:パーシングはサーバーに負荷をかけ、競合他社が商業情報を取得することを可能にします。Wildberries、Ozon、その他のプラットフォームは、疑わしい活動を監視する多層的な保護システムを使用しています。
アンチパーシングシステムは、複数のパラメータを同時に分析します。もし1つのIPアドレスから1分間に100リクエストが来ると、それは明らかにボットの兆候です。通常の購入者はその時間に5-10の商品カードを閲覧します。また、ブラウザのUser-Agent、クリックの頻度、マウスの動き、ページに滞在する時間も監視されています。
プロキシは重要な問題を解決します — リクエストを異なるIPアドレスに分散させます。実際のIPから1000リクエストを送信する代わりに、システムは50-100の異なるアドレスから各10-20リクエストを送信します。マーケットプレイスにとっては、これは異なる都市からの通常のユーザーの活動として見えます。
重要: プロキシの使用はブロックからの完全な保護を保証するものではありません。正しいIPのローテーションを設定し、リクエスト間のインターバルを維持し、実際のユーザーの行動を模倣する必要があります。これについては設定のセクションで詳しく説明します。
商品データ収集のためにどのプロキシタイプを選ぶべきか
マーケットプレイスのパーシングには、各々の利点と制限がある3つのプロキシタイプが適しています。選択はデータの量、予算、情報収集の速度に対する要件によります。
| プロキシタイプ | 速度 | プラットフォームの信頼性 | 価格 | 推奨 |
|---|---|---|---|---|
| データセンタープロキシ | 高速 (100+ Mbps) | 低い (簡単に検出される) | $1-3/IPから | 高いローテーションでの大量パーシング |
| レジデンシャルプロキシ | 中程度 (20-50 Mbps) | 高い (実際のユーザーのIP) | $5-15/GBのトラフィックから | 保護されたマーケットプレイスのパーシング (Wildberries、Ozon) |
| モバイルプロキシ | 中程度 (10-30 Mbps) | 最大 (モバイルキャリア) | $50-100/IPから | 最大の保護でのパーシング、モバイル版のサイト |
データセンタープロキシ:速度が匿名性より重要な場合
もしあなたがAliExpressやYandex.Marketのような、あまり保護されていないプラットフォームから大量のデータを迅速に収集する必要がある場合、データセンタープロキシが最適な選択です。これらはホスティングプロバイダーのサーバー上で動作するため、高速なページ読み込みを提供します。
主な欠点は、マーケットプレイスがデータセンターのIPを簡単に特定でき、疑わしい活動があればブロックされる可能性があることです。解決策は、大きなIPプール(50-100アドレス以上)を使用し、迅速なローテーションを設定することです:10-15リクエストごとにIPを変更します。
レジデンシャルプロキシ:ほとんどのタスクに対する黄金の中間
レジデンシャルプロキシは、通常のユーザーに提供される実際のインターネットプロバイダーのIPアドレスを使用します。WildberriesやOzonにとって、このトラフィックは完全に合法的に見えます — まるでモスクワ、サンクトペテルブルク、カザンの購入者が商品を閲覧しているかのようです。
このタイプのプロキシは、毎日または1日に数回データを収集する際のトレンドの定期的なモニタリングに適しています。コストはトラフィックに基づいて計算されます — 10,000の商品カードをパーシングするには、画像や説明のボリュームに応じて約5-10GBが必要です。
モバイルプロキシ:重要なタスクに対する最大の保護
モバイルプロキシは、携帯キャリア(MTS、Beeline、MegaFon)のIPアドレスを使用します。マーケットプレイスは、これらのアドレスをブロックすることは非常に稀です。なぜなら、1つのIPの背後には数千の実際のユーザーがいる可能性があるからです — キャリアはCGNAT技術(複数の加入者に共通のIP)を使用しています。
モバイルプロキシは、特に保護されたマーケットプレイスのセクションをパーシングする場合や、他のタイプのプロキシを使用してブロックを受けた場合に使用する価値があります。また、WildberriesやOzonのモバイルアプリからデータを収集する際にも欠かせません。
異なるマーケットプレイスのパーシングの特徴:Wildberries、Ozon、AliExpress
各マーケットプレイスは、独自のパーシング防止システムを使用しています。これらの特徴を理解することで、プロキシを最大限に効果的に設定し、ブロックを回避することができます。
Wildberries:厳しい保護と地理的制約
Wildberriesは、ロシアのマーケットプレイスの中で最も進んだ保護システムの1つを使用しています。プラットフォームは、リクエストの頻度だけでなく、行動要因も分析します:ページ上の滞在時間、スクロール、要素のクリック。成功するパーシングには、実際のユーザーの行動を模倣する必要があります。
重要な特徴は、価格と商品の在庫の地理的制約です。Wildberriesは、モスクワ、地域、遠隔地のために異なる品揃えを表示します。ロシア全体で販売するためのトレンドデータを収集する場合は、異なる地域のプロキシを使用してください:モスクワ、サンクトペテルブルク、エカテリンブルク、ノボシビルスク、クラスノダール。
実用的なアドバイス: Wildberriesのパーシングには、50-100リクエストごとにローテーションするレジデンシャルプロキシを使用してください。リクエスト間に2-5秒のランダムな遅延を必ず追加し、ブラウザのUser-Agentを変更してください。これにより、ブロックの可能性を最小限に抑えることができます。
Ozon:パートナー向けのAPIと公開カタログの保護
Ozonは、販売者向けに公式APIを提供していますが、競合のデータにはアクセスできません。トレンドを分析するためには、公開カタログをパーシングする必要があります。Ozonの保護はWildberriesほど攻撃的ではありませんが、プラットフォームは疑わしい活動に対してCAPTCHAを積極的に使用しています。
Ozonの特徴は、JavaScriptを介してコンテンツを動的に読み込むことです。単純なHTTPリクエストは機能せず、JavaScriptをサポートするパーサー(Selenium、Puppeteer)またはヘッドレスブラウザが必要です。これにより、プロキシへの負荷が増加するため、トラフィックの消費が増えることを考慮してください — 10,000商品カードあたり15-20GBまで。
AliExpress:地域制限のある大量パーシング
AliExpressは、ユーザーの国に応じて異なる価格と配達条件を表示します。ロシアのセラーにとっては、ロシアのIPを持つプロキシを使用することが非常に重要です — さもなければ、他の地域のデータを取得し、トレンド分析が歪むことになります。
AliExpressの保護は、パーシングに対して比較的寛容です — プラットフォームはトラフィックに関心を持っています。中程度のローテーション(100-200リクエストごと)でデータセンタープロキシを使用できます。重要なのは、1つのIPからのリクエスト速度を1秒あたり5-10リクエストを超えないようにすることです。
トレンドデータ収集の自動化ツール
マーケットプレイスのパーシングには、既製のサービスと独自のパーサー設定の2つのアプローチがあります。既製のソリューションは高価ですが、時間を節約します。独自のパーサーは技術的な知識が必要ですが、プロセスを完全に制御できます。
マーケットプレイス用の既製サービス
技術的な詳細を理解したくない方のために、既製のプラットフォームがあります。これらは特定のマーケットプレイスに合わせて設定されており、組み込みのプロキシシステムと自動IPローテーションを備えています。
- Mpstats — WildberriesとOzonに特化し、販売データ、在庫、検索結果の位置を収集します。月額3000ルーブルから。
- SellerFox — Wildberries向けの分析で、トレンドやニッチを追跡します。需要が高まっている商品を探すのに適しています。
- Moneyplace — OzonとWildberriesの競合をモニタリングし、価格やランキングの変動を追跡します。
- ParseHub — マーケットプレイスを含む任意のウェブサイト用のユニバーサルパーサー。設定が必要ですが、どのプラットフォームでも機能します。
既製サービスの主な欠点は、データだけでなく、そのプロキシインフラストラクチャにも支払う必要があることです。大量のパーシングを行う場合、毎月数万ルーブルかかることがあります。
独自のパーサー設定:ツールとライブラリ
基本的な技術スキルがある場合(またはチームに開発者がいる場合)、独自のパーシングシステムを設定できます。これはスケールアップ時に安価で、プロセスを完全に制御できます。
パーシングに人気のあるツール:
- Selenium (Python) — ブラウザの自動化、JavaScriptのサポート、プロキシの簡単な統合。WildberriesとOzonに適しています。
- Puppeteer (Node.js) — Chromeベースのヘッドレスブラウザ、Seleniumよりも高速で、メモリ消費が少ない。
- Scrapy (Python) — パーシング用のフレームワーク、JavaScriptのないシンプルなサイトに適しています。高速ですが、動的コンテンツには対応していません。
- Playwright (Python/Node.js) — Seleniumの現代的な代替、すべてのブラウザをサポートし、プロキシとの組み込み作業が可能。
マーケットプレイスのパーシングにはSeleniumまたはPlaywrightを推奨します — これらはJavaScriptを正しく処理し、実際のユーザーの行動(スクロール、クリック、遅延)を模倣することができます。
商品パーサーのためのプロキシのステップバイステップ設定
プロキシの正しい設定は成功の鍵です。最高のレジデンシャルプロキシでも、ローテーションを誤って設定したり、リクエストの制限を超えたりするとブロックされます。人気のあるツールを例に、設定プロセスを説明します。
ステップ1:プロキシのデータを取得し、動作確認を行う
プロキシを購入すると、次の形式のリストが提供されます:IP:PORT:LOGIN:PASSWORD。パーサーを設定する前に、各プロキシの動作確認を必ず行ってください。
簡単な確認方法は、ブラウザを開き、ネットワーク設定でプロキシを設定し、IP確認サイト(例:2ip.ruやwhoer.net)にアクセスすることです。プロキシのIPが表示されていることを確認し、実際のアドレスではないことを確認してください。また、ページの読み込み速度も確認してください — もしページが5秒以上かかる場合、そのプロキシは質が悪いです。
ステップ2:パーサーでのプロキシ設定(Seleniumの例)
Seleniumを使用してパーシングを行う場合、プロキシの設定は次のようになります。プロキシのリストを別のファイルに作成し、パーサーが各セッションでリストからランダムにプロキシを選択します。
基本的な動作ロジック:パーサーは設定されたプロキシでブラウザを起動し、50-100リクエストを実行(商品カードの閲覧)、その後セッションを閉じて別のプロキシで新しいセッションを開始します。これにより、異なるユーザーの行動を模倣し、ブロックのリスクを減らします。
ステップ3:IPアドレスのローテーション設定
プロキシのローテーションとは、特定のインターバルでIPアドレスを自動的に変更することです。2つのアプローチがあります:時間によるローテーション(5-10分ごと)とリクエスト数によるローテーション(50-100リクエストごと)です。
マーケットプレイスのパーシングには、リクエストによるローテーションを推奨します — これはより予測可能です。Wildberriesをパーシングする場合は、50リクエストごとにIPを変更してください。あまり保護されていないプラットフォーム(AliExpress)では、1つのIPで200-300リクエストまで増やすことができます。
重要: 一部のプロキシプロバイダーは、彼らの側で自動ローテーションを提供しています — あなたは1つのエンドポイント(アドレス:ポート)を取得し、IPは各リクエストごとまたはタイマーに従って自動的に変更されます。これにより設定が簡素化されますが、プロセスに対する制御が減ります。
ステップ4:リクエスト間の遅延設定
プロキシのローテーションがあっても、リクエストを連続的に送信することはできません。実際のユーザーは商品カードを閲覧し、レビューを読み、価格を比較するのに時間をかけます。あなたのパーサーはこの行動を模倣する必要があります。
異なるマーケットプレイスに対する最適な遅延:
- Wildberries: リクエスト間に2-5秒、±1秒のランダムな変動
- Ozon: 3-7秒(迅速なリクエスト時のCAPTCHAのため)
- AliExpress: 1-3秒(より寛容な保護)
固定された遅延ではなく、ランダムな遅延を使用してください。もし各リクエストがちょうど3秒ごとに行われる場合 — それもボットの兆候です。ランダム性を追加してください:2秒から5秒の間で均等に分布させます。
IPのローテーションとリクエストの制限:バンを避ける方法
プロキシを正しく設定しても、アンチパーシングシステムの動作の特性を考慮しないとブロックされる可能性があります。マーケットプレイスはリクエストの頻度だけでなく、行動パターンも分析します。
異なるプロキシタイプのリクエスト制限
各プロキシタイプには、安全に使用できる制限があります。これらの制限を超えると、ブロックされる可能性が急増します。
| プロキシタイプ | 1時間あたりのIPリクエスト数 | 1日あたりのIPリクエスト数 | 推奨ローテーション |
|---|---|---|---|
| データセンター | 50-100 | 300-500 | 10-20リクエストごと |
| レジデンシャル | 100-200 | 1000-2000 | 50-100リクエストごと |
| モバイル | 200-300 | 2000-3000 | 100-200リクエストごと |
これらの数字は目安です。実際の制限は特定のマーケットプレイスや時間帯によって異なります。ピーク時間(夕方、週末)には、実際のユーザーが多いため、活動を増やすことができます。
異なるパーシングボリュームのためのローテーション戦略
ローテーション戦略は、収集するデータの量によって異なります。カテゴリー内のトップ100商品のモニタリングにはシンプルなスキームで十分です。全カタログ(数万のアイテム)をパーシングするには、より複雑なシステムが必要です。
小規模(1日あたり1000商品まで): 5-10のレジデンシャルプロキシを使用し、100リクエストごとにローテーションします。これで2-3カテゴリーのトレンドをモニタリングできます。
中規模(1日あたり1000-10000商品): 20-50のレジデンシャルプロキシのプールを使用し、50リクエストごとにローテーションします。パーシングセッション間に1-2時間のランダムな休止を追加します。
大規模(1日あたり10000商品以上): 重要なリクエストにはレジデンシャルプロキシを、マス収集にはデータセンタープロキシを組み合わせます。100以上のプロキシを使用し、積極的なローテーションと時間による負荷分散を行います。
トレンド分析のために収集すべきデータ
パーシングのためのパーシングには意味がありません。重要なのは、競合が飽和する前にトレンド商品を特定するのに役立つ正しいメトリクスを収集することです。
トレンドを特定するための主要メトリクス
各商品カードについて、次のデータを収集します:
- 商品名とSKU — 識別と動向追跡のため
- 価格(現在の価格と割引価格) — トレンドはしばしば価格の急激な下落から始まります
- レビュー数 — 1週間でのレビューの増加は販売の増加を示します
- 平均評価 — 評価4.5以上の商品はトレンドになりやすい
- 注文数(利用可能な場合) — 需要の直接的な指標
- 在庫数 — 在庫の急激な減少 = 需要の増加
- 主要な検索クエリでの表示順位 — トップ10の商品は80%のクリックを得ます
- 商品出現日 — 販売が急速に増加する新商品 = 潜在的なトレンド
これらのデータを毎日収集し、データベース(PostgreSQL、MySQL)または簡単なプロジェクト用のGoogle Sheetsに保存します。7-14日間の動向分析は、需要が増加している商品を示します。
早期にトレンドを特定する方法
成功するセラーは、競合よりも早くニッチに入ることでトレンドから利益を得ます。トレンドがすでにTelegramチャンネルで取り上げられているときには、利益を得るのが遅すぎます — 競争のためにマージンが低下します。
新たに生まれたトレンドの兆候:
- 1週間でのレビュー数の50-100%の増加(基盤が小さい場合:10-50レビュー)
- 過去2週間でのニッチ内の新しい販売者の出現(5-10人)
- カテゴリーリーダーの在庫の急激な減少(1000以上から100-200へ)
- 表示順位の増加:商品が1週間で50位から10位に上昇
- ソーシャルメディア(TikTok、Instagram)での商品言及 — 間接的な兆候
これらの信号を検出した際に自動通知(Telegramボット、メール)を設定してください。これにより、主要な競合よりも1-2週間のアドバンテージを得ることができます。
パーシング時の一般的なエラーとその回避方法
パーシング時のブロックのほとんどは、同じエラーから発生します。最も一般的な問題とその解決策を見ていきましょう。
エラー1:すべてのリクエストに1つのIPを使用する
初心者はしばしば1-2のプロキシを購入し、それらを通じて全カタログをパーシングしようとします。結果は予測可能です — 1時間以内にブロックされます。マーケットプレイスは、1つのIPからの異常な活動を簡単に検出します。
解決策: 小規模なプロジェクトでも、最低10-20のプロキシを使用してください。負荷を均等に分散させ、1時間あたりのリクエストを100-200に制限します。
エラー2:夜間のパーシング
多くの人が夜間にパーサーを起動し、朝までに新しいデータを取得しようとします。しかし、夜間(モスクワ時間の午前2時から6時)はマーケットプレイスのトラフィックが最小限です。あなたの活動は、低い全体的な負荷の中でより目立つようになります。
解決策: ピーク時間(午後6時から午後11時)にパーシングを開始してください。この時間帯は、プラットフォームに実際のユーザーが最も多くいます。あなたのリクエストは、全体のトラフィックの流れの中に溶け込みます。
エラー3:User-Agentや他のヘッダーを無視する
パーサーはデフォルトで「Python-requests/2.28」や「Selenium WebDriver」のようなUser-Agentでリクエストを送信します。これはボットの明確な指示です。マーケットプレイスはこのようなリクエストを自動的にブロックします。
解決策: 現代のブラウザのリアルなUser-Agentを使用してください。プロキシのローテーションごとにUser-Agentを変更します。また、Accept-Language、Refererなど、実際のブラウザに特有のヘッダーも追加してください。
エラー4:検索結果の最初のページのみをパーシングする
多くの人がカテゴリー内のトップ50商品のデータ収集で満足しています。これは誤りです — トレンドはしばしば競争が少ない3-5ページ目で生まれます。
解決策: 最低でも最初の5-10ページ(カテゴリー内で200-500商品)をパーシングしてください。5ページ目から1-2ページに急上昇する商品を追跡してください — これが新たに生まれるトレンドです。
エラー5:CAPTCHAやブロックの処理がない
プロキシを正しく設定しても、時々CAPTCHAや一時的なブロックが発生します。パーサーがこれらの状況に対処できない場合、エラーで停止し、データを失うことになります。
解決策: パーサーにエラーハンドリングを追加してください。CAPTCHAを受け取った場合は、別のプロキシに切り替え、5-10分後にリクエストを再試行します。中間結果を保存し、障害が発生した際にデータを失わないようにします。
結論
プロキシを通じてトレンド商品のデータを収集することは、単なる技術的プロセスではなく、マーケットプレイスのセラーにとっての競争優位性です。他の人が手動で競合をモニタリングしている間に、あなたは毎日数万商品の構造化データを取得し、早期にトレンドを特定します。
覚えておくべき重要なポイント:マーケットプレイスの保護レベルに応じてプロキシタイプを選択してください(WildberriesやOzonにはレジデンシャル、あまり保護されていないプラットフォームにはデータセンタープロキシ)、リクエスト制限を考慮した正しいIPローテーションを設定し、リクエスト間にランダムな遅延を追加し、実際のユーザーの行動を模倣してください。ピーク時間にデータを収集し、あなたの活動が全体のトラフィックの中で目立たないようにします。
小さく始めてください — 10-20のプロキシを使用して1-2カテゴリーの商品パーシングを設定します。プロセスを練習し、ブロックがないことを確認し、徐々にシステムをスケールアップします。データ収集の自動化は、トレンドニッチへの迅速な進出によって、初月から投資を回収できます。
Wildberries、Ozon、または他の保護されたマーケットプレイスから定期的にデータを収集する予定がある場合は、レジデンシャルプロキシの使用をお勧めします — これにより、プラットフォームからの信頼性が高まり、ブロックのリスクが最小限に抑えられます。あまり保護されていないサイトの大量パーシングには、適切なローテーション設定のデータセンタープロキシが適しています。