ブログに戻る

Amazon、Googleレビュー、Yelpのレビューを解析するためのプロキシ:ブロックなしの完全ガイド

Amazon、Googleレビュー、Yelpから自動的にレビューを収集したいが、常にブロックされてしまう?この記事では、どのプロキシを選ぶべきか、バンなしでデータ収集を設定する方法を解説します。

📅2026年5月16日
```html

あなたはAmazonやGoogleからのレビューを自動的に収集しようとしていて、10〜20件のリクエストの後にキャプチャやIPのブロックを受けていますか?おなじみの話ですか?マーケットプレイスやレビューサイトは、パースからの保護を強化しています:ボットを検出し、データセンターのIPアドレスの範囲をブロックし、キャプチャの解決を要求します。しかし、正しいプロキシを使用すれば、この問題を一度で解決できます。

このガイドでは、各プラットフォームに適したプロキシのタイプ、IPのローテーションの設定方法、コードを書かずに使用できるツール、そして最終的にブロックなしで毎日数千件のレビューを収集する方法を説明します。

なぜAmazon、Google、Yelpはレビューのパースをブロックするのか

プロキシを選択する前に、なぜブロックが発生するのかを理解することが重要です。プラットフォームが「データを共有したくない」だけではありません。彼らには回避すべき具体的な技術的保護メカニズムがあります。

1つのIPからのリクエストが多すぎる。 普通の人がAmazonでレビューをスクロールする際、1分間に2〜5回のリクエストを行います。パーサーは数百回です。システムは異常なアクティビティを検出し、IPをブロックします。これはデータ収集時の最も一般的なブロックの理由です。

データセンターのIPアドレスがブラックリストに載っている。 Amazon、Google、Yelpは、AWS、Google Cloud、DigitalOcean、Hetznerなどの大手クラウドプロバイダーのIP範囲をすでにブラックリストに載せています。もし「露出した」アドレスを持つ安価なデータセンターのプロキシを使用している場合、最初のリクエストの前にブロックされるでしょう。

ブラウザとヘッダーのフィンガープリンティング分析。 現代の保護システム(Cloudflare、PerimeterX、DataDome)は、IPだけでなく、HTTPヘッダー、User-Agent、マウスの動き、リクエストのシーケンスも分析します。ヘッダーがボットを示す場合、ブロックは避けられません。

ジオロケーションの制限。 Amazonの一部のレビューは特定の国のユーザーにのみ表示されます。たとえば、amazon.deのレビューはドイツから見ると、ロシアから見るのとは異なります。正確なデータ収集には、必要なジオロケーションのプロキシが必要です。

キャプチャとJSチャレンジ。 Googleは特にreCAPTCHAを積極的に使用しています。Yelpは、単純なHTTPリクエストでは通過できないJSチェックを適用しています。これらのメカニズムは、ブラウザツールの使用またはキャプチャ解決のための特別なサービスを必要とします。

主な結論:

ブロックは偶然ではなく、システムです。これを回避するには、正しいプロキシのタイプ + IPのローテーション + 適切なリクエストヘッダー + パース用の適切なツールが必要です。

どのようなプロキシのタイプがあり、レビューに適しているか

すべてのプロキシがレビュー収集に同じように役立つわけではありません。3つの主要なタイプとその適用性について説明します。

データセンタープロキシ (Datacenter Proxies)

これはサーバー会社に属するIPアドレスです。高速で安価で、匿名性よりも速度が重要なタスクに適しています。しかし、AmazonやGoogleのレビューをパースするには効果が薄いです。ほとんどのこうしたIPはすでにブラックリストに載っています。数ページを収集できますが、すぐにブロックやキャプチャを受けるでしょう。

データセンタープロキシは、パーサーのテストや、最小限の保護を持つプラットフォーム(たとえば、小規模な地域のレビューサイト)にのみ適しています。

レジデンシャルプロキシ (Residential Proxies)

これは実際の家庭ユーザーのIPアドレスです。AmazonやGoogleにとっては、これは普通の家庭用インターネットを持つ人です。このようなプロキシはほとんどブラックリストに載らず、IPが常に変わり、実際のデバイスに属しています。

レジデンシャルプロキシは、Amazon、Yelp、および中程度の保護を持つほとんどのプラットフォームのレビューをパースするための最適な選択肢です。これにより、必要なジオロケーション(国、都市)でリクエストを行うことができ、ローカルレビューを取得するために重要です。

モバイルプロキシ (Mobile Proxies)

モバイルキャリアのIPアドレス(4G/5G)。これは、どのプラットフォームにとっても最も「信頼される」トラフィックタイプです:モバイルIPはほとんどブロックされず、1つのIPの背後には数十の実際のユーザーが存在する可能性があります(モバイルキャリアのNAT)。Googleは特にモバイルアドレスに対して寛容です。

モバイルプロキシは、Google ReviewsやYelpのパースに欠かせません。ここではボットからの保護が特に攻撃的です。これらはレジデンシャルプロキシよりも高価ですが、キャプチャなしで成功するリクエストの割合が最も高くなります。

Amazonのレビューのパース: 特徴と設定

Amazonは、パースが最も難しいサイトの1つです。会社は同時に複数の保護レベルを使用しています:行動分析、ヘッダーの確認、ジオロケーション、攻撃的なキャプチャシステム。しかし、毎日何千人ものマーケターやアナリストがAmazonからレビューを収集しています。彼らは正しく行っています。

Amazon Reviewsを成功裏にパースするために必要なもの

以下は、パースが安定して機能するための最小限の条件です:

  • 必要な国のジオロケーションを持つレジデンシャルまたはモバイルプロキシ(amazon.comの場合はUS、amazon.deの場合はDE)
  • IPのローテーション — 最低でも10〜30リクエストごと
  • 正しいUser-Agent — 実際のブラウザ(Chrome、Firefox)のエミュレーション
  • リクエスト間の遅延 — 2〜5秒、ボットのように見えないようにするため
  • クッキーセッション — Amazonは保存されたクッキーからのリクエストに対してより良い反応を示します

Amazonのためのステップバイステップの設定

ステップ1. 必要な国のジオロケーションを持つレジデンシャルプロキシを選択します。amazon.comの場合はアメリカ、amazon.co.ukの場合はイギリスです。これは重要です:Amazonは異なる国のユーザーに異なるレビューを表示します。

ステップ2. ローテーションを設定します。既製のパーサー(たとえば、OctoparseやParseHub)を使用する場合は、接続設定でプロキシを指定します。ほとんどのこのようなツールは、自動ローテーションのプロキシリストをサポートしています。

ステップ3. リクエスト間の遅延を設定します。Octoparseでは、「遅延設定」セクションで行います — 2〜6秒のランダムな間隔を設定します。

ステップ4. 50〜100ページでテストを実行します。キャプチャが5%以上の頻度で表示される場合は、遅延を増やすか、プロキシプールを変更します。

ステップ5. スケールアップします。成功したテストの後、数千件のレビューの収集を開始できます。良好なレジデンシャルプロキシプールは、ブロックなしで1日に5000〜10000件のレビューを収集できます。

Amazonについて重要なこと:

Amazonは定期的に保護アルゴリズムを更新します。あなたのパーサーが1か月前に動作していたが、今はブロックを受け始めた場合 — おそらく検証アルゴリズムが変更されたのです。解決策:User-Agentを最新のChromeバージョンに更新し、プロキシがブラックリストに載っていないか確認してください。

Google Reviewsのレビュー収集: 知っておくべきこと

Google Reviews — Google MapsおよびGoogle Business Profileのレビューは、マーケター、SEO専門家、アナリストにとって非常に貴重なデータソースです。しかし、Googleはデータを特に攻撃的に保護しています:reCAPTCHA v3、行動分析、ブラウザのフィンガープリンティングの確認。

主な難しさは、Google Reviewsが通常のHTTPリクエストを介して読み込まれないことです。レビューはJavaScriptを介して動的に読み込まれます。これは、単純なHTTPパーサーでは機能しないことを意味します — JavaScriptをレンダリングできるツール(ブラウザパーサー)が必要です。

Google Reviewsを正しく収集する方法

オプション1: 既製のサービス。 Outscraper、Apify(Google Maps Scraperアクター)やPhantomBusterのようなツールは、ブラウザエンジンを介してGoogle Reviewsを収集できます。URLまたは店舗の名前を指定し、プロキシを接続するだけです。

オプション2: Octoparseのブラウザモード。 Octoparseはブラウザレンダリングモードをサポートしています。設定でレジデンシャルまたはモバイルプロキシを指定すると、ツールは実際のユーザーのようにレビューを収集します。

オプション3: Google Places API。 公式の方法はGoogle Places APIを使用することです。これにより、店舗ごとに最大5件のレビューが無料で取得できますが、より多くのボリュームには支払いが必要です。しかし、ブロックやプロキシは必要ありません。

なぜGoogleにはモバイルプロキシが必要なのか

GoogleはreCAPTCHAの開発者であり、ボット検出のリーダーの1つです。レジデンシャルプロキシは機能しますが、モバイルIPははるかに良い結果をもたらします。理由は簡単です:Google自体がモバイルプラットフォームであり、モバイルトラフィックを信頼しています。モバイルIPからのリクエストは、キャプチャをトリガーすることが少なく、行動分析に引っかかることも少ないです。

大規模なGoogle Reviewsの収集(1日に数千の店舗)には、必要な都市や地域のジオロケーションを持つローテーション可能なモバイルプロキシを使用することをお勧めします。これにより、レビューはローカル検索に最大限に関連性を持つことができます。

Yelpのパースをブロックなしで: ステップバイステップのガイド

Yelpはアメリカで最大のレビューサイトです。アメリカ市場で活動するマーケターにとって、これは競合、顧客の感情、ニッチのトレンドに関するデータの必須ソースです。Yelpをパースするのは、一見簡単そうに見えますが、プラットフォームはCloudflareと独自のボット保護システムを使用しています。

Yelpの保護の特徴

  • Cloudflareボット管理 — 行動とフィンガープリンティングを分析
  • リクエストの制限: 1つのIPからの30〜50リクエストを超えるとブロック
  • 最初の訪問時のJavaScriptチェック
  • 一部のレビューは非表示(「フィルタリングされたレビュー」)で、認証されたユーザーにのみアクセス可能

Yelpのためのステップバイステップのガイド

ステップ1. Cloudflareをサポートするツールを選択します。 通常のパーサーはCloudflareを通過できません。Apify(Yelp Scraperアクター)、Bright Data Scraping Browser、またはPhantomBusterを使用してください — これらはJSチェックを回避できます。

ステップ2. アメリカのジオロケーションを持つレジデンシャルプロキシを接続します。 Yelpはアメリカ市場を対象としています。アメリカのIPを持つプロキシは、データへの最大のアクセスと最小のブロックを提供します。

ステップ3. 5〜10リクエストごとにローテーションを設定します。 Yelpはリクエストの頻度に非常に敏感です。5〜10ページごとにIPをローテーションすることは、安定した動作のための必須条件です。

ステップ4. リクエスト間に3〜8秒の遅延を追加します。 ランダムな遅延は、実際のユーザーの行動を模倣し、ブロックのリスクを大幅に減少させます。

ステップ5. Yelp Fusion APIを使用して一部のデータを取得します。 Yelpは、ビジネスとレビューに関する基本データへのアクセスを提供する公式APIを提供しています。小規模なボリュームの場合、これはブロックのリスクなしで最も簡単な方法です。

コードなしでレビューを収集するためのツール

良いニュース:レビューをパースするためにプログラマーである必要はありません。プロキシ接続と自動IPローテーションをサポートする視覚インターフェースを持つ既製のツールがあります。最も人気のあるものを見てみましょう。

ツール プラットフォーム プロキシサポート 難易度
Octoparse Amazon、Yelp、任意のサイト ✅ プロキシリスト + ローテーション 低い(ビジュアルモード)
Apify Amazon、Google Maps、Yelp ✅ 組み込み + 自分のプロキシ 低い(既製のアクター)
PhantomBuster Google Maps、Yelp ✅ レジデンシャルプロキシ 低い(テンプレート)
ParseHub Amazon、Yelp、任意のサイト ✅ プロキシリスト 中程度
Outscraper Google Reviews、Maps ✅ 組み込み 非常に低い(SaaS)

Octoparseでプロキシを接続する方法(ステップバイステップ)

Octoparseは、技術的なバックグラウンドを持たないマーケターの間で最も人気のあるツールの1つです。プロキシを接続する方法は次のとおりです:

  1. Octoparseを開く → 設定 → プロキシ設定に移動します。
  2. 「カスタムプロキシを使用する」を選択します。
  3. ip:port:login:password形式でプロキシリストを貼り付けます。
  4. 「プロキシを自動的にローテーションする」をオンにします — ツールは自動的にIPを変更します。
  5. 「プロキシをテストする」をクリックします — すべてのプロキシが機能していることを確認します。
  6. 通常モードでタスクを開始します。

Apifyでプロキシを接続する方法

  1. apify.comにアクセス → 必要なアクター(たとえば、「Amazon Reviews Scraper」)を選択します。
  2. 「入力」セクションで「プロキシ設定」フィールドを見つけます。
  3. 「カスタムプロキシ」を選択し、プロキシのデータを貼り付けます。
  4. レビューのページのURLまたは商品ASINコードを指定します(Amazon用)。
  5. 「開始」をクリックします — 結果はJSONまたはExcel形式で利用可能になります。

プロキシのローテーションと安全なレビューのパースのルール

どんなに質の高いプロキシでも、安全なパースのルールを守らなければ役に立ちません。プラットフォームは行動パターンを分析しており、1つの不適切なリクエストパターンがIPプール全体のブロックにつながる可能性があります。

ルール1: 定期的にIPをローテーションする

Amazonの場合、10〜20リクエストごとにIPを変更することをお勧めします。Googleの場合は5〜10、Yelpの場合は5〜8です。セッショナルプロキシ(スティッキーセッション)を使用している場合は、セッションが10〜15分を超えないようにしてください — その後、新しいIPをリクエストします。

ルール2: 実際の行動を模倣する

実際のユーザーは、2秒の完璧な間隔でリクエストを行いません。ランダムな遅延を追加してください:1〜8秒の間隔で。時々、30〜60秒の休止を取ってください — まるで人がページを読んでいるかのように。これにより、検出される可能性が大幅に減少します。

ルール3: 現在のUser-Agentを使用する

User-Agentは実際のブラウザに対応する必要があります。古いバージョンのChromeやFirefoxはすぐに疑いを引き起こします。User-Agentは少なくとも月に1回更新してください。良いパーサー(Octoparse、Apify)はこれを自動的に行います。

ルール4: プラットフォームのローカル時間帯で夜間にパースしない

保護システムは、夜間の疑わしいトラフィックに対してより敏感です。Amazon USをパースする場合、アメリカの時間帯(EST/PST)の日中に行うのが最適です — プラットフォームに多くの実際のユーザーがいるときに、あなたのリクエストが一般的なトラフィックに埋もれます。

ルール5: 成功したリクエストの割合を監視する

良い指標は、キャプチャなしで95%以上の成功したリクエストです。割合が85%を下回る場合 — 何かがうまくいっていません。プロキシが古くなっていないか、保護アルゴリズムが変更されていないか、User-Agentを更新する必要があるか、遅延を増やす必要があるか確認してください。

安全なレビューのパースのチェックリスト:

  • ✅ 必要なジオロケーションを持つレジデンシャルまたはモバイルプロキシ
  • ✅ プラットフォームに応じて5〜20リクエストごとのIPローテーション
  • ✅ リクエスト間の1〜8秒のランダムな遅延
  • ✅ 現在のUser-Agent(最新のChromeバージョン)
  • ✅ プラットフォームのローカル時間帯での日中にパース
  • ✅ 成功したリクエストの割合の監視(目標: >95%)
  • ✅ 1〜2か月ごとのプロキシプールの更新

異なるプラットフォームのためのプロキシタイプの比較

以下は、特定のタスクに適したプロキシタイプを迅速に選択するのに役立つサマリーテーブルです。パース設定時にこれを参考にしてください。

プラットフォーム データセンター レジデンシャル モバイル 推奨事項
Amazon Reviews ❌ ブロックされる ✅ 良好 ✅ 優れた レジデンシャル(US)
Google Reviews ❌ ブロックされる ⚠️ 中程度 ✅ 優れた モバイル
Yelp ❌ ブロックされる ✅ 良好 ✅ 優れた レジデンシャル(US)
Trustpilot ⚠️ 部分的に ✅ 良好 ✅ 優れた レジデンシャル
Wildberries / Ozon ⚠️ 動作する ✅ 優れた ✅ 優れた レジデンシャル(RU)
TripAdvisor ❌ ブロックされる ✅ 良好 ✅ 優れた レジデンシャル

なぜレビューを収集するのか: 使用シナリオ

自動的なレビュー収集は、いくつかのビジネス課題を同時に解決します:

  • 競合分析。 競合の製品に対するレビューをAmazonで収集し → 弱点を見つけ → 自社のマーケティングに活用します。
  • 評判の監視。 自動的に自社ブランドに関する新しいレビューをすべてのプラットフォームで追跡します。
  • オーディエンス調査。 数千件のレビューを分析し → パターンを特定し → 製品を改善します。
  • SEOとコンテンツ。 セマンティック分析のためにレビューを収集し、実際の購入者が使用するキーワードを特定します。
  • レビューアグリゲーター。 ビジネスのために複数のプラットフォームからレビューを集約するサービスを作成します。

ロシアのマーケットプレイスでのレビューのパース

あなたのビジネスがロシア市場をターゲットにしている場合、Wildberries、Ozon、Yandex.Marketからのレビュー収集も重要です。これらのプラットフォームはAmazonに比べて保護が緩やかですが、大量のパースをブロックします。彼らには、ロシアのIPを持つレジデンシャルプロキシがあれば十分です — これにより、キャプチャやブロックなしで安定してデータを収集できます。

ロシアのマーケットプレイスをパースするための人気のあるツールには、Screaming Frog(プロキシ付き)、Octoparse、またはプロキシをインフラに組み込んだMoneyplaceやMPStatsのような専門サービスがあります。

結論: 今すぐブロックなしでレビューを収集し始める方法

Amazon、Google Reviews、Yelpからの自動的なレビュー収集は、マーケター、アナリスト、eコマース専門家にとって強力なツールです。主な障害はブロックです。そして主な解決策は、正しいプロキシタイプとローテーションおよび遅延の適切な設定の組み合わせです。

短く言うと:AmazonとYelpには、必要な国のジオロケーションを持つレジデンシャルプロキシを使用してください。Google Reviewsにはモバイルプロキシを使用してください。これにより、成功するリクエストの割合が最も高くなります。データセンタープロキシはこれらのタスクにはほとんど役に立ちません — そのIPはすでにブラックリストに載っています。

コードなしのツールとしては、OctoparseとApifyが最適です — 両方とも外部プロキシの接続と自動ローテーションをサポートしています。Google Reviewsには、データ収集に最適化された専門サービスであるOutscraperも検討してください。

複数のプラットフォームから定期的にレビューを収集する予定がある場合は、レジデンシャルプロキシから始めることをお勧めします — これにより、速度、匿名性、コストの最適なバランスが確保され、ほとんどのレビュー監視タスクに適しています。特に保護が攻撃的なGoogle Reviewsには、モバイルプロキシを検討してください — これにより、キャプチャなしで成功するリクエストの割合が最も高くなります。

```