ブログに戻る

ボットが初めてインターネットで人間を超えた:57.5%のトラフィックが意味するスクレイピングへの影響

2026年6月3日、Cloudflareは歴史的な転換点を記録しました:ボットが初めてインターネットのリクエストの半分以上を占めました — 57.5%対42.5%の人間。主な要因はエージェントAIです。数字を分析し、なぜサイトがクローラーの前に大量に扉を閉ざしているのか、そしてそれがウェブスクレイピングやデータ収集に何をもたらすのかを見ていきます。

📅2026年6月13日

業界が最低でも1年待ち望んでいたことが起こりました:インターネット上の機械の数が人間を上回りました。 2026年6月3日、Cloudflareは自社のRadarネットワークのデータを発表し、自動化システムが初めて歴史的にウェブコンテンツへのHTTPリクエストの大多数を生成したことを示しました — 57.5%対42.5% の比率で生のユーザーに対して。NBCニュースは同じ報告を引用し、ほぼ同じ比率を示しました — 57.4%対42.6%。これは統計的な誤差でも一時的な急増でもなく、長年のトレンドの転換を示すものです。

最も注目すべきは、これがどれほど迅速に起こったかです。発表の3ヶ月前、SXSWカンファレンスでCloudflareのCEOマシュー・プリンスは、交差点が2027年より早く訪れることはないと確信していました。新しい数字についてコメントし、彼は認めました:「まあ、これは私が予測したよりも早く起こりました。」この境界は、予測を立てた本人が予測したよりも1年以上早く達成されました。

誰がウェブをボットの領域に変えたのか

主な原因は、クラシックな検索クローラーやスパムボットではなく、エージェントAIです:ChatGPTやGeminiのようなアシスタントのためにタスクを実行する半自律プログラムです。論理はシンプルで、サーバーに対して無慈悲です:人間が数回クリックするところで、1つのAIエージェントが数千のページを巡回してコンテキストを収集し、回答を提供します。このような「遠征」は、統計的には雪崩のようなリクエストの数に繋がります。

成長の規模は、特定のクローラーによって明らかです。Cloudflareの測定によると、OpenAIのGPTBotのトラフィックは1年間で305%増加しました。全AIトラフィックの中での割合を見ると、同じ状況です:GPTBotは4.7%(2024年7月)から11.7%(2025年7月)に上昇しました。2026年5月には、専門のAIクローラーがボットリクエストの20.3%を占め、さらに6.5%はAI検索ボットによって提供されました — 合計で27%のボットトラフィックがすでに言語モデルに直接供給されています。このトラフィックの目的は次のように分配されています:51.8%は学習データの収集、35.7%は混合モード(学習と回答の提供)、そして約9%は純粋な検索です。

インフラへの負荷はもはや抽象的なものではありません。Wikimedia財団は、2024年1月以降、マルチメディアの帯域幅消費が50%増加したと報告していますが、リソースを大量に消費するトラフィックの65%はボットによって生成されています。それにもかかわらず、ボットはページビューのわずか35%を占めています。言い換えれば、機械は不釣り合いに多くの高価なトラフィックを奪い、ウェブサイトの所有者には何も返していません。

なぜオープンウェブは扉を閉ざすのか

プラットフォームの反応は予測可能でした:ボットが広告表示やクリックをもたらさない場合、彼らは停止され始めます。2025年8月までに、250万以上のウェブサイトがAIの学習データとしての使用を完全に禁止しました。2025年7月以降の5ヶ月間で、Cloudflareだけで約4160億のAIボットリクエストがブロックされました。GPTBotはrobots.txtファイルで最も「禁止された」クローラーとなり、5.52%のDISALLOWルールに含まれています。

不均衡は、いわゆるクローリングからリファラル比率 — ボットが送信したページごとにどれだけのページが戻ってくるか — でよく見えます。基準となるGooglebotのこの比率は約4.9:1です。GPTBotは1276:1で、ClaudeBotはほぼ24000:1に達してから約11000:1に改善されました。ウェブサイトの所有者にとって、これは簡単な意味を持ちます:AIは千単位で奪い、単位で返します。

しかし、単にブロックすることは潜在的な収入を失うことを意味するため、Cloudflareは第三の道を提案しました。そのシステムPay-Per-Crawlは、かつてないHTTPステータス402「Payment Required」を利用します:ボットを完全に閉じる代わりに、ウェブサイトはアクセスに対して請求書を発行できます。会社自体が仲介者となり、支払いを処理します。メカニズムは三層構造です:Block(ワンクリックで、新しいドメインのデフォルト)、Charge(所有者の料金での有料アクセス)、Allow(詳細な分析を伴うオープンアクセス)。Cloudflareによると、クライアントはすでに1日あたり10億以上の402コードを支払っています。

このトレンドは一社の枠を超えています。2026年4月7日、世界最大のホスティングプロバイダーの一つであるGoDaddyがCloudflareのAI Crawl Controlツールを自社プラットフォームに統合しました。Cloudflareの戦略ディレクター、ステファニー・コーエンは次のように述べました:「AI Crawl Controlのようなツールをウェブサイトの所有者に提供し、オープンスタンダードを確立することで、私たちはインターネットの新しいビジネスモデルの基盤を築いています。」世界中の約20%のウェブサイトがCloudflareのリバースプロキシの背後で動作していることを考えると、これはゲームのルールにおけるテクトニックな変化を意味します。

マスクの戦争:なぜブロックはすべてに同じように影響しないのか

しばしば見落とされる重要なニュアンスは、新しい障壁が主に誠実に自己を表現するボットを対象にしていることです。明示的なUser-Agent「GPTBot」とAWSクラウドのアドレスを持つクローラーは、WAFやトラフィックのカテゴライズにとって簡単な標的です。まさにこのようなボットに対して、億単位のブロックが行われています。

問題は、すべての人がルールを守っているわけではないことです。MIT CSAILのAIエージェントインデックス2025年版とCloudflareの観察は一致しています:AIトラフィックの約半分がrobots.txtを無視しています。また、モデルのための「礼儀正しいメニュー」となるはずだったllms.txtは、2026年第1四半期の時点で、どの大手AI企業もプロダクションで読み取っていません。2025年8月の事例は示唆に富んでいます:CloudflareはPerplexityを隠れクローリングで公然と非難しました — User-Agentのローテーションと通常のブラウザに偽装してrobots.txtの禁止を回避するためです。Perplexityは非難を否定しましたが、このケースは業界の進行方向を明確に示しました。

公共の、ログイン不要のデータを合法的に収集する人々にとっての結論は逆説的です:プラットフォームが「ノイズの多い」データセンターのクローラーをより攻撃的に排除するほど、通常の人間のように見えるトラフィックの価値が高まります。居住者またはモバイルIPから、正常なブラウザフィンガープリンティングと人間のリズムで来るリクエストは、アンチボットシステムにとって訪問者と区別がつかず、クラウドボットが即座に禁止される場所を通過します。

実際のウェブスクレイピングにとっての意味

もしあなたのビジネスがデータの収集 — 価格の監視、SERPのパース、レビューの集約、オープンソースでのモデルの学習 — に依存しているなら、Cloudflareの報告からの結論は行動指針として受け入れるべきです。

  • マスキングなしのデータセンターのプロキシはリスクゾーンです。 明示的なクラウドの範囲からリクエストを送信し、フィンガープリンティングを管理しない場合、あなたは主要な攻撃の対象となります。評判に敏感でないタスク(内部API、友好的なソース、単純な公開ページ)には、データセンターのプロキシは迅速で安価ですが、保護されたプラットフォームではそのライフサイクルが短くなります。
  • 居住者IP — 新しい基本レベルです。 保護されたウェブサイトの本格的なスクレイピングには、居住者プロキシが、アンチボットシステムがデフォルトで通過させる「人間的」なプロファイルを提供します。これはもはやプレミアムオプションではなく、最低限の衛生基準です。
  • モバイルプロキシ — 最も厳しい目的のために。 ソーシャルメディアや行動分析を行うプラットフォームは、接続元に特に厳しいです。モバイルプロキシは、実際のプロバイダーのIPとそのローテーションメカニズムを使用し、居住者のアドレスが疑わしい場合でも最大の「目立たなさ」を提供します。
  • 有料アクセスの準備をしてください。 402コードのPay-Per-Crawlは一時的な実験ではありません:1日に10億件のそのような応答があることは、このモデルが定着したことを示しています。今後数年で、一部のデータはお金を払うか、オーガニックトラフィックのように見えることができる人にのみアクセス可能になります。

別のシナリオは、自前のインフラです。少量でプライベートなタスクには、自分のノードを立てることが意味があります:私たちは、Raspberry Piでのホームプロキシサーバーを一晩で構築する方法を詳しく説明しました。これは数百万のアドレスのプールを置き換えるものではありませんが、基本的なニーズを満たし、内部のメカニズムを理解するのに役立ちます。

結論

57.5%という数字は象徴的な境界ですが、その背後には実際の時代の変化があります。数十年にわたり人間の読者向けに構築されてきたインターネットは、ますますデータ消費者の機械に適応しており、プラットフォームはバリケードで応えています:ブロック、料金ゲート、ボットの暗号認証です。オープンウェブは消えません — それは層に分かれています。自由なアクセスは、ルールに従うか、普通のユーザーのように見えることができる人々のために残されています;それ以外はペイウォールの背後に消えたり、禁止されたりします。データ収集業界にとって、これは一つのことを意味します:あなたのトラフィックの質と「人間らしさ」が競争上の優位性ではなく、生存の条件となります。