블로그로 돌아가기

인터넷에서 봇이 처음으로 사람들을 초월하다: 57.5%의 트래픽 - 스크래핑에 대한 의미는?

2026년 6월 3일 Cloudflare는 역사적인 전환점을 기록했습니다: 봇이 처음으로 인터넷 요청의 절반 이상을 차지했습니다 — 57.5% 대 42.5%의 비율로 사람들. 주요 원인은 에이전트 AI입니다. 우리는 숫자를 분석하고, 왜 웹사이트들이 크롤러 앞에서 대량으로 문을 닫고 있는지, 그리고 이것이 웹 스크래핑과 데이터 수집에 어떤 변화를 가져오는지 살펴봅니다.

📅2026년 6월 13일
```html

산업이 최소 1년 동안 기다려온 일이 일어났습니다: 인터넷에 있는 기계가 사람보다 더 많아졌습니다. 2026년 6월 3일, Cloudflare는 자사의 Radar 네트워크 데이터를 발표했으며, 자동화된 시스템이 역사상 처음으로 웹 콘텐츠에 대한 모든 HTTP 요청의 대부분을 생성했다는 것을 보여주었습니다 — 57.5% 대 42.5%의 비율로 실제 사용자와 비교되었습니다. NBC 뉴스는 같은 보고서를 인용하며 거의 동일한 비율인 57.4% 대 42.6%를 제시했습니다. 이는 통계적 오차가 아니며 일회성 급증이 아니라 다년간의 트렌드의 전환을 기록한 것입니다.

가장 주목할 만한 점은 이것이 얼마나 빠르게 일어났는가입니다. 발표의 불과 3개월 전, SXSW 컨퍼런스에서 Cloudflare의 CEO 매튜 프린스는 교차점이 2027년 이전에는 발생하지 않을 것이라고 확신했습니다. 최근 수치를 언급하며 그는 "음, 예상보다 빨리 일어났습니다."라고 인정했습니다. 이 이정표는 예측을 한 사람보다 1년 이상 빨리 도달했습니다.

누가 웹을 봇의 영역으로 만들었는가

주요 원인은 전통적인 검색 크롤러나 스팸 봇이 아니라 에이전트 AI입니다: ChatGPT와 Gemini와 같은 어시스턴트를 위해 작업을 수행하는 반자율 프로그램들입니다. 논리는 간단하고 서버에 무자비합니다: 사람이 몇 번 클릭하는 곳에서, 하나의 AI 에이전트는 수천 개의 페이지를 탐색하여 컨텍스트를 수집하고 응답을 제공합니다. 이러한 "탐험"은 통계적으로 수십, 수백 개의 요청으로 쌓여 눈덩이처럼 불어납니다.

성장 규모는 개별 크롤러를 통해 확인할 수 있습니다. Cloudflare의 측정에 따르면, OpenAI의 GPTBot 트래픽은 1년 동안 305% 증가했습니다. 전체 AI 트래픽 내에서의 비율을 보면, 같은 그림이 나타납니다: GPTBot은 4.7% (2024년 7월)에서 11.7% (2025년 7월)로 상승했습니다. 2026년 5월에는 전문 AI 크롤러가 봇 요청의 20.3%를 차지했으며, AI 검색 봇이 6.5%를 차지했습니다 — 총 27%의 모든 봇 트래픽이 이미 언어 모델에 직접적으로 기여하고 있습니다. 이 트래픽의 용도는 다음과 같이 분배됩니다: 51.8% — 학습 데이터 수집, 35.7% — 혼합 모드(학습 + 응답 제공), 그리고 약 9% — 순수 검색입니다.

인프라에 대한 부담은 더 이상 추상적인 개념이 아닙니다. Wikimedia 재단은 2024년 1월 이후 멀티미디어 전송 대역폭 소비가 50% 증가했으며, 가장 자원을 많이 소모하는 트래픽의 65%가 봇에 의해 생성된다고 보고했습니다. 하지만 페이지 조회수의 35%만이 봇에 의해 발생합니다. 즉, 기계는 비례적으로 많은 비싼 트래픽을 차지하고 있으며, 웹사이트 소유자에게는 아무것도 반환하지 않습니다.

왜 열린 웹이 문을 닫고 있는가

플랫폼의 반응은 예측 가능했습니다: 봇이 광고 노출이나 클릭을 가져오지 않으면, 그들을 차단하기 시작합니다. 2025년 8월까지 250만 개 이상의 웹사이트가 AI 학습을 위한 데이터 사용을 완전히 금지했습니다. 2025년 7월 이후 5개월 동안, Cloudflare 네트워크만으로도 약 4160억 개의 AI 봇 요청이 차단되었습니다. GPTBot은 robots.txt 파일에서 가장 "차단된" 크롤러가 되었으며, DISALLOW 규칙의 5.52%에 나타났습니다.

불균형은 소위 crawl-to-referral 비율에서 잘 드러납니다 — 봇이 보내는 페이지 수에 비해 얼마나 많은 클릭이 반환되는지를 나타냅니다. 기준 Googlebot의 비율은 약 4.9:1입니다. GPTBot은 1276:1이며, ClaudeBot은 거의 24,000:1에 도달했으며, 이후 약 11,000:1로 개선되었습니다. 웹사이트 소유자에게 이는 간단한 의미를 가집니다: AI는 수천 개를 가져가고, 단 몇 개를 반환합니다.

그러나 단순히 차단하는 것은 잠재적 수익을 잃는 것이므로, Cloudflare는 제3의 방법을 제안했습니다. 그들의 Pay-Per-Crawl 시스템은 오래 잊혀진 HTTP 상태 402 "Payment Required"를 사용합니다: 봇을 완전히 차단하는 대신, 웹사이트는 접근에 대한 요금을 청구할 수 있습니다. 회사는 중개자로서 결제를 처리합니다. 메커니즘은 세 가지 단계로 구성됩니다: Block (한 번의 클릭으로, 기본적으로 새로운 도메인에 대해), Charge (소유자의 요금제로 유료 접근) 및 Allow (상세 분석과 함께 개방된 접근). Cloudflare에 따르면, 고객들은 이미 하루에 10억 개 이상의 402 코드를 지불하고 있습니다.

이 트렌드는 한 회사를 넘어섭니다. 2026년 4월 7일, 세계 최대 호스팅 서비스 중 하나인 GoDaddy는 Cloudflare AI Crawl Control 도구를 자신의 플랫폼에 통합했습니다. Cloudflare의 전략 이사 스테파니 코헨은 이를 다음과 같이 설명했습니다: "AI Crawl Control과 같은 도구를 웹사이트 소유자에게 제공하고, 개방형 표준을 통해 우리는 인터넷의 새로운 비즈니스 모델의 기초를 다지고 있습니다." 전 세계 웹사이트의 약 20%가 Cloudflare의 역방향 프록시를 통해 운영되고 있다는 점을 고려할 때, 이는 게임의 규칙에 대한 지각 변화를 의미합니다.

마스크 전쟁: 왜 차단이 모두에게 동일하게 작용하지 않는가

주요 뉘앙스는 종종 화려한 헤드라인에서 간과됩니다: 새로운 장벽은 주로 정직하게 자신을 드러내는 봇과 데이터 센터 IP 범위에서 오는 봇을 겨냥하고 있습니다. "GPTBot"과 같은 명확한 User-Agent와 AWS 클라우드 주소를 가진 크롤러는 WAF와 트래픽 분류기에게 쉬운 표적입니다. 바로 이러한 크롤러가 수십억 개의 차단을 당합니다.

문제는 모든 사람들이 규칙을 준수하지 않는다는 것입니다. MIT CSAIL의 AI Agent Index 2025년 보고서와 Cloudflare의 관찰 결과는 일치합니다: 약 절반의 AI 트래픽이 robots.txt를 무시합니다. 모델을 위한 "공손한 메뉴"가 되어야 했던 llms.txt 표준은 2026년 1분기 현재 어떤 대형 AI 회사에서도 생산 환경에서 읽히지 않고 있습니다. 2025년 8월의 사건은 주목할 만합니다: Cloudflare는 Perplexity를 비공식 크롤링으로 공개적으로 비난했습니다 — User-Agent를 회전시키고 일반 브라우저처럼 가장하여 robots.txt의 금지를 우회하려 했습니다. Perplexity는 이러한 비난을 부인했지만, 이 사건은 산업이 어디로 나아가고 있는지를 명확하게 보여주었습니다.

공식적으로 공개된 비로그인 데이터를 수집하는 사람들에게는 역설적인 결론이 있습니다: 플랫폼이 "시끄러운" 데이터 센터 크롤러를 더 공격적으로 차단할수록, 일반 사용자처럼 보이는 트래픽의 가치가 높아집니다. 거주지 또는 모바일 IP에서 오는 요청은 정상적인 브라우저 지문과 인간의 리듬을 가지고 있어, 안티봇 시스템에서는 방문자와 구별할 수 없으며, 클라우드 봇이 즉시 차단되는 곳에서도 통과합니다.

웹 스크래핑에 대한 실제 의미

귀하의 비즈니스가 데이터 수집에 의존한다면 — 가격 모니터링, SERP 파싱, 리뷰 집계, 공개 소스에서 모델 학습 — Cloudflare 보고서의 결론을 행동 지침으로 삼는 것이 좋습니다.

  • 데이터 센터 프록시가 마스킹 없이 사용되는 것은 위험 지역입니다. 명확한 클라우드 범위에서 요청을 보내고 지문을 관리하지 않으면, 귀하는 주요 공격 대상에 해당합니다. 명성에 민감하지 않은 작업(내부 API, 친숙한 소스, 간단한 공개 페이지)에 대해서는 데이터 센터 프록시가 여전히 빠르고 저렴하지만, 보호된 플랫폼에서는 그 수명이 단축됩니다.
  • 거주지 IP — 새로운 기본 수준입니다. 보호된 웹사이트를 위한 진지한 스크래핑을 위해 거주지 프록시는 안티봇 시스템이 기본적으로 통과시키는 "인간적인" 프로필을 제공합니다. 이는 더 이상 프리미엄 옵션이 아니라 기본적인 요구 사항입니다.
  • 모바일 프록시 — 가장 엄격한 목표를 위한 것입니다. 소셜 미디어와 행동 분석 플랫폼은 연결 소스에 대해 특히 엄격합니다. 모바일 프록시는 실제 운영자의 IP와 회전 메커니즘을 통해 최대한의 "눈에 띄지 않음"을 제공합니다, 심지어 거주지 주소도 의심받는 곳에서 말입니다.
  • 유료 접근에 대비하십시오. 402 코드의 Pay-Per-Crawl은 일시적인 실험이 아닙니다: 하루에 10억 개의 그런 응답이 있다는 것은 모델이 자리 잡았다는 것을 의미합니다. 향후 몇 년 간 일부 데이터는 오직 돈을 지불하거나 유기적 트래픽처럼 보일 수 있는 사람에게만 제공될 것입니다.

별도의 시나리오는 자체 인프라입니다. 소규모 작업과 개인적인 작업을 위해 자신의 노드를 설정하는 것이 의미가 있습니다: 우리는 Raspberry Pi에서 홈 프록시 서버를 구축하는 방법을 저녁 시간과 몇 천 원으로 자세히 설명했습니다. 이는 수백만 개의 주소 풀을 대체하지는 않지만, 기본적인 요구를 충족하고 내부 메커니즘을 이해하는 데 도움이 됩니다.

결론

57.5%라는 숫자는 상징적인 이정표이지만, 그 뒤에는 실제 시대의 변화가 있습니다. 수십 년 동안 사람 독자를 위해 구축된 인터넷은 점점 더 데이터 소비자 기계에 맞춰 재편되고 있으며, 플랫폼은 차단, 유료 게이트 및 봇의 암호화 인증으로 대응하고 있습니다. 열린 웹은 사라지지 않으며, 층을 이루고 있습니다. 자유로운 접근은 규칙을 따르거나 일반 사용자처럼 보이는 사람들에게 남아 있으며, 나머지는 페이월 뒤로 가거나 차단됩니다. 데이터 수집 산업에 있어 이는 하나의 의미를 가집니다: 귀하의 트래픽의 품질과 "인간성"은 더 이상 경쟁 우위가 아니라 생존 조건이 됩니다.

```