Назад к блогу

Боты впервые обогнали людей в интернете: 57,5% трафика — и что это значит для скрапинга

3 июня 2026 Cloudflare зафиксировал исторический перелом: боты впервые дали больше половины запросов в интернете — 57,5% против 42,5% у людей. Главный драйвер — агентный AI. Разбираем цифры, почему сайты массово закрывают двери перед краулерами и что это меняет для веб-скрапинга и сбора данных.

📅13 июня 2026 г.

Случилось то, чего индустрия ждала ещё минимум год: в интернете стало больше машин, чем людей. 3 июня 2026 года Cloudflare опубликовал данные своей сети Radar, согласно которым автоматизированные системы впервые в истории сгенерировали большинство всех HTTP-запросов к веб-контенту — 57,5% против 42,5% у живых пользователей. NBC News, ссылаясь на тот же отчёт, привёл почти идентичную пропорцию — 57,4% к 42,6%. Это не статистическая погрешность и не разовый всплеск, а зафиксированный перелом многолетнего тренда.

Самое показательное — насколько быстро это произошло. Всего за три месяца до публикации, выступая на конференции SXSW, гендиректор Cloudflare Мэттью Принс уверял, что перекрёстная точка наступит не раньше 2027 года. Комментируя свежие цифры, он признал: «Что ж, это случилось быстрее, чем я предсказывал». Рубеж был взят более чем на год раньше прогноза самого человека, который этот прогноз делал.

Кто превратил веб в территорию ботов

Главный виновник — не классические поисковые пауки и не спам-боты, а агентный AI: полуавтономные программы, которые выполняют задачи для ассистентов вроде ChatGPT и Gemini. Логика проста и беспощадна для серверов: там, где человек кликает пару раз, один AI-агент обходит тысячи страниц, чтобы собрать контекст и дать ответ. Каждый такой «поход» — это десятки и сотни запросов, которые в статистике складываются в лавину.

Масштаб роста виден по отдельным краулерам. По измерениям Cloudflare, трафик GPTBot от OpenAI за год вырос на 305%. Если смотреть долю внутри всего AI-трафика, картина та же: GPTBot поднялся с 4,7% (июль 2024) до 11,7% (июль 2025). В мае 2026 на специализированные AI-краулеры приходилось 20,3% бот-запросов, ещё 6,5% давали AI-поисковые боты — суммарно почти 27% всего бот-трафика уже напрямую кормит языковые модели. По назначению этот трафик распределяется так: 51,8% — сбор данных для обучения, 35,7% — смешанный режим (обучение плюс выдача ответов), и лишь около 9% — чистый поиск.

Нагрузка на инфраструктуру перестала быть абстракцией. Фонд Wikimedia сообщил, что с января 2024 года потребление полосы на отдачу мультимедиа выросло на 50%, причём 65% самого ресурсоёмкого трафика создают боты, хотя на них приходится лишь 35% просмотров страниц. Иными словами, машины забирают непропорционально много дорогого трафика, ничего не возвращая владельцу сайта.

Почему открытый веб закрывает двери

Реакция площадок оказалась предсказуемой: если боты не приносят ни рекламных показов, ни переходов, их начинают останавливать. К августу 2025 года более 2,5 миллиона сайтов полностью запретили использование своих данных для обучения AI. За пять месяцев после июля 2025-го одна только сеть Cloudflare заблокировала около 416 миллиардов запросов AI-ботов. GPTBot стал самым «забаненным» краулером в файлах robots.txt — он фигурирует в 5,52% всех правил DISALLOW.

Дисбаланс хорошо виден в так называемом crawl-to-referral ratio — сколько страниц бот выкачивает на каждый присланный обратно переход. Для эталонного Googlebot это соотношение около 4,9:1. У GPTBot — 1276:1, а у ClaudeBot оно доходило почти до 24 000:1, прежде чем улучшиться примерно до 11 000:1. Для владельца сайта это означает простое: AI берёт тысячами, отдаёт единицами.

Но просто блокировать — значит терять потенциальный доход, поэтому Cloudflare предложил третий путь. Его система Pay-Per-Crawl использует давно забытый HTTP-статус 402 «Payment Required»: вместо того чтобы наглухо закрыть бота, сайт может выставить ему счёт за доступ. Сама компания выступает посредником и обрабатывает платежи. Механика трёхуровневая: Block (одним кликом, по умолчанию для новых доменов), Charge (платный доступ по тарифу владельца) и Allow (открытый доступ с детальной аналитикой). По данным Cloudflare, клиенты уже отдают более одного миллиарда кодов 402 в сутки.

Тренд выходит за пределы одной компании. 7 апреля 2026 года GoDaddy — один из крупнейших хостеров в мире — интегрировал инструмент Cloudflare AI Crawl Control в свою платформу. Директор по стратегии Cloudflare Стефани Коэн сформулировала это так: «Давая владельцам сайтов такие инструменты, как AI Crawl Control, и открытые стандарты, мы закладываем фундамент новой бизнес-модели интернета». Учитывая, что примерно 20% всех сайтов мира работают за обратным прокси Cloudflare, речь идёт о тектоническом сдвиге в правилах игры.

Война масок: почему блокировки бьют не по всем одинаково

Ключевой нюанс, который часто упускают в громких заголовках: новые барьеры нацелены прежде всего на ботов, которые честно представляются и приходят с датацентровых диапазонов IP. Краулер с явным User-Agent вроде «GPTBot» и адресом из облака AWS — лёгкая мишень для WAF и категоризаторов трафика. Именно по таким и бьют миллиардные блокировки.

Проблема в том, что соблюдают правила далеко не все. Индекс AI Agent Index от MIT CSAIL за 2025 год и наблюдения Cloudflare сходятся: примерно половина AI-трафика попросту игнорирует robots.txt. А стандарт llms.txt, который должен был стать «вежливым меню» для моделей, по состоянию на первый квартал 2026 года не читает в продакшене ни одна крупная AI-компания. Показательна история августа 2025-го: Cloudflare публично обвинил Perplexity в скрытом краулинге — ротации User-Agent и маскировке под обычный браузер, чтобы обойти запреты в robots.txt. Perplexity обвинения отвергла, но кейс наглядно показал, куда движется индустрия.

Вывод для тех, кто легально собирает публичные, незалогиненные данные, парадоксален: чем агрессивнее площадки режут «шумные» датацентровые краулеры, тем выше ценность трафика, который выглядит как обычный человек. Запрос, приходящий с резидентного или мобильного IP, с нормальным браузерным отпечатком и человеческим ритмом, для антибот-систем неотличим от посетителя — и проходит там, где облачный бот получает мгновенный бан.

Что это значит для веб-скрапинга на практике

Если ваш бизнес зависит от сбора данных — мониторинг цен, парсинг SERP, агрегация отзывов, обучение моделей на открытых источниках — выводы из отчёта Cloudflare стоит принять как руководство к действию.

  • Датацентровые прокси без маскировки — зона риска. Если вы шлёте запросы с явных облачных диапазонов и не управляете отпечатком, вы попадаете ровно в ту категорию, по которой ведётся основной огонь. Для нечувствительных к репутации задач (внутренние API, дружественные источники, простые public-страницы) датацентровые прокси остаются быстрыми и дешёвыми, но для защищённых площадок их жизненный цикл сокращается.
  • Резидентные IP — новый базовый уровень. Для серьёзного скрапинга защищённых сайтов резидентные прокси дают тот самый «человеческий» профиль, который антибот-системы пропускают по умолчанию. Это уже не премиум-опция, а гигиенический минимум.
  • Мобильные прокси — для самых жёстких целей. Соцсети и площадки с поведенческим анализом особенно строго относятся к источнику соединения. Мобильные прокси с реальными IP операторов и механикой их ротации дают максимальную «незаметность» там, где даже резидентные адреса под подозрением.
  • Готовьтесь к платному доступу. Pay-Per-Crawl с кодом 402 — это не временный эксперимент: миллиард таких ответов в день говорит, что модель прижилась. Часть данных в ближайшие пару лет станет доступна только за деньги или только тем, кто умеет выглядеть как органический трафик.

Отдельный сценарий — собственная инфраструктура. Для небольших объёмов и приватных задач имеет смысл поднять свой узел: мы подробно разбирали, как собрать домашний прокси-сервер на Raspberry Pi за вечер и пару тысяч рублей. Это не заменит пул из миллионов адресов, но закрывает базовые потребности и помогает понять механику изнутри.

Вывод

Цифра 57,5% — это символический рубеж, но за ним стоит реальная смена эпохи. Интернет, который десятилетиями строился под человека-читателя, всё быстрее перестраивается под машину-потребителя данных, и площадки отвечают баррикадами: блокировками, платными шлюзами и криптографической аутентификацией ботов. Открытый веб не исчезает — он расслаивается. Свободный доступ остаётся для тех, кто играет по правилам или умеет выглядеть как обычный пользователь; всё остальное уходит за пейволл или под бан. Для индустрии сбора данных это значит одно: качество и «человечность» вашего трафика становятся не конкурентным преимуществом, а условием выживания.