چیزی که صنعت انتظار آن را حداقل یک سال داشت، اتفاق افتاد: تعداد ماشینها در اینترنت بیشتر از انسانها شد. در ۳ ژوئن ۲۰۲۶، Cloudflare دادههای شبکه Radar خود را منتشر کرد که طبق آن، سیستمهای خودکار برای اولین بار در تاریخ، بیشتر از همه درخواستهای HTTP به محتوای وب را تولید کردند — ۵۷.۵٪ در مقابل ۴۲.۵٪ برای کاربران زنده. NBC News، با استناد به همان گزارش، نسبت تقریباً مشابهی را ارائه داد — ۵۷.۴٪ به ۴۲.۶٪. این یک خطای آماری نیست و نه یک جهش یکباره، بلکه یک تغییر ثبت شده در روندی چند ساله است.
نکته قابل توجه این است که این تغییر چقدر سریع اتفاق افتاد. تنها سه ماه قبل از انتشار، در کنفرانس SXSW، مدیرعامل Cloudflare متیو پرینس اطمینان داد که نقطه تقاطع تا سال ۲۰۲۷ نخواهد رسید. در کامنتی درباره اعداد جدید، او اعتراف کرد: «خب، این اتفاق زودتر از آنچه که پیشبینی کرده بودم، افتاد». این مرز بیش از یک سال زودتر از پیشبینی خود شخصی که این پیشبینی را انجام داده بود، به دست آمد.
چه کسی وب را به سرزمین رباتها تبدیل کرد
عامل اصلی — نه رباتهای جستجوی کلاسیک و نه رباتهای اسپم، بلکه AI عامل: برنامههای نیمه خودکار که وظایف را برای دستیارانی مانند ChatGPT و Gemini انجام میدهند. منطق ساده و بیرحمانه برای سرورها این است: جایی که یک انسان دو بار کلیک میکند، یک عامل AI هزاران صفحه را مرور میکند تا زمینه را جمعآوری کرده و پاسخ دهد. هر «سفر» چنین عاملی شامل دهها و صدها درخواست است که در آمار به یک بهمن تبدیل میشود.
مقیاس رشد از طریق کرالرهای جداگانه قابل مشاهده است. طبق اندازهگیریهای Cloudflare، ترافیک GPTBot از OpenAI در یک سال ۳۰۵٪ افزایش یافته است. اگر به سهم آن در کل ترافیک AI نگاه کنیم، تصویر همان است: GPTBot از ۴.۷٪ (ژوئیه ۲۰۲۴) به ۱۱.۷٪ (ژوئیه ۲۰۲۵) افزایش یافته است. در مه ۲۰۲۶، ۲۰.۳٪ از درخواستهای رباتها مربوط به کرالرهای AI تخصصی بود و ۶.۵٪ دیگر توسط رباتهای جستجوی AI تولید میشد — به طور کلی تقریباً ۲۷٪ از کل ترافیک رباتها به طور مستقیم به مدلهای زبانی تغذیه میشود. این ترافیک به این صورت تقسیم میشود: ۵۱.۸٪ — جمعآوری دادهها برای آموزش، ۳۵.۷٪ — حالت ترکیبی (آموزش به علاوه ارائه پاسخها)، و تنها حدود ۹٪ — جستجوی خالص.
بار روی زیرساخت دیگر یک انتزاع نیست. بنیاد ویکیمدیا اعلام کرد که از ژانویه ۲۰۲۴، مصرف باند برای تحویل چندرسانهای ۵۰٪ افزایش یافته است، در حالی که ۶۵٪ از ترافیک پرمصرفترین توسط رباتها ایجاد میشود، در حالی که تنها ۳۵٪ از بازدیدهای صفحات به آنها تعلق دارد. به عبارت دیگر، ماشینها به طور نامتناسبی مقدار زیادی از ترافیک گرانقیمت را میگیرند، بدون اینکه چیزی به صاحب سایت بازگردانند.
چرا وب باز در حال بستن درها است
واکنش پلتفرمها پیشبینیپذیر بود: اگر رباتها نه نمایشهای تبلیغاتی و نه کلیکها را به ارمغان میآورند، شروع به متوقف کردن آنها میکنند. تا اوت ۲۰۲۵، بیش از ۲.۵ میلیون وبسایت به طور کامل استفاده از دادههای خود را برای آموزش AI ممنوع کردند. در پنج ماه پس از ژوئیه ۲۰۲۵، تنها شبکه Cloudflare حدود ۴۱۶ میلیارد درخواست رباتهای AI را مسدود کرد. GPTBot به عنوان «زبانزدهترین» کرالر در فایلهای robots.txt شناخته شد — او در ۵.۵۲٪ از تمام قوانین DISALLOW ظاهر میشود.
عدم تعادل به خوبی در نسبت crawl-to-referral قابل مشاهده است — چند صفحه ربات برای هر کلیک برگشتی میکشد. برای Googlebot معیار، این نسبت حدود ۴.۹:۱ است. برای GPTBot — ۱۲۷۶:۱، و برای ClaudeBot این نسبت تقریباً به ۲۴۰۰۰:۱ رسید، قبل از اینکه به حدود ۱۱۰۰۰:۱ بهبود یابد. برای صاحب سایت، این به سادگی به این معنی است: AI هزاران درخواست میگیرد و تنها چند درخواست را بازمیگرداند.
اما فقط مسدود کردن به معنی از دست دادن درآمد بالقوه است، بنابراین Cloudflare یک راه سوم را پیشنهاد داد. سیستم Pay-Per-Crawl آن از وضعیت HTTP فراموش شده ۴۰۲ «پرداخت لازم است» استفاده میکند: به جای اینکه به طور کامل ربات را ببندد، سایت میتواند برای دسترسی به آن صورتحساب صادر کند. خود شرکت به عنوان واسطه عمل کرده و پرداختها را پردازش میکند. مکانیک سهسطحی است: Block (با یک کلیک، به طور پیشفرض برای دامنههای جدید)، Charge (دسترسی پولی بر اساس تعرفه صاحب) و Allow (دسترسی باز با تحلیل دقیق). طبق دادههای Cloudflare، مشتریان روزانه بیش از یک میلیارد کد ۴۰۲ را پرداخت میکنند.
این روند فراتر از یک شرکت است. در ۷ آوریل ۲۰۲۶، GoDaddy — یکی از بزرگترین میزبانهای جهان — ابزار Cloudflare AI Crawl Control را در پلتفرم خود ادغام کرد. مدیر استراتژی Cloudflare، استفانی کوهن، این را به این صورت بیان کرد: «با ارائه چنین ابزارهایی به صاحبان سایتها، مانند AI Crawl Control، و استانداردهای باز، ما پایهگذاری یک مدل کسبوکار جدید برای اینترنت را آغاز میکنیم». با توجه به اینکه تقریباً ۲۰٪ از تمام وبسایتهای جهان تحت پروکسی معکوس Cloudflare کار میکنند، این به معنای یک تغییر تکتونیکی در قوانین بازی است.
جنگ ماسکها: چرا مسدود کردنها به همه به یک شکل ضربه نمیزند
نکته کلیدی که اغلب در تیترهای جنجالی نادیده گرفته میشود: موانع جدید عمدتاً بر روی رباتهایی که به طور صادقانه معرفی میشوند و از دامنههای IP مراکز داده میآیند، هدف قرار گرفتهاند. کرالر با User-Agent واضح مانند «GPTBot» و آدرس از ابر AWS — هدف آسانی برای WAF و دستهبندیکنندگان ترافیک است. دقیقاً بر روی اینها است که مسدودیتهای میلیاردی اعمال میشود.
مشکل این است که همه قوانین را رعایت نمیکنند. شاخص AI Agent Index از MIT CSAIL برای سال ۲۰۲۵ و مشاهدات Cloudflare همخوانی دارند: تقریباً نیمی از ترافیک AI به سادگی robots.txt را نادیده میگیرد. و استاندارد llms.txt که قرار بود «منوی مودبانه» برای مدلها باشد، تا سهماهه اول ۲۰۲۶ هیچ شرکت بزرگ AI در تولید آن را نمیخواند. داستان اوت ۲۰۲۵ قابل توجه است: Cloudflare به طور علنی Perplexity را به خاطر کرال مخفیانه — چرخش User-Agent و پنهان شدن به عنوان مرورگر عادی برای دور زدن ممنوعیتها در robots.txt — متهم کرد. Perplexity این اتهامات را رد کرد، اما این مورد به وضوح نشان داد که صنعت به کدام سمت میرود.
نتیجه برای کسانی که به طور قانونی دادههای عمومی و بدون ورود را جمعآوری میکنند، پارادوکسیکال است: هر چه پلتفرمها رباتهای کرال مراکز داده «پر سر و صدا» را تهاجمیتر مسدود کنند، ارزش ترافیکی که به عنوان یک انسان عادی به نظر میرسد، بیشتر میشود. درخواستهایی که از IPهای مقیم یا موبایل با اثر انگشت مرورگر عادی و ریتم انسانی میآیند، برای سیستمهای ضد ربات غیرقابل تشخیص از بازدیدکننده هستند — و در جایی که ربات ابری بلافاصله مسدود میشود، عبور میکنند.
این چه معنایی برای وباسکرپینگ در عمل دارد
اگر کسبوکار شما به جمعآوری دادهها وابسته است — نظارت بر قیمتها، پارس کردن SERP، تجمیع نظرات، آموزش مدلها بر روی منابع باز — نتیجهگیریهای گزارش Cloudflare باید به عنوان راهنمای عمل پذیرفته شود.
- پروکسیهای مراکز داده بدون پنهانسازی — منطقه خطر. اگر شما درخواستهایی از دامنههای ابری واضح ارسال میکنید و اثر انگشت را مدیریت نمیکنید، دقیقاً در آن دستهای قرار میگیرید که آتش اصلی بر روی آن متمرکز است. برای وظایف غیر حساس به شهرت (APIهای داخلی، منابع دوستانه، صفحات عمومی ساده) پروکسیهای مراکز داده سریع و ارزان باقی میمانند، اما برای سایتهای محافظت شده عمر آنها کاهش مییابد.
- IPهای مقیم — سطح پایه جدید. برای وباسکرپینگ جدی سایتهای محافظت شده، پروکسیهای مقیم همان «پروفایل انسانی» را ارائه میدهند که سیستمهای ضد ربات به طور پیشفرض عبور میدهند. این دیگر یک گزینه پریمیوم نیست، بلکه حداقل بهداشتی است.
- پروکسیهای موبایل — برای اهداف سختتر. شبکههای اجتماعی و پلتفرمهایی که تحلیل رفتار را انجام میدهند، به شدت به منبع اتصال توجه دارند. پروکسیهای موبایل با IPهای واقعی اپراتورها و مکانیک چرخش آنها حداکثر «ناپدیدگی» را در جایی که حتی آدرسهای مقیم تحت مظنون هستند، فراهم میکنند.
- آماده پرداخت برای دسترسی باشید. Pay-Per-Crawl با کد ۴۰۲ — این یک آزمایش موقتی نیست: یک میلیارد پاسخ از این نوع در روز نشان میدهد که مدل جا افتاده است. بخشی از دادهها در چند سال آینده تنها با پرداخت یا تنها برای کسانی که میتوانند به عنوان ترافیک ارگانیک به نظر برسند، در دسترس خواهد بود.
سناریوی جداگانه — زیرساخت خودتان. برای حجمهای کوچک و وظایف خصوصی، راهاندازی گره خودتان منطقی است: ما به تفصیل بررسی کردیم که چگونه میتوان یک سرور پروکسی خانگی بر روی Raspberry Pi را در یک شب و با چند هزار تومان راهاندازی کرد. این نمیتواند جایگزین یک مجموعه از میلیونها آدرس شود، اما نیازهای پایه را پوشش میدهد و به درک مکانیک از درون کمک میکند.
نتیجهگیری
عدد ۵۷.۵٪ یک مرز نمادین است، اما پشت آن تغییر واقعی یک عصر قرار دارد. اینترنتی که دههها برای انسان-خواننده ساخته شده بود، به سرعت در حال تغییر به سمت ماشین-مصرفکننده دادهها است و پلتفرمها با باریکهها پاسخ میدهند: مسدودیتها، دروازههای پولی و احراز هویت رمزنگاری رباتها. وب باز ناپدید نمیشود — بلکه لایهلایه میشود. دسترسی آزاد برای کسانی که طبق قوانین بازی میکنند یا میتوانند به عنوان یک کاربر عادی به نظر برسند، باقی میماند؛ و همه چیزهای دیگر به پشت دیوار پرداخت یا تحت مسدودیت میروند. برای صنعت جمعآوری دادهها، این به یک معنی است: کیفیت و «انسانیت» ترافیک شما دیگر یک مزیت رقابتی نیست، بلکه شرط بقای شماست.
```