بازگشت به وبلاگ

ربات‌ها برای اولین بار از انسان‌ها در اینترنت پیشی گرفتند: ۵۷.۵٪ ترافیک — و این چه معنایی برای اسکرپینگ دارد؟

در ۳ ژوئن ۲۰۲۶، Cloudflare یک نقطه عطف تاریخی را ثبت کرد: ربات‌ها برای اولین بار بیش از نیمی از درخواست‌ها در اینترنت را ارائه کردند — ۵۷.۵٪ در مقابل ۴۲.۵٪ برای انسان‌ها. عامل اصلی — هوش مصنوعی عامل. به بررسی اعداد می‌پردازیم، چرا سایت‌ها به طور گسترده در برابر خزنده‌ها در را می‌بندند و این چه تغییری برای وب‌اسکرپینگ و جمع‌آوری داده‌ها ایجاد می‌کند.

📅۲۳ خرداد ۱۴۰۵
```html

چیزی که صنعت انتظار آن را حداقل یک سال داشت، اتفاق افتاد: تعداد ماشین‌ها در اینترنت بیشتر از انسان‌ها شد. در ۳ ژوئن ۲۰۲۶، Cloudflare داده‌های شبکه Radar خود را منتشر کرد که طبق آن، سیستم‌های خودکار برای اولین بار در تاریخ، بیشتر از همه درخواست‌های HTTP به محتوای وب را تولید کردند — ۵۷.۵٪ در مقابل ۴۲.۵٪ برای کاربران زنده. NBC News، با استناد به همان گزارش، نسبت تقریباً مشابهی را ارائه داد — ۵۷.۴٪ به ۴۲.۶٪. این یک خطای آماری نیست و نه یک جهش یکباره، بلکه یک تغییر ثبت شده در روندی چند ساله است.

نکته قابل توجه این است که این تغییر چقدر سریع اتفاق افتاد. تنها سه ماه قبل از انتشار، در کنفرانس SXSW، مدیرعامل Cloudflare متیو پرینس اطمینان داد که نقطه تقاطع تا سال ۲۰۲۷ نخواهد رسید. در کامنتی درباره اعداد جدید، او اعتراف کرد: «خب، این اتفاق زودتر از آنچه که پیش‌بینی کرده بودم، افتاد». این مرز بیش از یک سال زودتر از پیش‌بینی خود شخصی که این پیش‌بینی را انجام داده بود، به دست آمد.

چه کسی وب را به سرزمین ربات‌ها تبدیل کرد

عامل اصلی — نه ربات‌های جستجوی کلاسیک و نه ربات‌های اسپم، بلکه AI عامل: برنامه‌های نیمه خودکار که وظایف را برای دستیارانی مانند ChatGPT و Gemini انجام می‌دهند. منطق ساده و بی‌رحمانه برای سرورها این است: جایی که یک انسان دو بار کلیک می‌کند، یک عامل AI هزاران صفحه را مرور می‌کند تا زمینه را جمع‌آوری کرده و پاسخ دهد. هر «سفر» چنین عاملی شامل ده‌ها و صدها درخواست است که در آمار به یک بهمن تبدیل می‌شود.

مقیاس رشد از طریق کرالرهای جداگانه قابل مشاهده است. طبق اندازه‌گیری‌های Cloudflare، ترافیک GPTBot از OpenAI در یک سال ۳۰۵٪ افزایش یافته است. اگر به سهم آن در کل ترافیک AI نگاه کنیم، تصویر همان است: GPTBot از ۴.۷٪ (ژوئیه ۲۰۲۴) به ۱۱.۷٪ (ژوئیه ۲۰۲۵) افزایش یافته است. در مه ۲۰۲۶، ۲۰.۳٪ از درخواست‌های ربات‌ها مربوط به کرالرهای AI تخصصی بود و ۶.۵٪ دیگر توسط ربات‌های جستجوی AI تولید می‌شد — به طور کلی تقریباً ۲۷٪ از کل ترافیک ربات‌ها به طور مستقیم به مدل‌های زبانی تغذیه می‌شود. این ترافیک به این صورت تقسیم می‌شود: ۵۱.۸٪ — جمع‌آوری داده‌ها برای آموزش، ۳۵.۷٪ — حالت ترکیبی (آموزش به علاوه ارائه پاسخ‌ها)، و تنها حدود ۹٪ — جستجوی خالص.

بار روی زیرساخت دیگر یک انتزاع نیست. بنیاد ویکی‌مدیا اعلام کرد که از ژانویه ۲۰۲۴، مصرف باند برای تحویل چندرسانه‌ای ۵۰٪ افزایش یافته است، در حالی که ۶۵٪ از ترافیک پرمصرف‌ترین توسط ربات‌ها ایجاد می‌شود، در حالی که تنها ۳۵٪ از بازدیدهای صفحات به آن‌ها تعلق دارد. به عبارت دیگر، ماشین‌ها به طور نامتناسبی مقدار زیادی از ترافیک گران‌قیمت را می‌گیرند، بدون اینکه چیزی به صاحب سایت بازگردانند.

چرا وب باز در حال بستن درها است

واکنش پلتفرم‌ها پیش‌بینی‌پذیر بود: اگر ربات‌ها نه نمایش‌های تبلیغاتی و نه کلیک‌ها را به ارمغان می‌آورند، شروع به متوقف کردن آن‌ها می‌کنند. تا اوت ۲۰۲۵، بیش از ۲.۵ میلیون وب‌سایت به طور کامل استفاده از داده‌های خود را برای آموزش AI ممنوع کردند. در پنج ماه پس از ژوئیه ۲۰۲۵، تنها شبکه Cloudflare حدود ۴۱۶ میلیارد درخواست ربات‌های AI را مسدود کرد. GPTBot به عنوان «زبان‌زده‌ترین» کرالر در فایل‌های robots.txt شناخته شد — او در ۵.۵۲٪ از تمام قوانین DISALLOW ظاهر می‌شود.

عدم تعادل به خوبی در نسبت crawl-to-referral قابل مشاهده است — چند صفحه ربات برای هر کلیک برگشتی می‌کشد. برای Googlebot معیار، این نسبت حدود ۴.۹:۱ است. برای GPTBot — ۱۲۷۶:۱، و برای ClaudeBot این نسبت تقریباً به ۲۴۰۰۰:۱ رسید، قبل از اینکه به حدود ۱۱۰۰۰:۱ بهبود یابد. برای صاحب سایت، این به سادگی به این معنی است: AI هزاران درخواست می‌گیرد و تنها چند درخواست را بازمی‌گرداند.

اما فقط مسدود کردن به معنی از دست دادن درآمد بالقوه است، بنابراین Cloudflare یک راه سوم را پیشنهاد داد. سیستم Pay-Per-Crawl آن از وضعیت HTTP فراموش شده ۴۰۲ «پرداخت لازم است» استفاده می‌کند: به جای اینکه به طور کامل ربات را ببندد، سایت می‌تواند برای دسترسی به آن صورتحساب صادر کند. خود شرکت به عنوان واسطه عمل کرده و پرداخت‌ها را پردازش می‌کند. مکانیک سه‌سطحی است: Block (با یک کلیک، به طور پیش‌فرض برای دامنه‌های جدید)، Charge (دسترسی پولی بر اساس تعرفه صاحب) و Allow (دسترسی باز با تحلیل دقیق). طبق داده‌های Cloudflare، مشتریان روزانه بیش از یک میلیارد کد ۴۰۲ را پرداخت می‌کنند.

این روند فراتر از یک شرکت است. در ۷ آوریل ۲۰۲۶، GoDaddy — یکی از بزرگ‌ترین میزبان‌های جهان — ابزار Cloudflare AI Crawl Control را در پلتفرم خود ادغام کرد. مدیر استراتژی Cloudflare، استفانی کوهن، این را به این صورت بیان کرد: «با ارائه چنین ابزارهایی به صاحبان سایت‌ها، مانند AI Crawl Control، و استانداردهای باز، ما پایه‌گذاری یک مدل کسب‌وکار جدید برای اینترنت را آغاز می‌کنیم». با توجه به اینکه تقریباً ۲۰٪ از تمام وب‌سایت‌های جهان تحت پروکسی معکوس Cloudflare کار می‌کنند، این به معنای یک تغییر تکتونیکی در قوانین بازی است.

جنگ ماسک‌ها: چرا مسدود کردن‌ها به همه به یک شکل ضربه نمی‌زند

نکته کلیدی که اغلب در تیترهای جنجالی نادیده گرفته می‌شود: موانع جدید عمدتاً بر روی ربات‌هایی که به طور صادقانه معرفی می‌شوند و از دامنه‌های IP مراکز داده می‌آیند، هدف قرار گرفته‌اند. کرالر با User-Agent واضح مانند «GPTBot» و آدرس از ابر AWS — هدف آسانی برای WAF و دسته‌بندی‌کنندگان ترافیک است. دقیقاً بر روی این‌ها است که مسدودیت‌های میلیاردی اعمال می‌شود.

مشکل این است که همه قوانین را رعایت نمی‌کنند. شاخص AI Agent Index از MIT CSAIL برای سال ۲۰۲۵ و مشاهدات Cloudflare همخوانی دارند: تقریباً نیمی از ترافیک AI به سادگی robots.txt را نادیده می‌گیرد. و استاندارد llms.txt که قرار بود «منوی مودبانه» برای مدل‌ها باشد، تا سه‌ماهه اول ۲۰۲۶ هیچ شرکت بزرگ AI در تولید آن را نمی‌خواند. داستان اوت ۲۰۲۵ قابل توجه است: Cloudflare به طور علنی Perplexity را به خاطر کرال مخفیانه — چرخش User-Agent و پنهان شدن به عنوان مرورگر عادی برای دور زدن ممنوعیت‌ها در robots.txt — متهم کرد. Perplexity این اتهامات را رد کرد، اما این مورد به وضوح نشان داد که صنعت به کدام سمت می‌رود.

نتیجه برای کسانی که به طور قانونی داده‌های عمومی و بدون ورود را جمع‌آوری می‌کنند، پارادوکسیکال است: هر چه پلتفرم‌ها ربات‌های کرال مراکز داده «پر سر و صدا» را تهاجمی‌تر مسدود کنند، ارزش ترافیکی که به عنوان یک انسان عادی به نظر می‌رسد، بیشتر می‌شود. درخواست‌هایی که از IP‌های مقیم یا موبایل با اثر انگشت مرورگر عادی و ریتم انسانی می‌آیند، برای سیستم‌های ضد ربات غیرقابل تشخیص از بازدیدکننده هستند — و در جایی که ربات ابری بلافاصله مسدود می‌شود، عبور می‌کنند.

این چه معنایی برای وب‌اسکرپینگ در عمل دارد

اگر کسب‌وکار شما به جمع‌آوری داده‌ها وابسته است — نظارت بر قیمت‌ها، پارس کردن SERP، تجمیع نظرات، آموزش مدل‌ها بر روی منابع باز — نتیجه‌گیری‌های گزارش Cloudflare باید به عنوان راهنمای عمل پذیرفته شود.

  • پروکسی‌های مراکز داده بدون پنهان‌سازی — منطقه خطر. اگر شما درخواست‌هایی از دامنه‌های ابری واضح ارسال می‌کنید و اثر انگشت را مدیریت نمی‌کنید، دقیقاً در آن دسته‌ای قرار می‌گیرید که آتش اصلی بر روی آن متمرکز است. برای وظایف غیر حساس به شهرت (API‌های داخلی، منابع دوستانه، صفحات عمومی ساده) پروکسی‌های مراکز داده سریع و ارزان باقی می‌مانند، اما برای سایت‌های محافظت شده عمر آن‌ها کاهش می‌یابد.
  • IP‌های مقیم — سطح پایه جدید. برای وب‌اسکرپینگ جدی سایت‌های محافظت شده، پروکسی‌های مقیم همان «پروفایل انسانی» را ارائه می‌دهند که سیستم‌های ضد ربات به طور پیش‌فرض عبور می‌دهند. این دیگر یک گزینه پریمیوم نیست، بلکه حداقل بهداشتی است.
  • پروکسی‌های موبایل — برای اهداف سخت‌تر. شبکه‌های اجتماعی و پلتفرم‌هایی که تحلیل رفتار را انجام می‌دهند، به شدت به منبع اتصال توجه دارند. پروکسی‌های موبایل با IP‌های واقعی اپراتورها و مکانیک چرخش آن‌ها حداکثر «ناپدیدگی» را در جایی که حتی آدرس‌های مقیم تحت مظنون هستند، فراهم می‌کنند.
  • آماده پرداخت برای دسترسی باشید. Pay-Per-Crawl با کد ۴۰۲ — این یک آزمایش موقتی نیست: یک میلیارد پاسخ از این نوع در روز نشان می‌دهد که مدل جا افتاده است. بخشی از داده‌ها در چند سال آینده تنها با پرداخت یا تنها برای کسانی که می‌توانند به عنوان ترافیک ارگانیک به نظر برسند، در دسترس خواهد بود.

سناریوی جداگانه — زیرساخت خودتان. برای حجم‌های کوچک و وظایف خصوصی، راه‌اندازی گره خودتان منطقی است: ما به تفصیل بررسی کردیم که چگونه می‌توان یک سرور پروکسی خانگی بر روی Raspberry Pi را در یک شب و با چند هزار تومان راه‌اندازی کرد. این نمی‌تواند جایگزین یک مجموعه از میلیون‌ها آدرس شود، اما نیازهای پایه را پوشش می‌دهد و به درک مکانیک از درون کمک می‌کند.

نتیجه‌گیری

عدد ۵۷.۵٪ یک مرز نمادین است، اما پشت آن تغییر واقعی یک عصر قرار دارد. اینترنتی که دهه‌ها برای انسان-خواننده ساخته شده بود، به سرعت در حال تغییر به سمت ماشین-مصرف‌کننده داده‌ها است و پلتفرم‌ها با باریکه‌ها پاسخ می‌دهند: مسدودیت‌ها، دروازه‌های پولی و احراز هویت رمزنگاری ربات‌ها. وب باز ناپدید نمی‌شود — بلکه لایه‌لایه می‌شود. دسترسی آزاد برای کسانی که طبق قوانین بازی می‌کنند یا می‌توانند به عنوان یک کاربر عادی به نظر برسند، باقی می‌ماند؛ و همه چیزهای دیگر به پشت دیوار پرداخت یا تحت مسدودیت می‌روند. برای صنعت جمع‌آوری داده‌ها، این به یک معنی است: کیفیت و «انسانیت» ترافیک شما دیگر یک مزیت رقابتی نیست، بلکه شرط بقای شماست.

```