العودة إلى المدونة

البوتات تتفوق على البشر في الإنترنت للمرة الأولى: 57.5% من حركة المرور - ماذا يعني ذلك لجمع البيانات؟

في 3 يونيو 2026، سجلت Cloudflare نقطة تحول تاريخية: قدمت الروبوتات لأول مرة أكثر من نصف الطلبات على الإنترنت - 57.5% مقابل 42.5% للبشر. المحرك الرئيسي هو الذكاء الاصطناعي الوكيل. دعونا نحلل الأرقام، لماذا تغلق المواقع أبوابها بشكل جماعي أمام الزاحفين وما الذي يتغير بالنسبة لعملية استخراج البيانات وجمع المعلومات.

📅٢٧ ذو الحجة ١٤٤٧ هـ
```html

حدث ما كانت الصناعة تنتظره منذ عام على الأقل: أصبح هناك عدد من الآلات على الإنترنت أكثر من عدد البشر. في 3 يونيو 2026، نشرت Cloudflare بيانات من شبكتها Radar، والتي تشير إلى أن الأنظمة الآلية قد ولدت، للمرة الأولى في التاريخ، الغالبية العظمى من جميع طلبات HTTP إلى المحتوى على الويب — 57.5% مقابل 42.5% من المستخدمين الحقيقيين. وأشارت NBC News، مشيرة إلى نفس التقرير، إلى نسبة شبه مطابقة — 57.4% إلى 42.6%. هذه ليست خطأ إحصائي أو زيادة مؤقتة، بل نقطة تحول مسجلة في اتجاه طويل الأمد.

ما هو الأكثر دلالة هو مدى سرعة حدوث ذلك. قبل ثلاثة أشهر فقط من النشر، خلال مؤتمر SXSW، أكد المدير التنفيذي لشركة Cloudflare، ماثيو برينس، أن النقطة الحرجة لن تحدث قبل عام 2027. وعند التعليق على الأرقام الجديدة، اعترف: "حسناً، حدث ذلك أسرع مما توقعت". وقد تم تجاوز هذا الحد بأكثر من عام قبل التوقع الذي قدمه هو نفسه.

من حول الويب إلى منطقة للروبوتات

السبب الرئيسي ليس العناكب التقليدية أو روبوتات البريد العشوائي، بل الذكاء الاصطناعي الوكيل: برامج شبه مستقلة تقوم بأداء مهام لمساعدين مثل ChatGPT وGemini. المنطق بسيط وقاسي على الخوادم: حيث ينقر الإنسان مرتين، يتجول وكيل الذكاء الاصطناعي عبر آلاف الصفحات لجمع السياق وتقديم إجابة. كل "رحلة" من هذا القبيل تتضمن عشرات ومئات الطلبات، التي تتجمع في الإحصائيات لتشكل انهياراً.

يمكن رؤية مدى النمو من خلال الزاحفين الفرديين. وفقًا لقياسات Cloudflare، زاد حركة GPTBot من OpenAI بنسبة 305% خلال عام. إذا نظرنا إلى الحصة داخل إجمالي حركة الذكاء الاصطناعي، فإن الصورة هي نفسها: ارتفع GPTBot من 4.7% (يوليو 2024) إلى 11.7% (يوليو 2025). في مايو 2026، كانت الزاحفات المتخصصة في الذكاء الاصطناعي تمثل 20.3% من طلبات الروبوتات، بينما قدمت روبوتات البحث الذكي 6.5% أخرى — مما يعني أن ما يقرب من 27% من إجمالي حركة الروبوتات تغذي بالفعل نماذج اللغة بشكل مباشر. يتم توزيع هذه الحركة حسب الغرض كما يلي: 51.8% — جمع البيانات للتدريب، 35.7% — وضع مختلط (تدريب بالإضافة إلى تقديم إجابات)، وحوالي 9% فقط — بحث نقي.

أصبحت الضغوط على البنية التحتية ليست مجرد مفهوم. أفاد صندوق Wikimedia أنه منذ يناير 2024، زاد استهلاك النطاق الترددي لإخراج الوسائط المتعددة بنسبة 50%، حيث 65% من أكثر حركة المرور استهلاكًا للموارد تأتي من الروبوتات، على الرغم من أنها تمثل فقط 35% من مشاهدات الصفحات. بعبارة أخرى، تأخذ الآلات كمية غير متناسبة من حركة المرور المكلفة، دون أن تعيد شيئًا لمالك الموقع.

لماذا يغلق الويب المفتوح الأبواب

كانت استجابة المنصات متوقعة: إذا لم تجلب الروبوتات أي عروض إعلانية أو نقرات، فإنها تبدأ في إيقافها. بحلول أغسطس 2025، حظرت أكثر من 2.5 مليون موقع استخدام بياناتها بالكامل لتدريب الذكاء الاصطناعي. في خمسة أشهر بعد يوليو 2025، قامت شبكة Cloudflare وحدها بحظر حوالي 416 مليار طلب من روبوتات الذكاء الاصطناعي. أصبح GPTBot هو الزاحف الأكثر "حظراً" في ملفات robots.txt — حيث يظهر في 5.52% من جميع قواعد DISALLOW.

يمكن رؤية عدم التوازن بوضوح في ما يسمى نسبة الزحف إلى الإحالة — عدد الصفحات التي يقوم الروبوت بسحبها مقابل كل نقرة يتم إعادتها. بالنسبة لجوجل بوت القياسي، تكون هذه النسبة حوالي 4.9:1. بالنسبة لـ GPTBot — 1276:1، بينما وصلت نسبة ClaudeBot إلى ما يقرب من 24,000:1، قبل أن تتحسن إلى حوالي 11,000:1. بالنسبة لمالك الموقع، يعني ذلك ببساطة: يأخذ الذكاء الاصطناعي الآلاف، ويعيد وحدات.

لكن مجرد الحظر يعني فقدان الدخل المحتمل، لذلك اقترحت Cloudflare طريقًا ثالثًا. تستخدم نظامها Pay-Per-Crawl حالة HTTP المنسية منذ زمن طويل 402 "الدفع مطلوب": بدلاً من إغلاق الروبوت تمامًا، يمكن للموقع فرض رسوم عليه للوصول. تتصرف الشركة كوسيط وتتعامل مع المدفوعات. الآلية ثلاثية المستويات: Block (بضغط زر واحد، بشكل افتراضي للنطاقات الجديدة)، Charge (وصول مدفوع وفقًا لتعريفة المالك) وAllow (وصول مفتوح مع تحليلات مفصلة). وفقًا لـ Cloudflare، يقوم العملاء بالفعل بتقديم أكثر من مليار رمز 402 يوميًا.

يتجاوز الاتجاه حدود شركة واحدة. في 7 أبريل 2026، دمجت GoDaddy — واحدة من أكبر شركات الاستضافة في العالم — أداة Cloudflare AI Crawl Control في منصتها. وصاغت مديرة الاستراتيجية في Cloudflare، ستيفاني كوهين، ذلك على النحو التالي: "من خلال منح مالكي المواقع أدوات مثل AI Crawl Control والمعايير المفتوحة، نحن نضع أساس نموذج عمل جديد للإنترنت". بالنظر إلى أن حوالي 20% من جميع مواقع العالم تعمل خلف بروكسي عكسي من Cloudflare، فإننا نتحدث عن تحول تكتوني في قواعد اللعبة.

حرب الأقنعة: لماذا تؤثر الحظرات بشكل غير متساوٍ

النقطة الرئيسية التي غالبًا ما يتم تجاهلها في العناوين البارزة: الحواجز الجديدة تستهدف بشكل أساسي الروبوتات التي تقدم نفسها بصدق وتأتي من نطاقات IP الخاصة بمراكز البيانات. الزاحف الذي يحمل User-Agent واضح مثل "GPTBot" وعنوان من سحابة AWS — هدف سهل لنظام WAF ومصنفي الحركة. هذه هي الأنواع التي تتعرض للحظرات بمليارات.

المشكلة هي أن القواعد لا يلتزم بها الجميع. تتوافق بيانات مؤشر AI Agent Index من MIT CSAIL لعام 2025 وملاحظات Cloudflare: حوالي نصف حركة مرور الذكاء الاصطناعي تتجاهل ببساطة robots.txt. بينما لم تقرأ أي شركة ذكاء اصطناعي كبيرة معيار llms.txt، الذي كان من المفترض أن يكون "قائمة مهذبة" للنماذج، في الإنتاج حتى الربع الأول من عام 2026. قصة أغسطس 2025 مثيرة للاهتمام: اتهمت Cloudflare علنًا Perplexity بالزحف الخفي — تغيير User-Agent والتخفي كمتصفح عادي لتجاوز الحظرات في robots.txt. نفت Perplexity الاتهامات، لكن القضية أظهرت بوضوح إلى أين تتجه الصناعة.

الاستنتاج لأولئك الذين يجمعون البيانات العامة غير المسجلة بشكل قانوني هو متناقض: كلما كانت المنصات أكثر عدوانية في قطع الروبوتات الصاخبة من مراكز البيانات، زادت قيمة الحركة التي تبدو كأنها شخص عادي. الطلب الذي يأتي من IP سكني أو موبايل، مع بصمة متصفح طبيعية وإيقاع إنساني، لا يمكن تمييزه عن الزائر بالنسبة لأنظمة مكافحة الروبوتات — ويمر حيث يحصل الروبوت السحابي على حظر فوري.

ماذا يعني ذلك لزحف الويب في الممارسة العملية

إذا كانت أعمالك تعتمد على جمع البيانات — مراقبة الأسعار، تحليل SERP، تجميع التعليقات، تدريب النماذج على المصادر المفتوحة — فإن الاستنتاجات من تقرير Cloudflare تستحق أن تؤخذ كدليل للعمل.

  • بروكسيات مراكز البيانات بدون تخفي — منطقة خطر. إذا كنت ترسل طلبات من نطاقات سحابية واضحة ولا تدير بصمتك، فإنك تقع تمامًا في تلك الفئة التي تتعرض للنيران الرئيسية. بالنسبة للمهام التي لا تتأثر بالسمعة (APIs الداخلية، مصادر صديقة، صفحات عامة بسيطة) تظل بروكسيات مراكز البيانات سريعة ورخيصة، لكن بالنسبة للمواقع المحمية، فإن دورة حياتها تتقلص.
  • IP السكنية — المستوى الأساسي الجديد. لزحف جاد لمواقع محمية، توفر بروكسيات سكنية ذلك "الملف الشخصي البشري" الذي تمرره أنظمة مكافحة الروبوتات بشكل افتراضي. لم تعد هذه خيارًا متميزًا، بل الحد الأدنى الصحي.
  • بروكسيات موبايل — لأكثر الأهداف صرامة. تأخذ الشبكات الاجتماعية والمواقع التي تعتمد على التحليل السلوكي بشكل صارم مصدر الاتصال. تمنح بروكسيات الموبايل مع IPs حقيقية من المشغلين وآلية دورانها أقصى "عدم وضوح" حيث حتى العناوين السكنية تكون تحت الشك.
  • استعد للوصول المدفوع. Pay-Per-Crawl مع رمز 402 — ليست تجربة مؤقتة: مليار من هذه الردود يوميًا تشير إلى أن النموذج قد ترسخ. ستصبح بعض البيانات متاحة فقط مقابل المال أو فقط لأولئك الذين يعرفون كيف يظهرون كحركة عضوية.

سيناريو منفصل — بنية تحتية خاصة. بالنسبة للأحجام الصغيرة والمهام الخاصة، من المنطقي إنشاء عقدتك الخاصة: لقد ناقشنا بالتفصيل كيفية بناء خادم بروكسي منزلي على Raspberry Pi في ليلة واحدة وبضع آلاف من الروبلات. هذا لن يحل محل مجموعة من ملايين العناوين، لكنه يغطي الاحتياجات الأساسية ويساعد على فهم الآلية من الداخل.

الاستنتاج

الرقم 57.5% هو حد رمزي، لكن وراءه يكمن تغيير حقيقي في العصر. الإنترنت، الذي تم بناؤه لعقود من الزمن من أجل القارئ البشري، يعيد بسرعة هيكلته من أجل آلة استهلاك البيانات، وتستجيب المنصات بالتحصينات: الحظرات، البوابات المدفوعة، والمصادقة التشفيرية للروبوتات. لا يختفي الويب المفتوح — بل يتفكك. يبقى الوصول الحر لأولئك الذين يلعبون وفقًا للقواعد أو يعرفون كيف يظهرون كمستخدمين عاديين؛ كل شيء آخر يذهب وراء جدار الدفع أو تحت الحظر. بالنسبة لصناعة جمع البيانات، يعني ذلك شيئًا واحدًا: جودة و"إنسانية" حركتك تصبحان شرطًا للبقاء، وليس ميزة تنافسية.

```