Bloga geri dön

Botlar İnternette İnsanları İlk Kez Geçti: %57,5 Trafik - Bu, Veri Toplama İçin Ne Anlama Geliyor?

3 Haziran 2026'da Cloudflare tarihi bir dönüm noktasına ulaştı: botlar ilk kez internet üzerindeki taleplerin yarısından fazlasını — %57,5'e karşı %42,5 ile insanlar — oluşturdu. Ana etken ise ajans AI. Sayıları inceliyoruz, neden siteler kitleler halinde tarayıcılara kapılarını kapatıyor ve bunun web kazıma ve veri toplama için ne anlama geldiğini.

📅13 Haziran 2026

Endüstrinin en az bir yıl beklediği şey gerçekleşti: internette insanlardan daha fazla makine var. 3 Haziran 2026'da Cloudflare, Radar ağının verilerini yayınladı ve bu verilere göre otomatik sistemler, tarihte ilk kez web içeriğine yapılan tüm HTTP isteklerinin çoğunluğunu üretti — %57,5'e karşı %42,5 canlı kullanıcılar. NBC News, aynı rapora atıfta bulunarak neredeyse aynı oranı verdi — %57,4'e karşı %42,6. Bu bir istatistiksel hata değil, tek seferlik bir patlama değil, uzun yıllar süren bir trendin kaydedilmiş bir kırılma noktasıdır.

En dikkat çekici olanı — bunun ne kadar hızlı gerçekleştiğidir. Yayın tarihinden sadece üç ay önce, SXSW konferansında konuşan Cloudflare CEO'su Matthew Prince, kesişim noktasının 2027 yılından önce olmayacağını iddia etti. Yeni verileri yorumlarken, "Eh, bu beklediğimden daha hızlı oldu" dedi. Bu eşik, bu tahmini yapan kişinin tahmininden bir yıldan fazla bir süre önce aşıldı.

Web'i botların bölgesi haline getiren kim?

Asıl suçlu — klasik arama botları veya spam botları değil, ajans AI: ChatGPT ve Gemini gibi asistanlar için görevleri yerine getiren yarı otonom programlar. Mantık basit ve sunucular için acımasız: bir insanın birkaç kez tıkladığı yerde, bir AI ajansı binlerce sayfayı dolaşarak bağlamı toplar ve cevap verir. Her böyle "sefer", istatistiklerde bir çığ haline gelen onlarca ve yüzlerce isteği içerir.

Büyüme ölçeği, ayrı ayrı tarayıcılarda görülüyor. Cloudflare'ın ölçümlerine göre, OpenAI'nin GPTBot'u bir yıl içinde %305 oranında büyüdü. Tüm AI trafiği içindeki payına bakıldığında, tablo aynı: GPTBot, %4,7'den (Temmuz 2024) %11,7'ye (Temmuz 2025) yükseldi. Mayıs 2026'da özel AI tarayıcıları, bot isteklerinin %20,3'ünü oluşturuyordu, ayrıca AI arama botları %6,5 daha ekliyordu — toplamda neredeyse bot trafiğinin %27'si zaten dil modellerini doğrudan besliyor. Bu trafiğin dağılımı ise şöyle: %51,8 — eğitim için veri toplama, %35,7 — karma mod (eğitim artı cevap verme), ve sadece yaklaşık %9 — saf arama.

Altyapıya olan yük, soyut bir kavram olmaktan çıktı. Wikimedia Vakfı, Ocak 2024'ten itibaren multimedya iletiminde bant genişliği tüketiminin %50 arttığını bildirdi, ve en fazla kaynak tüketen trafiğin %65'ini botlar oluşturuyor, oysa onlara yalnızca %35 sayfa görüntülemesi düşüyor. Diğer bir deyişle, makineler orantısız bir şekilde pahalı trafiği alıyor, ancak site sahibine hiçbir şey geri vermiyor.

Açık web neden kapıları kapatıyor?

Platformların tepkisi tahmin edilebilir oldu: eğer botlar reklam gösterimi veya tıklama getirmiyorsa, durdurulmaya başlandı. Ağustos 2025 itibarıyla, 2,5 milyondan fazla site verilerinin AI eğitimi için kullanılmasını tamamen yasakladı. Temmuz 2025'ten sonraki beş ay içinde, yalnızca Cloudflare ağı yaklaşık 416 milyar AI bot isteğini engelledi. GPTBot, robots.txt dosyalarında en çok "yasaklanan" tarayıcı oldu — DISALLOW kurallarının %5,52'sinde yer alıyor.

Dengesizlik, sözde crawl-to-referral oranında iyi bir şekilde görülüyor — bir botun geri gönderilen her tıklama için kaç sayfa çektiği. Referans Googlebot için bu oran yaklaşık 4,9:1. GPTBot için bu oran 1276:1, ClaudeBot için ise neredeyse 24.000:1'e kadar çıkmıştı, daha sonra yaklaşık 11.000:1'e iyileşti. Bir site sahibi için bu, AI'nın binlerce alıp, birkaçı geri verdiği anlamına geliyor.

Ancak sadece engellemek, potansiyel geliri kaybetmek anlamına geliyor, bu yüzden Cloudflare üçüncü bir yol önerdi. Onun Pay-Per-Crawl sistemi, uzun zamandır unutulmuş bir HTTP durumu olan 402 "Payment Required"'ı kullanıyor: site botu tamamen kapatmak yerine, ona erişim için bir fatura çıkarabiliyor. Şirket kendisi aracı olarak hareket ediyor ve ödemeleri işliyor. Mekanik üç katmanlı: Block (bir tıklama ile, varsayılan olarak yeni alanlar için), Charge (sahip tarifesine göre ücretli erişim) ve Allow (detaylı analiz ile açık erişim). Cloudflare'a göre, müşteriler günde bir milyardan fazla 402 kodu veriyor.

Trend, tek bir şirketle sınırlı değil. 7 Nisan 2026'da GoDaddy — dünyanın en büyük barındırma hizmetlerinden biri — Cloudflare AI Crawl Control aracını platformuna entegre etti. Cloudflare strateji direktörü Stephanie Cohen bunu şöyle ifade etti: "Web sitesi sahiplerine AI Crawl Control gibi araçlar ve açık standartlar sunarak, internetin yeni bir iş modeli için temel atıyoruz." Dünya genelindeki tüm sitelerin yaklaşık %20'sinin Cloudflare'ın ters proxy'si altında çalıştığı göz önüne alındığında, bu, oyunun kurallarında tektonik bir kayma anlamına geliyor.

Maske savaşları: neden engellemeler herkesi eşit şekilde etkilemiyor?

Önemli bir nüans, sıkça gözden kaçan bir detay: yeni engeller esasen kendini dürüstçe tanıtan botlara ve veri merkezi IP aralıklarından gelenlere yöneliktir. "GPTBot" gibi belirgin bir User-Agent ve AWS bulutundan gelen bir adresle tarayıcı, WAF ve trafik kategorilendiricileri için kolay bir hedeftir. İşte bu tür botlar milyarlarca engelleme ile hedef alınıyor.

Problemin, kurallara uyanların sayısının pek de fazla olmamasıdır. MIT CSAIL'in 2025 yılına ait AI Agent Index'i ve Cloudflare'ın gözlemleri örtüşüyor: AI trafiğinin yaklaşık yarısı robots.txt'yi basitçe görmezden geliyor. Modeller için "nazik bir menü" olması gereken llms.txt standardı, 2026'nın ilk çeyreği itibarıyla hiçbir büyük AI şirketi tarafından üretimde okunmuyor. Ağustos 2025'te Cloudflare, Perplexity'i gizli tarama yapmakla suçladı — User-Agent'ı döndürme ve yasakları aşmak için normal bir tarayıcı gibi gizlenme. Perplexity suçlamaları reddetti, ancak bu durum endüstrinin nereye gittiğini net bir şekilde gösterdi.

Kamusal, oturum açmamış verileri yasal olarak toplayanlar için sonuç paradoksaldır: platformlar "gürültülü" veri merkezi tarayıcılarını ne kadar agresif bir şekilde keserse, sıradan bir insan gibi görünen trafiğin değeri o kadar artar. Bir konut veya mobil IP'den gelen, normal bir tarayıcı parmak izi ve insana özgü bir ritimle gelen bir istek, anti-bot sistemleri için bir ziyaretçiden ayırt edilemez — ve bulut botunun anında yasaklandığı yerden geçer.

Bu pratikte web scraping için ne anlama geliyor?

İşiniz veri toplamaya bağlıysa — fiyat izleme, SERP tarama, inceleme toplama, açık kaynaklarda model eğitimi — Cloudflare raporundan çıkarılacak sonuçları bir eylem kılavuzu olarak kabul etmelisiniz.

  • Veri merkezi proxy'leri maskelenmeden — risk alanı. Eğer belirgin bulut aralıklarından istek gönderiyorsanız ve parmak izini yönetmiyorsanız, tam olarak ana ateşin sürdüğü kategoriye giriyorsunuz. İtibara duyarlı olmayan görevler (iç API'ler, dost kaynaklar, basit kamu sayfaları) için veri merkezi proxy'leri hızlı ve ucuz kalmaya devam ediyor, ancak korumalı platformlar için ömürleri kısalıyor.
  • Konut IP'leri — yeni temel seviye. Korunmuş siteleri ciddi şekilde taramak için konut proxy'leri, anti-bot sistemlerinin varsayılan olarak geçirdiği "insan" profilini sağlıyor. Bu artık bir premium seçenek değil, hijyenik bir minimum.
  • Mobil proxy'ler — en zorlu hedefler için. Sosyal medya ve davranışsal analiz yapan platformlar, bağlantı kaynağına özellikle dikkat ediyor. Mobil proxy'ler, gerçek operatör IP'leri ve döndürme mekanizması ile, hatta konut adreslerinin şüpheli olduğu yerlerde maksimum "gizlilik" sağlıyor.
  • Ücretli erişime hazırlanın. 402 kodlu Pay-Per-Crawl, geçici bir deney değil: günde bir milyar böyle yanıt, modelin yerleştiğini gösteriyor. Önümüzdeki birkaç yıl içinde bazı veriler yalnızca para karşılığında veya organik trafik gibi görünmeyi başaranlara sunulacak.

Ayrı bir senaryo — kendi altyapınız. Küçük hacimler ve özel görevler için kendi düğümünüzü kurmak mantıklıdır: Raspberry Pi'de ev yapımı bir proxy sunucusu kurmayı bir akşamda ve birkaç bin rubleye detaylı bir şekilde ele aldık. Bu, milyonlarca adresin havuzunu değiştirmeyecek, ancak temel ihtiyaçları karşılıyor ve mekaniği içten anlamaya yardımcı oluyor.

Sonuç

57,5% rakamı sembolik bir eşik, ancak arkasında gerçek bir çağ değişimi duruyor. On yıllardır insan okuyucu için inşa edilen internet, giderek daha hızlı bir şekilde veri tüketen makinelere uyum sağlıyor ve platformlar barikatlarla karşılık veriyor: engellemeler, ücretli geçişler ve botların kriptografik kimlik doğrulaması. Açık web yok olmuyor — katmanlara ayrılıyor. Serbest erişim, kurallara uyanlar veya sıradan bir kullanıcı gibi görünmeyi başaranlar için devam ediyor; geri kalan her şey, bir ödeme duvarının arkasına veya yasak altına alınıyor. Veri toplama endüstrisi için bu, tek bir anlam taşıyor: trafiğinizin kalitesi ve "insanlığı" artık rekabet avantajı değil, hayatta kalma koşulu haline geliyor.