Kembali ke blog

Bot Pertama Kali Mengalahkan Manusia di Internet: 57,5% Lalu Lintas - Apa Artinya untuk Scraping

Pada 3 Juni 2026, Cloudflare mencatat sebuah titik balik sejarah: bot untuk pertama kalinya memberikan lebih dari setengah permintaan di internet — 57,5% dibandingkan 42,5% untuk manusia. Penggerak utamanya adalah AI agen. Mari kita analisis angka-angka, mengapa situs-situs secara massal menutup pintu di depan crawler dan apa artinya ini untuk web scraping dan pengumpulan data.

📅13 Juni 2026
```html

Terjadi sesuatu yang ditunggu industri setidaknya selama satu tahun: di internet, jumlah mesin lebih banyak daripada manusia. Pada 3 Juni 2026, Cloudflare menerbitkan data dari jaringan Radar-nya, yang menunjukkan bahwa sistem otomatis untuk pertama kalinya dalam sejarah menghasilkan sebagian besar dari semua permintaan HTTP ke konten web — 57,5% berbanding 42,5% untuk pengguna aktif. NBC News, mengacu pada laporan yang sama, menyebutkan proporsi yang hampir identik — 57,4% berbanding 42,6%. Ini bukan kesalahan statistik dan bukan lonjakan sementara, melainkan titik balik yang tercatat dari tren bertahun-tahun.

Yang paling mencolok adalah betapa cepatnya ini terjadi. Hanya tiga bulan sebelum publikasi, saat berbicara di konferensi SXSW, CEO Cloudflare Matthew Prince meyakinkan bahwa titik silang tidak akan terjadi sebelum tahun 2027. Mengomentari angka terbaru, ia mengakui: "Yah, ini terjadi lebih cepat dari yang saya prediksi." Titik batas dicapai lebih dari satu tahun lebih awal dari perkiraan orang yang membuat perkiraan tersebut.

Siapa yang mengubah web menjadi wilayah bot

Penyebab utama — bukan spider pencarian klasik dan bukan bot spam, tetapi AI agen: program semi-otonom yang melakukan tugas untuk asisten seperti ChatGPT dan Gemini. Logika di baliknya sederhana dan tanpa ampun bagi server: di mana manusia mengklik beberapa kali, satu agen AI menjelajahi ribuan halaman untuk mengumpulkan konteks dan memberikan jawaban. Setiap "perjalanan" semacam itu adalah puluhan dan ratusan permintaan, yang dalam statistik membentuk longsoran.

Skala pertumbuhan terlihat dari crawler individu. Menurut pengukuran Cloudflare, lalu lintas GPTBot dari OpenAI meningkat 305% dalam setahun. Jika melihat pangsa dalam seluruh lalu lintas AI, gambaran tetap sama: GPTBot naik dari 4,7% (Juli 2024) menjadi 11,7% (Juli 2025). Pada Mei 2026, crawler AI khusus menyumbang 20,3% dari permintaan bot, sementara 6,5% berasal dari bot pencarian AI — total hampir 27% dari seluruh lalu lintas bot sudah langsung memberi makan model bahasa. Untuk tujuan ini, lalu lintas tersebut dibagi sebagai berikut: 51,8% — pengumpulan data untuk pelatihan, 35,7% — mode campuran (pelatihan ditambah pemberian jawaban), dan hanya sekitar 9% — pencarian murni.

Beban pada infrastruktur tidak lagi menjadi abstraksi. Yayasan Wikimedia melaporkan bahwa sejak Januari 2024, konsumsi bandwidth untuk pengiriman multimedia meningkat 50%, di mana 65% dari lalu lintas yang paling menguras sumber daya dihasilkan oleh bot, meskipun mereka hanya menyumbang 35% dari tampilan halaman. Dengan kata lain, mesin mengambil lalu lintas mahal secara tidak proporsional, tanpa memberikan apa pun kembali kepada pemilik situs.

Mengapa web terbuka menutup pintunya

Reaksi dari platform dapat diprediksi: jika bot tidak membawa tampilan iklan atau klik, mereka mulai dihentikan. Pada Agustus 2025, lebih dari 2,5 juta situs sepenuhnya melarang penggunaan data mereka untuk pelatihan AI. Dalam lima bulan setelah Juli 2025, jaringan Cloudflare saja memblokir sekitar 416 miliar permintaan dari bot AI. GPTBot menjadi crawler yang paling "diblokir" dalam file robots.txt — ia muncul dalam 5,52% dari semua aturan DISALLOW.

Ketidakseimbangan terlihat jelas dalam rasio crawl-to-referral yang disebut — berapa banyak halaman yang diambil bot untuk setiap klik yang dikembalikan. Untuk Googlebot standar, rasio ini sekitar 4,9:1. Untuk GPTBot — 1276:1, dan untuk ClaudeBot, rasio ini hampir mencapai 24.000:1, sebelum membaik menjadi sekitar 11.000:1. Bagi pemilik situs, ini berarti sederhana: AI mengambil ribuan, memberikan satuan.

Tetapi hanya memblokir berarti kehilangan potensi pendapatan, sehingga Cloudflare menawarkan jalan ketiga. Sistemnya Pay-Per-Crawl menggunakan status HTTP yang sudah lama dilupakan 402 "Payment Required": alih-alih menutup bot sepenuhnya, situs dapat menagihnya untuk akses. Perusahaan itu sendiri berperan sebagai perantara dan memproses pembayaran. Mekanismenya tiga tingkat: Block (satu klik, secara default untuk domain baru), Charge (akses berbayar sesuai tarif pemilik), dan Allow (akses terbuka dengan analitik mendetail). Menurut Cloudflare, klien sudah memberikan lebih dari satu miliar kode 402 setiap hari.

Tren ini melampaui satu perusahaan. Pada 7 April 2026, GoDaddy — salah satu penyedia hosting terbesar di dunia — mengintegrasikan alat Cloudflare AI Crawl Control ke dalam platformnya. Direktur strategi Cloudflare, Stephanie Cohen, merumuskan hal ini: "Dengan memberikan pemilik situs alat seperti AI Crawl Control dan standar terbuka, kami meletakkan dasar untuk model bisnis baru di internet." Mengingat bahwa sekitar 20% dari semua situs di dunia beroperasi di balik proxy terbalik Cloudflare, ini adalah perubahan tektonik dalam aturan permainan.

Perang topeng: mengapa pemblokiran tidak mempengaruhi semua orang secara sama

Nuansa kunci yang sering terlewat dalam judul yang mencolok: hambatan baru terutama ditujukan pada bot yang jujur dalam identitasnya dan datang dari rentang IP pusat data. Crawler dengan User-Agent yang jelas seperti "GPTBot" dan alamat dari cloud AWS adalah sasaran empuk untuk WAF dan pengkategorian lalu lintas. Inilah yang menjadi sasaran pemblokiran miliaran.

Masalahnya adalah tidak semua orang mematuhi aturan. Indeks AI Agent Index dari MIT CSAIL untuk tahun 2025 dan pengamatan Cloudflare menunjukkan bahwa sekitar setengah dari lalu lintas AI secara sederhana mengabaikan robots.txt. Dan standar llms.txt, yang seharusnya menjadi "menu sopan" untuk model, hingga kuartal pertama 2026 tidak dibaca oleh perusahaan AI besar mana pun dalam produksi. Kisah bulan Agustus 2025 sangat mencolok: Cloudflare secara publik menuduh Perplexity melakukan crawling tersembunyi — rotasi User-Agent dan menyamar sebagai browser biasa untuk menghindari larangan di robots.txt. Perplexity membantah tuduhan tersebut, tetapi kasus ini secara jelas menunjukkan ke mana industri ini bergerak.

Kesimpulan bagi mereka yang secara legal mengumpulkan data publik yang tidak memerlukan login adalah paradoks: semakin agresif platform memotong crawler pusat data yang "berisik", semakin tinggi nilai lalu lintas yang terlihat seperti orang biasa. Permintaan yang datang dari IP residensial atau seluler, dengan jejak browser yang normal dan ritme manusia, tidak dapat dibedakan oleh sistem anti-bot dari pengunjung — dan lolos di mana bot cloud mendapatkan larangan instan.

Apa artinya ini untuk web scraping dalam praktik

Jika bisnis Anda bergantung pada pengumpulan data — pemantauan harga, pengambilan SERP, agregasi ulasan, pelatihan model pada sumber terbuka — kesimpulan dari laporan Cloudflare layak diterima sebagai panduan untuk bertindak.

  • Proxy pusat data tanpa penyamaran — zona risiko. Jika Anda mengirim permintaan dari rentang cloud yang jelas dan tidak mengelola jejak, Anda masuk ke kategori yang menjadi sasaran utama. Untuk tugas yang tidak sensitif terhadap reputasi (API internal, sumber yang bersahabat, halaman publik sederhana) proxy pusat data tetap cepat dan murah, tetapi untuk platform yang dilindungi, siklus hidup mereka semakin pendek.
  • IP residensial — tingkat dasar baru. Untuk scraping serius di situs yang dilindungi, proxy residensial memberikan profil "manusia" yang biasanya diterima oleh sistem anti-bot. Ini bukan lagi opsi premium, tetapi minimum higienis.
  • Proxy seluler — untuk tujuan yang paling ketat. Media sosial dan platform dengan analisis perilaku sangat ketat mengenai sumber koneksi. Proxy seluler dengan IP nyata dari operator dan mekanisme rotasinya memberikan "ketidaknampakan" maksimum di mana bahkan alamat residensial dicurigai.
  • Siapkan untuk akses berbayar. Pay-Per-Crawl dengan kode 402 — ini bukan eksperimen sementara: satu miliar respons semacam itu per hari menunjukkan bahwa model ini telah diterima. Sebagian data dalam beberapa tahun ke depan akan tersedia hanya dengan uang atau hanya bagi mereka yang dapat terlihat seperti lalu lintas organik.

Skema terpisah — infrastruktur sendiri. Untuk volume kecil dan tugas privat, ada baiknya membangun node Anda sendiri: kami telah membahas secara rinci bagaimana membangun server proxy rumahan di Raspberry Pi dalam semalam dengan biaya beberapa ribu rubel. Ini tidak akan menggantikan kumpulan dari jutaan alamat, tetapi memenuhi kebutuhan dasar dan membantu memahami mekanisme dari dalam.

Kesimpulan

Angka 57,5% adalah batas simbolis, tetapi di baliknya terdapat perubahan nyata dalam era. Internet, yang selama beberapa dekade dibangun untuk pembaca manusia, semakin cepat beradaptasi untuk mesin konsumen data, dan platform merespons dengan barikade: pemblokiran, gerbang berbayar, dan otentikasi kriptografis untuk bot. Web terbuka tidak menghilang — ia terpisah. Akses bebas tetap ada bagi mereka yang bermain sesuai aturan atau dapat terlihat seperti pengguna biasa; semua yang lainnya pergi di balik paywall atau diblokir. Bagi industri pengumpulan data, ini berarti satu hal: kualitas dan "kemanusiaan" lalu lintas Anda menjadi bukan keunggulan kompetitif, tetapi syarat untuk bertahan hidup.

```