← Kembali ke blog

Proxy untuk Mengatasi DataDome: Cara Kerja Perlindungan dan Solusi Efektif untuk Parsing

DataDome memblokir parser dan bot di situs besar — kita membahas bagaimana perlindungan ini bekerja dan proxy mana yang benar-benar membantu menghindarinya tanpa pemblokiran.

šŸ“…17 Mei 2026
```html

Anda telah mengatur parser, menjalankan pengumpulan data — dan dalam beberapa menit Anda mendapatkan halaman dengan captcha atau respons kosong. Kemungkinan besar, situs tersebut dilindungi oleh DataDome. Ini adalah salah satu sistem anti-bot paling agresif di pasar, dan proxy biasa dari pusat data tidak membantu di sini. Dalam artikel ini, kita akan membahas bagaimana DataDome mendeteksi bot dan jenis proxy mana yang memberikan hasil.

Apa itu DataDome dan di mana ia diterapkan

DataDome adalah platform perlindungan anti-bot SaaS komersial yang digunakan oleh toko online besar, portal berita, marketplace, dan layanan pemesanan di seluruh dunia. Perusahaan ini didirikan pada tahun 2015 dan saat ini melindungi ribuan situs dengan total audiens mencapai miliaran permintaan per hari.

Di antara klien DataDome adalah platform seperti Reddit, Foot Locker, Rakuten, AngelList, dan banyak sumber daya besar lainnya. Jika Anda terlibat dalam pemantauan harga pesaing, pengambilan data kartu produk, pengumpulan data dari marketplace luar negeri, atau agregasi berita — ada kemungkinan besar Anda sudah berhadapan dengan sistem ini.

Ciri-ciri khas bahwa situs dilindungi oleh DataDome:

  • Halaman dengan captcha muncul setelah beberapa permintaan berturut-turut
  • Dalam respons server terdapat header x-datadome-cid
  • Redirect ke domain geo.captcha-delivery.com
  • HTTP-respons 403 atau 429 saat permintaan sering dari satu IP
  • JavaScript-challenge saat kunjungan pertama (halaman "verifikasi browser")

DataDome bekerja dalam waktu nyata: setiap permintaan yang masuk dianalisis dalam milidetik. Sistem memutuskan — untuk melewatkan pengguna, menunjukkan captcha, atau memblokir — bahkan sebelum server memberikan konten utama halaman. Itulah sebabnya menghindarinya lebih sulit daripada pemblokiran IP sederhana.

Bagaimana DataDome mendeteksi bot: mekanisme perlindungan

Untuk memahami proxy mana yang berfungsi, perlu untuk memahami apa yang dianalisis oleh DataDome. Sistem ini menggunakan pendekatan multi-level — tidak ada satu faktor pun yang menjadi kriteria tunggal untuk pemblokiran. Keputusan diambil berdasarkan kombinasi sinyal.

1. Reputasi alamat IP

Hal pertama yang diperiksa DataDome adalah reputasi alamat IP berdasarkan basis data eksternal dan internal. Sistem segera menentukan apakah IP tersebut milik pusat data (AWS, Google Cloud, Hetzner, DigitalOcean), penyedia VPN, atau merupakan alamat rumah/mobile yang nyata. IP dari pusat data secara otomatis mendapatkan "skor kecurigaan" tinggi bahkan sebelum analisis perilaku.

2. Analisis perilaku

DataDome melacak pola perilaku: kecepatan permintaan, urutan kunjungan halaman, waktu antara klik, gerakan mouse (jika ada JavaScript). Pengguna nyata melakukan jeda, berpindah melalui rute logis, kadang-kadang kembali. Bot biasanya melakukan permintaan dengan interval tetap, pada URL yang ditentukan secara ketat, tanpa penyimpangan "acak".

3. JavaScript-fingerprint

Jika permintaan dilakukan melalui browser (atau headless-browser seperti Puppeteer/Playwright), DataDome menjalankan skrip JavaScript yang mengumpulkan "sidik jari" lingkungan: versi browser, font yang terpasang, resolusi layar, dukungan WebGL, canvas fingerprint, keberadaan plugin. Headless-browser tanpa penyamaran tambahan mudah terdeteksi berdasarkan parameter khas.

4. HTTP-header

Header permintaan dianalisis: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua dan lainnya. Ketidaksesuaian antara User-Agent yang dinyatakan dan parameter permintaan yang sebenarnya adalah sinyal kuat bot.

5. Pembelajaran mesin dalam waktu nyata

Semua sinyal yang dikumpulkan diproses oleh model ML yang dilatih pada kumpulan data besar tentang pengguna nyata dan bot. Model ini terus diperbarui — apa yang berfungsi sebulan yang lalu mungkin tidak berfungsi hari ini. Itulah sebabnya solusi statis cepat usang.

Mengapa proxy pusat data tidak berfungsi melawan DataDome

Ini adalah pertanyaan paling umum dari mereka yang baru mulai bekerja dengan situs yang dilindungi. Proxy pusat data — murah, cepat, dengan uptime tinggi. Sepertinya pilihan ideal untuk pengambilan data. Namun, melawan DataDome, mereka hampir tidak berguna.

Alasannya sederhana: DataDome memiliki dan menggunakan basis data ASN (sistem otonom) dari semua penyedia hosting besar. Ketika permintaan datang dari alamat IP yang dimiliki, misalnya, subnet Amazon Web Services atau OVH, sistem segera memberikan status "mencurigakan". Bahkan jika parser Anda meniru perilaku manusia dengan sempurna — IP dari pusat data sudah menempatkan Anda dalam bahaya.

āš ļø Penting untuk dipahami

Proxy pusat data sangat cocok untuk tugas di mana perlindungan lemah atau tidak ada: pengambilan data terbuka, bekerja dengan API tanpa sistem anti-bot, pengujian kecepatan. Namun, untuk situs dengan DataDome, mereka memberikan pemblokiran dalam 90%+ kasus bahkan dalam beberapa puluh permintaan pertama.

Masalah lain adalah IP yang "hangus". Jika ribuan pengguna sebelum Anda menggunakan alamat IP yang sama untuk aktivitas bot (dan dalam kumpulan pusat data murah ini adalah hal biasa), DataDome sudah memiliki riwayat negatif untuk alamat tersebut. Bahkan permintaan pertama dari IP semacam itu dapat menerima pemblokiran.

Proxy residensial: alat utama untuk bypass DataDome

Proxy residensial adalah alamat IP yang dimiliki oleh pengguna internet rumah yang nyata. Mereka diberikan oleh penyedia layanan internet (Rostelecom, Comcast, Deutsche Telekom, dll.) dan dari sudut pandang DataDome terlihat seperti orang biasa yang duduk di rumah di depan komputer.

Itulah sebabnya proxy residensial adalah alat kerja utama untuk pengambilan data dari situs dengan DataDome. Mereka melewati pemeriksaan awal berdasarkan reputasi IP, yang memberikan Anda "kredit kepercayaan" untuk bekerja lebih lanjut.

Apa yang perlu dipertimbangkan saat memilih proxy residensial untuk DataDome

Parameter Apa yang penting Mengapa ini kritis
Jenis rotasi Rotasi untuk setiap permintaan atau sesi 5-30 menit DataDome melacak riwayat IP — perubahan terlalu sering juga mencurigakan
Geolokasi IP dari negara situs target Permintaan dari negara lain — sinyal tambahan kecurigaan
Ukuran pool Jutaan IP, bukan ribuan Pool kecil cepat "hangus" — DataDome mengingat alamat yang aktif
Sesi lengket Kemampuan untuk menjaga satu IP selama 10-30 menit Untuk pengambilan data multi-halaman, satu sesi harus terlihat seperti satu pengguna
Kecepatan Tidak kurang dari 5-10 Mbit/s per koneksi Proxy yang lambat meningkatkan waktu permintaan, yang mempengaruhi timing

Poin penting: proxy residensial tidak menjamin 100% bypass DataDome dengan sendirinya. Mereka menyelesaikan masalah reputasi IP, tetapi jika parser Anda melakukan 100 permintaan per menit dari satu alamat atau mengirim header yang salah — DataDome tetap akan memblokir. IP hanyalah salah satu dari tingkat perlindungan.

Proxy mobile: kapan membutuhkan kepercayaan maksimal

Proxy mobile adalah alamat IP dari penyedia layanan mobile (jaringan 4G/5G). Mereka memiliki sifat khusus: satu alamat IP dari penyedia layanan mobile dapat digunakan oleh ribuan pengguna nyata secara bersamaan melalui NAT. DataDome mengetahui hal ini — dan oleh karena itu memperlakukan IP mobile dengan kepercayaan maksimal.

Memblokir IP mobile berarti memblokir potensi ribuan pelanggan nyata dari penyedia — tidak ada situs normal yang akan melakukannya. Itulah sebabnya proxy mobile memberikan persentase permintaan yang berhasil tertinggi ke situs dengan DataDome.

Kapan sebaiknya memilih proxy mobile daripada proxy residensial:

  • Situs sangat dilindungi secara agresif — proxy residensial memberikan pemblokiran bahkan dengan frekuensi permintaan yang rendah
  • Anda mengumpulkan versi mobile dari situs — IP mobile + User-Agent mobile terlihat organik
  • Perlu bekerja dengan aplikasi — jika Anda mengumpulkan API mobile, IP mobile secara logis sesuai dengan permintaan
  • Sesi jangka panjang — proxy mobile baik dalam mempertahankan sesi tanpa mengganti IP

Kekurangan proxy mobile adalah mereka lebih mahal daripada proxy residensial dan biasanya memiliki pool IP yang lebih kecil. Untuk pengambilan data berskala besar dengan ribuan permintaan per jam, ini bisa menjadi batasan. Dalam kasus seperti itu, strategi optimal adalah menggunakan proxy mobile untuk "pengintaian" dan halaman yang kompleks, dan proxy residensial untuk pengumpulan data massal.

Strategi rotasi dan penundaan: bagaimana tidak ketahuan bahkan dengan proxy yang baik

Bahkan dengan proxy residensial atau mobile, Anda bisa mendapatkan pemblokiran jika strategi permintaan tidak dibangun dengan benar. DataDome menganalisis perilaku pada tingkat sesi — dan pola anomali memicu kecurigaan terlepas dari kualitas IP.

Aturan pengambilan data yang aman melalui DataDome

āœ… Daftar periksa pengambilan data yang aman

  • Penundaan antara permintaan: dari 3 hingga 15 detik (acak, tidak tetap)
  • Tidak lebih dari 20-30 permintaan dari satu IP per sesi
  • Sesi lengket: pertahankan satu IP untuk satu "jalur pengguna"
  • Mulai dari halaman utama, kemudian pindah ke URL target
  • Tiru navigasi nyata: utama → kategori → produk
  • Gunakan geolokasi proxy yang sesuai dengan bahasa situs
  • Ganti IP setelah setiap sesi atau setelah pemblokiran
  • Jangan jalankan permintaan paralel dari satu IP

Rotasi: kapan mengganti IP

Di sini tidak ada jawaban universal — semuanya tergantung pada situs tertentu. Namun, logika umum adalah: DataDome mengingat aktivitas IP dalam jendela geser (biasanya 10-60 menit). Jika dalam waktu itu dari satu alamat datang terlalu banyak permintaan yang mencurigakan — IP mendapatkan larangan sementara.

Strategi optimal adalah merotasi IP bukan berdasarkan timer, tetapi berdasarkan jumlah permintaan. Misalnya: 15-25 permintaan → ganti IP → jeda 30-60 detik → sesi baru. Pendekatan ini meniru perilaku pengguna yang berbeda, masing-masing mengunjungi beberapa halaman dan pergi.

Header dan fingerprint: apa lagi yang diperiksa DataDome selain IP

Proxy yang baik adalah syarat yang diperlukan, tetapi tidak cukup untuk menghindari DataDome. Sistem ini menganalisis seluruh permintaan secara keseluruhan. Jika IP residensial, tetapi header menunjukkan bot — pemblokiran tetap akan terjadi.

Header yang sangat penting

Berikut adalah hal yang diperiksa DataDome dalam HTTP-header dan apa yang perlu diperhatikan:

Header Apa yang diperiksa Kesalahan umum
User-Agent Versi browser yang relevan UA usang atau UA dari pustaka Python
Accept-Language Bahasa sesuai dengan geolokasi proxy Proxy dari AS, tetapi bahasa ru-RU
sec-ch-ua Sesuai dengan User-Agent Ketiadaan header saat Chrome dinyatakan
Referer Rantai transisi yang logis Permintaan langsung ke halaman dalam tanpa Referer
Accept-Encoding Set standar dari browser Ketiadaan atau set yang tidak standar
Cookie Penyimpanan cookie sesi DataDome Mengabaikan Set-Cookie dari DataDome

Perhatian khusus — pada cookie DataDome. Pada permintaan pertama, sistem mengatur cookie-nya sendiri (biasanya disebut datadome). Jika parser Anda tidak menyimpan dan tidak mengirim cookie ini dalam permintaan berikutnya — DataDome menganggap setiap permintaan sebagai kunjungan pertama pengguna baru, yang sendiri mencurigakan pada frekuensi tinggi.

TLS fingerprint

Perlindungan canggih DataDome juga menganalisis TLS fingerprint — karakteristik dari handshake SSL/TLS. Berbagai pustaka HTTP (requests, curl, axios) memiliki set cipher suites dan ekstensi TLS yang khas, yang berbeda dari browser. Jika Anda menggunakan pustaka Python standar requests — fingerprint TLS-nya mudah diidentifikasi. Solusinya adalah menggunakan pustaka dengan penyamaran TLS browser (misalnya, curl-impersonate atau solusi khusus).

Alat untuk bekerja dengan situs DataDome

Pemilihan alat yang tepat untuk pengambilan data tidak kalah pentingnya dengan pemilihan proxy. Berbagai tugas memerlukan pendekatan yang berbeda. Mari kita bahas opsi utama dari sudut pandang kompatibilitas dengan DataDome.

Automasi browser (Puppeteer, Playwright)

Headless-browser secara teoritis seharusnya bekerja dengan baik dengan DataDome, karena mereka menjalankan JavaScript dan membentuk fingerprint "nyata". Dalam praktiknya, Puppeteer atau Playwright standar mudah terdeteksi berdasarkan parameter khas: navigator.webdriver = true, ketiadaan plugin, nilai WebGL yang tidak standar. Untuk menghindari deteksi, diperlukan penyamaran tambahan melalui plugin seperti puppeteer-extra-plugin-stealth.

Browser anti-detect

Untuk tugas di mana diperlukan interaksi penuh dengan situs (tidak hanya pengambilan data, tetapi juga interaksi), browser anti-detect adalah pilihan optimal. Dolphin Anty, AdsPower, GoLogin, dan Multilogin membuat profil browser lengkap dengan fingerprint yang realistis. Dalam kombinasi dengan proxy residensial atau mobile, mereka memberikan tingkat bypass DataDome yang maksimal.

Skema koneksi di browser anti-detect adalah standar: buat profil → di pengaturan proxy, tentukan jenis (HTTP/SOCKS5), host, port, login, dan kata sandi dari layanan proxy → jalankan profil. Setiap profil bekerja dalam lingkungan terisolasi dengan fingerprint unik.

Layanan pengambilan data khusus

Ada layanan siap pakai (ScrapingBee, Apify, Bright Data Scraping Browser) yang menangani semua pekerjaan untuk menghindari perlindungan — Anda hanya perlu memberikan URL dan menerima HTML. Mereka menggunakan pool proxy residensial mereka sendiri dan secara otomatis menyelesaikan captcha. Kekurangan — biaya tinggi untuk volume besar dan kontrol yang lebih sedikit atas proses.

Perbandingan pendekatan

Alat Efektivitas melawan DataDome Kesulitan pengaturan Skalabilitas
HTTP-parser + proxy residensial Sedang Rendah Tinggi
Puppeteer/Playwright + stealth + proxy Tinggi Sedang Sedang
Browser anti-detect + proxy mobile Sangat tinggi Rendah Rendah
Layanan pengambilan data siap pakai Tinggi Sangat rendah Tinggi (mahal)
Proxy pusat data (alat apa pun) Sangat rendah — —

Skenario praktis: pemantauan harga di situs yang dilindungi

Misalkan Anda memantau harga pesaing di marketplace luar negeri yang dilindungi oleh DataDome. Anda perlu mengumpulkan data untuk 5000 produk setiap 6 jam. Berikut adalah skema optimal:

  1. Alat: Playwright dengan plugin stealth (secara otomatis menyelesaikan tantangan JS)
  2. Proxy: Residensial dengan rotasi, geolokasi — negara situs target
  3. Sesi: Sticky selama 15 menit, 20 permintaan per satu IP
  4. Header: User-Agent Chrome yang relevan, Accept-Language yang benar
  5. Cookie: Penyimpanan dan pengiriman cookie DataDome antara permintaan dalam satu sesi
  6. Penundaan: Acak dari 4 hingga 12 detik antara permintaan
  7. Mulai sesi: Selalu mulai dari halaman utama, kemudian pindah ke produk

Dengan pengaturan seperti itu, tingkat keberhasilan permintaan mencapai 85-95%, yang cukup untuk pemantauan reguler. Sisa 5-15% — permintaan ulang melalui IP lain.

Kesimpulan dan rekomendasi

DataDome adalah sistem perlindungan yang serius, tetapi tidak tak teratasi. Kunci untuk bekerja dengan sukses di situs yang dilindungi olehnya adalah pendekatan komprehensif: jenis proxy yang tepat, header yang benar, perilaku yang realistis, dan strategi rotasi yang cerdas.

Kesimpulan utama dari artikel ini:

  • Proxy pusat data tidak berfungsi melawan DataDome — mereka diblokir pada tingkat reputasi IP
  • Proxy residensial adalah alat dasar untuk sebagian besar tugas pengambilan data
  • Proxy mobile memberikan kepercayaan maksimal dan cocok untuk situs yang dilindungi secara agresif
  • Proxy yang baik hanyalah bagian dari solusi: header, cookie, dan perilaku tidak kalah pentingnya
  • Browser anti-detect dalam kombinasi dengan proxy berkualitas memberikan hasil terbaik
  • Strategi rotasi dan penundaan sangat penting — bahkan dengan proxy residensial, Anda bisa mendapatkan larangan saat pengambilan data agresif

Jika Anda terlibat dalam pemantauan harga, pengambilan data kartu produk, atau pengumpulan data dari situs yang dilindungi oleh DataDome, kami merekomendasikan untuk memulai dengan proxy residensial — mereka memberikan keseimbangan optimal antara kualitas bypass perlindungan dan biaya. Untuk tugas di mana diperlukan tingkat kepercayaan maksimal dari sistem anti-bot, pertimbangkan proxy mobile — terutama jika Anda bekerja dengan versi mobile dari situs atau API aplikasi mobile.

```