← Kembali ke blog

Pengambilan Data dari CIAN, Domklik, dan Yandex Properti: Cara Mengumpulkan Informasi Harga Tanpa Pemblokiran

Parsing CIAN, Domclick, dan Yandex Real Estate tanpa pemblokiran — mungkin, jika memilih proxy yang tepat dan mengatur rotasi. Kami menjelaskan cara melakukannya berdasarkan praktik pasar properti.

šŸ“…18 April 2026
```html

Jika Anda terlibat dalam analisis pasar properti — baik itu agen real estat, investor, atau analis — Anda pasti menghadapi masalah yang sama: CIAN, Domclick, dan Yandex Real Estate memblokir permintaan massal setelah beberapa puluh halaman. Tanpa proksi, mengumpulkan basis data iklan yang relevan hampir tidak mungkin. Dalam artikel ini, kita akan membahas proksi mana yang harus dipilih, cara mengaturnya, dan bagaimana membangun proses pengumpulan data yang stabil.

Mengapa CIAN, Domclick, dan Yandex memblokir parsing

Ketiga platform ini adalah agregator komersial dengan akses berbayar untuk analisis yang lebih mendalam. CIAN menjual langganan untuk laporan analitis, Yandex Real Estate memonetisasi penempatan iklan, dan Domclick (Sberbank) menggunakan data untuk produk hipotek. Parsing massal secara langsung menyerang model bisnis mereka — itulah sebabnya ketiga layanan ini secara aktif melindungi diri dari permintaan otomatis.

Berikut adalah apa yang terjadi ketika Anda mencoba mengumpulkan data tanpa proksi:

  • IP-blocking — setelah 50–200 permintaan dari satu alamat, situs berhenti merespons atau mengembalikan kesalahan 403/429.
  • CAPTCHA — terutama diterapkan secara agresif oleh CIAN: Yandex SmartCaptcha muncul setelah beberapa halaman daftar.
  • Perlambatan respons — server dengan sengaja memperlambat respons untuk mengurangi kecepatan pengumpulan data.
  • Penggantian data — dalam kasus yang jarang terjadi, platform memberikan data "sampah" kepada bot untuk merusak basis data.
  • Blokir User-Agent — header standar parser mudah terdeteksi dan diblokir.

Situasi semakin diperburuk oleh fakta bahwa CIAN dalam beberapa tahun terakhir telah memperkuat perlindungannya secara signifikan: sekarang mereka menganalisis tidak hanya IP, tetapi juga pola perilaku — kecepatan scrolling, waktu antara permintaan, urutan melihat halaman. Ini berarti bahwa hanya mengganti IP tidak cukup — diperlukan pengaturan yang komprehensif.

Penting untuk dipahami:

Pemblokiran di platform ini bekerja berdasarkan skema akumulatif. 100 permintaan pertama mungkin berjalan dengan baik, tetapi kemudian IP masuk dalam daftar hitam selama 24–72 jam. Itulah sebabnya rotasi proksi bukanlah opsi, tetapi syarat wajib untuk kerja yang stabil.

Data apa yang dikumpulkan oleh para profesional pasar properti

Sebelum membahas sisi teknis, mari kita pahami — mengapa kita perlu parsing platform ini dan tugas apa yang diselesaikan dalam praktik. Memahami tujuan secara langsung memengaruhi pilihan alat dan jenis proksi.

Agen real estat dan pengembang

Mengumpulkan basis data iklan pesaing: harga per meter persegi berdasarkan daerah, dinamika perubahan harga, waktu rata-rata eksposur objek. Ini memungkinkan untuk memposisikan objek sendiri dengan benar dan membentuk kebijakan harga. Agensi besar memantau ribuan iklan setiap hari — secara manual ini tidak mungkin.

Investor properti

Menganalisis rasio harga jual dan sewa (yield), mencari objek yang undervalued, melacak munculnya iklan baru dengan diskon. Bagi investor, kecepatan sangat penting — iklan dengan harga di bawah pasar hilang dalam beberapa jam, jadi perlu pemantauan waktu nyata.

Analis dan pemasar

Membuat laporan tentang keadaan pasar, menyiapkan presentasi untuk klien, meneliti permintaan berdasarkan segmen (studio, dua kamar, properti luar kota). Mereka membutuhkan data historis — dinamika harga selama 3–6–12 bulan berdasarkan daerah tertentu dan jenis objek.

Bidang umum untuk pengumpulan data

Bidang Sumber Penggunaan
Harga iklan CIAN, Domclick, Yandex Analisis rentang harga
Luas, lantai, jenis bangunan CIAN, Domclick Segmentasi dan filtrasi
Daerah, metro, alamat Ketiga platform Geoanalisis
Tanggal publikasi dan pembaruan CIAN, Yandex Waktu eksposur
Foto objek Ketiga platform Analisis kualitas
Kontak penjual CIAN (sebagian) Pembentukan basis klien

Proksi mana yang cocok untuk parsing properti

Memilih jenis proksi adalah keputusan kunci yang menentukan apakah Anda akan terus berjuang dengan pemblokiran atau dengan tenang mengumpulkan basis data yang diperlukan. Mari kita bahas tiga opsi utama yang relevan dengan tugas parsing CIAN, Domclick, dan Yandex Real Estate.

Proksi residensial — pilihan optimal untuk CIAN

Proksi residensial menggunakan alamat IP dari pengguna rumah nyata — alamat semacam ini dianggap sebagai lalu lintas biasa oleh platform. Dari sudut pandang CIAN atau Yandex, permintaan terlihat seperti orang biasa yang duduk di rumah dan melihat iklan. Ini membuat proksi residensial hampir tidak terdeteksi oleh metode perlindungan standar.

Keuntungan utama — kumpulan alamat IP yang besar, yang memungkinkan rotasi setelah setiap permintaan atau setiap halaman. Kekurangan — kecepatan sedikit lebih rendah dibandingkan dengan proksi pusat data, dan harga yang lebih tinggi. Untuk parsing properti, di mana stabilitas lebih penting daripada kecepatan, ini adalah pilihan optimal.

Proksi seluler — untuk kasus sulit dengan perlindungan ketat

Proksi seluler adalah alamat IP dari operator seluler (MTS, Beeline, MegaFon). Ciri khasnya adalah satu IP seluler dapat digunakan oleh ratusan pengguna nyata secara bersamaan melalui NAT. Karena itu, platform sangat jarang memblokir alamat seluler — pemblokiran satu IP berarti memblokir ratusan orang hidup, yang tidak dapat diterima dari sudut pandang bisnis.

Proksi seluler harus digunakan jika CIAN sudah "mengingat" pola kerja Anda dan memblokir bahkan alamat residensial. Ini adalah opsi paling tahan terhadap deteksi, tetapi juga yang paling mahal.

Proksi pusat data — untuk volume besar dengan hati-hati

Proksi pusat data — cepat dan murah, tetapi mudah terdeteksi. CIAN dan Yandex telah lama memasukkan sebagian besar subnet pusat data yang populer ke dalam daftar hitam. Menggunakan mereka untuk parsing CIAN pada tahun 2024 berarti terus-menerus menghadapi pemblokiran dan menghabiskan waktu untuk mengganti kumpulan.

Proksi pusat data dapat cocok untuk Domclick, yang memiliki perlindungan sedikit kurang agresif, atau untuk pengujian awal struktur halaman sebelum mengatur parser utama.

Jenis proksi CIAN Domclick Yandex Real Estate Biaya
Residen āœ… Bagus āœ… Bagus āœ… Bagus Sedang
Seluler āœ… Bagus āœ… Bagus āœ… Bagus Tinggi
Pusat data āŒ Pemblokiran āš ļø Sebagian āŒ Pemblokiran Rendah

Pengaturan proksi untuk CIAN: analisis langkah demi langkah

CIAN adalah platform yang secara teknis paling kompleks dari ketiga platform. Di sini digunakan perlindungan berlapis: pembatasan laju berdasarkan IP, analisis perilaku, Yandex SmartCaptcha, dan pemeriksaan header browser. Mari kita bahas cara menyusun kerja dengan benar.

Langkah 1. Dapatkan proksi dengan IP Rusia

CIAN adalah platform Rusia, dan permintaan dari IP luar negeri segera menimbulkan kecurigaan. Pastikan bahwa proksi residensial Anda memiliki geolokasi Rusia — sebaiknya Moskow atau St. Petersburg, karena sebagian besar iklan terkonsentrasi di sana. Saat memilih penyedia, tanyakan tentang ketersediaan IP residensial Rusia dalam kumpulan.

Langkah 2. Atur rotasi IP

Untuk CIAN, disarankan untuk mengganti IP setiap 5–10 permintaan, tanpa menunggu pemblokiran. Sebagian besar penyedia proksi residensial menyediakan endpoint rotasi — satu alamat dan port yang secara otomatis memberikan IP baru pada setiap koneksi. Ini sangat menyederhanakan pengaturan: Anda tidak perlu beralih secara manual antara alamat.

Langkah 3. Atur jeda antara permintaan

Bahkan dengan proksi, jangan mengirim permintaan dengan kecepatan maksimum. Orang nyata menghabiskan 5–30 detik untuk melihat halaman. Tirulah perilaku ini: jeda 3–8 detik antara permintaan secara signifikan mengurangi risiko pemblokiran. Jika Anda menggunakan parser siap pakai atau alat no-code — cari pengaturan "jeda" atau "delay" dalam parameter.

Langkah 4. Atur header permintaan dengan benar

CIAN menganalisis header HTTP. Permintaan tanpa User-Agent atau dengan header "python-requests/2.28" segera diidentifikasi sebagai bot. Gunakan string User-Agent nyata dari browser terkini (Chrome, Firefox). Juga penting untuk mengirimkan header Accept-Language (ru-RU), Referer, dan Accept-Encoding — ini membuat permintaan terlihat seperti permintaan dari browser.

Langkah 5. Kerjakan paginasi secara berurutan

Jangan langsung melompat ke halaman 50 atau 100 — itu adalah perilaku yang tidak biasa. Mulailah dari halaman pertama dan secara berurutan beralih ke halaman berikutnya. Jika perlu mengumpulkan data dari beberapa kota — lebih baik menjalankan beberapa sesi paralel dengan IP yang berbeda, masing-masing beroperasi di wilayahnya sendiri.

Fitur parsing Domclick dan Yandex Real Estate

Domclick (Sberbank)

Domclick memiliki perlindungan yang lebih lunak dibandingkan dengan CIAN, tetapi itu tidak berarti bahwa parsing di sana mudah. Platform ini menggunakan pemuatan data dinamis melalui API — ini berarti bahwa hanya mengunduh HTML halaman tidak cukup: data tentang iklan dimuat melalui permintaan JavaScript ke API internal.

Kabar baik: API Domclick mengembalikan data dalam format JSON, yang jauh lebih nyaman untuk parsing dibandingkan dengan analisis HTML. Kabar buruk: permintaan ke API juga dilacak berdasarkan IP, dan dengan banyaknya permintaan dari satu alamat, Anda akan mendapatkan pemblokiran sementara.

Pendekatan yang disarankan untuk Domclick: gunakan proksi residensial dengan rotasi setiap 15–20 permintaan. Ini memungkinkan pengumpulan data secara stabil tanpa pemblokiran yang terus-menerus.

Yandex Real Estate

Yandex Real Estate mungkin adalah platform yang paling sulit dari segi menghindari perlindungan. Alasannya sederhana: Yandex menggunakan infrastruktur perlindungan bot yang terintegrasi di seluruh ekosistem. SmartCaptcha dari Yandex adalah salah satu sistem paling canggih di pasar Rusia.

Yandex menganalisis tidak hanya IP, tetapi juga cookie, sidik jari browser, dan riwayat sesi. Ini berarti bahwa untuk parsing yang stabil di Yandex Real Estate, Anda perlu menggunakan browser headless yang lengkap (Playwright, Puppeteer) atau bekerja melalui layanan parsing khusus dengan penghindaran perlindungan Yandex yang sudah terintegrasi.

Saran praktis:

Jika Anda membutuhkan data dari ketiga platform, mulailah dengan Domclick — di sana paling mudah untuk mengatur pengumpulan yang stabil. Data dari CIAN dan Yandex Real Estate sering tumpang tindih, jadi Domclick dapat mencakup sebagian besar pasar tanpa kesulitan tambahan.

Alat siap pakai untuk parsing tanpa kode

Jika Anda bukan seorang programmer tetapi ingin mengumpulkan data tentang properti — ada beberapa solusi siap pakai yang mendukung koneksi proksi dan tidak memerlukan penulisan kode.

Octoparse

Pembuat parser visual dengan dukungan proksi. Anda cukup mengklik elemen yang diperlukan di halaman, menunjukkan apa yang ingin Anda kumpulkan, dan program akan membangun logika parsing sendiri. Mendukung koneksi proksi eksternal — cukup masukkan alamat, port, nama pengguna, dan kata sandi di pengaturan. Sangat baik dalam menangani Domclick.

ParseHub

Alat serupa dengan antarmuka yang lebih sederhana. Mendukung halaman dinamis dengan JavaScript — yang penting untuk Domclick dan Yandex Real Estate. Proksi terhubung di pengaturan proyek. Rencana gratis terbatas pada jumlah halaman, untuk pemantauan serius diperlukan versi berbayar.

Apify

Platform cloud untuk parsing dengan "aktor" (template parser) siap pakai. Ada solusi siap pakai untuk agregator properti. Mendukung koneksi proksi sendiri melalui pengaturan. Nyaman karena bekerja di cloud — tidak perlu menjaga komputer tetap menyala untuk pemantauan jangka panjang.

n8n + Permintaan HTTP

Untuk mereka yang ingin mengotomatiskan proses tanpa pemrograman mendalam: n8n — pembuat otomatisasi visual yang dapat mengirim permintaan HTTP dengan proksi. Cocok untuk bekerja dengan API Domclick — Anda dapat mengatur pengumpulan data otomatis berdasarkan jadwal dan mengekspor ke Google Sheets atau database.

Alat Tanpa kode Dukungan proksi Halaman JS Tingkat kesulitan
Octoparse āœ… Ya āœ… Ya āœ… Ya Rendah
ParseHub āœ… Ya āœ… Ya āœ… Ya Rendah
Apify āš ļø Sebagian āœ… Ya āœ… Ya Sedang
n8n āš ļø Sebagian āœ… Ya āš ļø Sebagian Sedang

Rotasi proksi dan anti-ban: aturan kerja yang aman

Bahkan proksi berkualitas terbaik tidak akan menyelamatkan Anda jika digunakan dengan cara yang salah. Rotasi bukan hanya mengganti IP, tetapi merupakan strategi perilaku yang membuat parser Anda terlihat seperti pengguna nyata.

Cara mengatur rotasi dengan benar

Frekuensi pergantian IP: untuk CIAN — setiap 5–10 permintaan, untuk Domclick — setiap 15–20 permintaan, untuk Yandex Real Estate — setiap 3–5 permintaan (perlindungan paling agresif). Jika Anda menggunakan endpoint rotasi penyedia, ini terjadi secara otomatis.

Sticky-sessions vs. rotasi: beberapa tugas memerlukan kerja dengan satu IP selama seluruh sesi — misalnya, jika perlu masuk ke akun. Dalam hal ini, gunakan sticky-sessions (IP tetap selama 5–30 menit). Untuk pengumpulan iklan sederhana tanpa otorisasi — rotasi setelah setiap permintaan.

Penyebaran geografis: jika Anda mengumpulkan data dari beberapa kota, gunakan proksi dari wilayah yang sesuai. Permintaan untuk iklan Moskow dari IP Moskow terlihat lebih alami daripada dari IP Novosibirsk.

Apa lagi yang memengaruhi kemungkinan pemblokiran

  • Kecepatan permintaan — lebih dari 1 permintaan dalam 2 detik dari satu IP meningkatkan risiko pemblokiran berkali-kali lipat.
  • Waktu dalam sehari — parsing di malam hari dari pukul 2:00 hingga 6:00 kurang terlihat, karena lalu lintas lebih rendah.
  • Paralelisme — lebih baik 10 aliran dengan IP yang berbeda daripada 1 aliran dengan kecepatan tinggi.
  • Cookie dan sesi — reset cookie bersamaan dengan pergantian IP, jika tidak sesi terikat pada alamat lama.
  • Referer — tirulah transisi dari mesin pencari atau dari halaman utama situs.
  • User-Agent yang benar — gunakan versi terbaru dari Chrome atau Firefox, bukan yang sudah usang.

Cara bereaksi terhadap pemblokiran

Jika parser mulai menerima respons 403 atau 429 — jangan coba untuk melanjutkan dengan IP yang sama. Segera beralih ke alamat baru dan beri jeda 30–60 detik sebelum permintaan berikutnya. Jika pemblokiran meningkat — tingkatkan jeda antara permintaan dan kurangi frekuensi pergantian IP (paradoks, tetapi pergantian yang terlalu sering juga bisa menjadi sinyal bagi sistem perlindungan).

Checklist: cara menghindari ban saat mengumpulkan data tentang properti

Gunakan checklist ini sebelum menjalankan parser — ini akan membantu menghindari sebagian besar kesalahan umum.

āœ… Checklist sebelum menjalankan parser

  • Proksi memiliki geolokasi Rusia (Moskow / SPb)
  • Digunakan proksi residensial atau seluler (bukan pusat data untuk CIAN)
  • Rotasi IP telah diatur (setiap 5–15 permintaan)
  • Jeda antara permintaan tidak kurang dari 3 detik
  • User-Agent diatur sebagai browser terkini
  • Header Accept-Language: ru-RU dikirimkan
  • Cookie direset bersamaan dengan pergantian IP
  • Parsing dilakukan secara berurutan (halaman 1 → 2 → 3, tidak acak)
  • Pengolahan kesalahan 403/429 dengan jeda otomatis telah diatur
  • Aliran paralel menggunakan IP yang berbeda
  • Parser diuji pada 10–20 halaman sebelum peluncuran penuh
  • Data disimpan secara inkremental (tidak hanya di akhir)

Kesalahan umum pemula

Kesalahan 1: Menjalankan tanpa pengujian. Banyak yang langsung menjalankan parser pada 10.000 halaman — dan mendapatkan ban dalam 15 menit. Selalu mulai dari yang kecil: 20–30 halaman, periksa apakah data dikumpulkan dengan benar, pastikan tidak ada pemblokiran, dan hanya kemudian tingkatkan skala.

Kesalahan 2: IP yang sama untuk semua tugas. Jika Anda menggunakan satu proksi untuk pengujian dan untuk parsing yang sebenarnya — IP akan cepat terdeteksi. Simpan kumpulan terpisah untuk tugas yang berbeda.

Kesalahan 3: Mengabaikan kesalahan. Parser harus menangani respons 403, 429, 503 dengan benar — melakukan jeda, mengganti IP, dan mengulangi permintaan. Tanpa logika ini, Anda akan kehilangan data dan mengekspos IP.

Kesalahan 4: Parsing 24/7 dengan satu kumpulan. Bahkan proksi yang baik "lelah" dengan beban terus-menerus. Rencanakan jeda — misalnya, 2 jam kerja, 30 menit istirahat. Ini mengurangi beban pada kumpulan IP dan membuat pola kurang terlihat bagi sistem perlindungan.

Kesimpulan

Parsing CIAN, Domclick, dan Yandex Real Estate adalah alat yang benar-benar berfungsi untuk analisis pasar, jika didekati dengan dasar teknis yang tepat. Hal utama yang perlu diingat: kualitas proksi dan rotasi yang benar adalah fondasi kerja yang stabil. Tanpa ini, Anda akan menghabiskan waktu untuk berjuang melawan pemblokiran daripada menganalisis data.

Ringkasan singkat: untuk CIAN, gunakan proksi residensial dengan rotasi setiap 5–10 permintaan dan jeda tidak kurang dari 3 detik. Domclick lebih toleran, tetapi juga memerlukan proksi. Yandex Real Estate adalah platform yang paling sulit, di sana diperlukan browser headless yang lengkap ditambah proksi berkualitas. Untuk bekerja tanpa kode, Octoparse atau ParseHub dengan koneksi proksi eksternal akan cocok.

Jika Anda berencana untuk memantau harga properti secara teratur atau mengumpulkan basis data iklan untuk analisis, kami sarankan untuk memulai dengan proksi residensial dengan geolokasi Rusia — mereka memberikan keseimbangan optimal antara stabilitas kerja dan biaya, dan sangat cocok untuk ketiga platform.

```