Pengambilan data dari situs properti adalah tugas yang sangat penting bagi agen real estat, investor, dan analis pasar. Cian, Avito, CIAN, dan platform lainnya secara aktif memblokir pengumpulan data otomatis dengan menggunakan sistem anti-bot yang canggih. Tanpa proxy yang diatur dengan benar, IP Anda akan diblokir setelah 50-100 permintaan, dan Anda akan kehilangan akses ke informasi berharga tentang harga, iklan, dan dinamika pasar.
Dalam panduan ini, Anda akan belajar bagaimana memilih proxy yang tepat untuk pengambilan data properti, mengatur rotasi alamat IP, menghindari perlindungan dari platform terbesar, dan mengumpulkan data secara stabil, tanpa pemblokiran dan captcha.
Mengapa situs properti memblokir pengambilan data
Platform properti besar β Cian, Avito, Yandex.Properti, CIAN β kehilangan jutaan rubel karena pengambilan data mereka oleh pesaing dan agregator. Oleh karena itu, mereka menerapkan perlindungan multi-lapis terhadap pengumpulan informasi otomatis.
Metode utama pemblokiran parser:
- Limit berdasarkan alamat IP: Cian memblokir IP setelah 80-120 permintaan per jam, Avito β setelah 50-70 permintaan. Ini membuat pengumpulan data dalam jumlah besar dari satu IP menjadi tidak mungkin.
- Fingerprinting browser: Situs-situs menganalisis header HTTP, User-Agent, resolusi layar, font yang terpasang, dan parameter lainnya. Jika terlihat mencurigakan (misalnya, tidak ada cookies atau JavaScript), permintaan akan diblokir.
- Analisis perilaku: Sistem anti-bot melacak kecepatan permintaan, pola navigasi, gerakan mouse. Tindakan yang terlalu cepat atau monoton akan menimbulkan kecurigaan.
- Cloudflare dan Datadome: Banyak situs menggunakan sistem perlindungan canggih yang memeriksa TLS-fingerprint, WebGL, Canvas, dan parameter teknis lainnya dari browser.
Tanpa proxy, Anda akan menghadapi pemblokiran hanya dalam beberapa menit pengambilan data aktif. IP Anda akan masuk dalam daftar hitam selama 24-48 jam, dan Anda bahkan tidak dapat membuka situs di browser biasa. Untuk pengumpulan data profesional, proxy bukanlah opsi, tetapi persyaratan wajib.
Contoh nyata: Sebuah agen properti di Moskow mengumpulkan data tentang harga apartemen dari Cian untuk analisis pasar. Tanpa proxy, IP mereka diblokir setelah mengumpulkan 200-300 iklan (sekitar 15 menit kerja parser). Setelah menerapkan proxy residensial dengan rotasi setiap 10 menit, mereka mengumpulkan 50.000+ iklan setiap hari tanpa satu pun pemblokiran.
Jenis proxy apa yang cocok untuk pengambilan data properti
Untuk pengambilan data properti, ada tiga jenis proxy utama yang digunakan. Pemilihan tergantung pada skala tugas, anggaran, dan tingkat perlindungan situs target.
| Jenis proxy | Keuntungan | Kekurangan | Untuk tugas apa |
|---|---|---|---|
| Proxy residensial | IP nyata dari pengguna rumah, anonimitas maksimum, risiko pemblokiran minimal, menghindari Cloudflare | Harga tinggi (dari $7-15 per 1 GB), kecepatan lebih rendah dibandingkan dengan pusat data | Pengambilan data dari Cian, Avito, CIAN dengan tingkat perlindungan tinggi, pengumpulan data dalam jumlah besar |
| Proxy pusat data | Kecepatan tinggi (hingga 1 Gbps), harga rendah ($1-3 per IP per bulan), koneksi stabil | Mudah terdeteksi oleh sistem anti-bot, risiko pemblokiran tinggi di situs yang dilindungi | Pengambilan data dari situs kecil tanpa perlindungan, pengujian parser, pengumpulan data dari API |
| Proxy seluler | IP dari operator seluler (MTS, Beeline, MegaFon), sulit untuk diblokir, kepercayaan tinggi dari situs | Harga tertinggi ($50-150 per bulan per IP), IP dinamis (berubah setiap 10-30 menit) | Menghindari perlindungan yang paling ketat, pengambilan data dari versi seluler situs, tugas yang sangat penting |
Rekomendasi untuk sebagian besar tugas: Untuk pengambilan data dari Cian, Avito, dan platform properti besar lainnya, pilihan optimal adalah proxy residensial. Mereka menawarkan keseimbangan antara biaya, kecepatan, dan tingkat anonimitas. Proxy pusat data hanya cocok untuk volume kecil atau situs tanpa perlindungan.
Proxy residensial vs pusat data: mana yang dipilih untuk pengambilan data
Mari kita bahas secara detail kapan menggunakan setiap jenis proxy untuk pengambilan data properti, dengan contoh konkret.
Kapan menggunakan proxy residensial
Proxy residensial adalah alamat IP dari pengguna rumah nyata yang disediakan oleh penyedia layanan internet (Rostelecom, MTS, Beeline). Untuk situs, mereka terlihat seperti pengunjung biasa, yang membuatnya hampir tidak mungkin untuk diblokir.
Gunakan proxy residensial untuk:
- Pengambilan data dari Cian: Perlindungan paling ketat di antara situs properti Rusia. Memblokir pusat data setelah 30-50 permintaan. Dengan proxy residensial, Anda dapat melakukan 500-1000 permintaan dari satu IP tanpa pemblokiran.
- Pengambilan data dari Avito: Menggunakan Cloudflare dan analisis perilaku. Proxy residensial dapat menghindari pemeriksaan TLS-fingerprint dan tantangan JavaScript.
- Pengumpulan data dalam jumlah besar: Jika Anda perlu mengumpulkan 10.000+ iklan setiap hari, proxy residensial adalah satu-satunya pilihan yang dapat diandalkan.
- Proyek jangka panjang: Ketika pengambilan data dilakukan selama berbulan-bulan, stabilitas sangat penting. Proxy residensial jarang masuk dalam daftar hitam.
Contoh pengaturan untuk Cian:
Gunakan kumpulan 50-100 IP residensial dengan rotasi setiap 5-10 menit. Atur jeda antara permintaan 2-5 detik (nilai acak). Emulasi pengguna nyata: muat gambar, jalankan JavaScript, kirim header User-Agent yang realistis. Dengan pengaturan seperti itu, Anda dapat mengumpulkan 20.000-30.000 iklan per hari tanpa satu pun pemblokiran.
Kapan proxy pusat data cocok
Proxy pusat data adalah alamat IP dari server di pusat data (Hetzner, OVH, DigitalOcean). Mereka 5-10 kali lebih murah daripada proxy residensial, tetapi mudah terdeteksi oleh sistem anti-bot berdasarkan database rentang IP.
Gunakan pusat data untuk:
- Pengambilan data dari situs regional kecil: Agensi properti lokal, papan iklan tanpa perlindungan canggih.
- Pengujian parser: Debugging kode, memeriksa logika kerja sebelum diluncurkan pada proxy residensial.
- Pengambilan data dari API: Jika situs menyediakan API resmi untuk mitra, pusat data dapat menangani tugas tersebut.
- Anggaran terbatas: Jika Anda perlu mengumpulkan volume data kecil (1000-2000 iklan) dan siap mengambil risiko pemblokiran.
Penting: Jangan gunakan pusat data untuk pengambilan data dari Cian, Avito, Yandex.Properti. Anda akan mendapatkan pemblokiran IP dalam waktu 10-15 menit, dan membuang waktu serta uang dengan sia-sia. Untuk situs-situs ini, proxy residensial adalah satu-satunya pilihan yang bekerja.
Pengaturan rotasi alamat IP untuk pengambilan data yang stabil
Rotasi IP adalah penggantian otomatis server proxy setelah interval waktu tertentu atau jumlah permintaan tertentu. Pengaturan rotasi yang benar sangat penting untuk menghindari pemblokiran.
Strategi rotasi alamat IP
Ada tiga strategi utama rotasi, masing-masing cocok untuk skenario pengambilan data properti yang berbeda:
| Strategi | Deskripsi | Kapan digunakan | Pengaturan |
|---|---|---|---|
| Rotasi berdasarkan waktu | IP berubah setiap N menit (5, 10, 15 menit) | Pengambilan data dari Cian, Avito β situs dengan batasan waktu yang ketat |
Cian: 10-15 menit Avito: 8-12 menit CIAN: 5-10 menit |
| Rotasi berdasarkan permintaan | IP berubah setelah N permintaan (50, 100, 200 permintaan) | Situs dengan batasan jumlah permintaan dari satu IP |
Cian: 80-100 permintaan Avito: 50-70 permintaan Situs regional: 200-500 permintaan |
| Rotasi pada setiap permintaan | Setiap permintaan menggunakan IP baru dari kumpulan | Anonimitas maksimum, pengumpulan data yang sangat penting | Membutuhkan kumpulan IP yang besar (100+), biaya tinggi, cocok untuk situs yang sangat dilindungi |
Rekomendasi untuk pengambilan data properti: Gunakan strategi gabungan β rotasi berdasarkan waktu (10 menit) DAN berdasarkan permintaan (100 permintaan). IP akan berubah ketika salah satu kondisi terpenuhi. Ini memberikan perlindungan maksimum dari pemblokiran.
Pengaturan langkah demi langkah rotasi di alat populer
Sebagian besar parser dan scraper modern mendukung rotasi proxy otomatis. Berikut cara mengaturnya di alat populer:
Contoh pengaturan rotasi (konseptual):
1. Buat daftar proxy (file proxies.txt):
123.45.67.89:8000:username:password
234.56.78.90:8000:username:password
345.67.89.01:8000:username:password
2. Atur parameter rotasi:
- Interval rotasi: 10 menit
- Atau setelah 100 permintaan
- Jeda acak antara permintaan: 2-5 detik
3. Aktifkan emulasi browser nyata:
- User-Agent: acak dari daftar browser populer
- Accept-Language: ru-RU,ru;q=0.9,en;q=0.8
- Referer: halaman utama situs atau mesin pencari
- Cookies: simpan antara permintaan dari satu IP
Nuansa penting dalam pengaturan rotasi:
- Ukuran kumpulan proxy: Untuk pengambilan data Cian yang stabil, diperlukan kumpulan minimal 20-30 IP. Untuk Avito β 30-50 IP. Semakin besar kumpulan, semakin rendah beban pada setiap IP.
- Penyimpanan cookies: Jangan reset cookies saat mengganti IP β ini terlihat mencurigakan. Setiap IP harus memiliki set cookies sendiri yang disimpan antara permintaan.
- Geolokasi proxy: Untuk pengambilan data iklan regional, gunakan proxy dari kota yang sama. Misalnya, untuk mengumpulkan data properti di St. Petersburg β proxy dengan IP St. Petersburg.
- Pemeriksaan fungsionalitas: Sebelum memulai pengambilan data, periksa semua proxy untuk fungsionalitas. Hapus dari daftar IP yang diblokir atau lambat (ping > 500 ms).
Cara menghindari sistem anti-bot Cian, Avito, dan CIAN
Situs properti modern menggunakan perlindungan multi-lapis terhadap bot. Proxy saja tidak cukup β Anda perlu meniru perilaku pengguna nyata. Mari kita bahas cara menghindari perlindungan setiap platform besar.
Menghindari perlindungan Cian
Cian adalah platform properti yang paling terlindungi di Rusia. Menggunakan kombinasi Cloudflare, sistem anti-bot mereka sendiri, dan pembelajaran mesin untuk mendeteksi parser.
Apa yang diperiksa Cian:
- TLS-fingerprint: Jejak unik dari koneksi SSL/TLS. Cian mendeteksi alat otomatis (Selenium, Puppeteer) berdasarkan parameter TLS yang tidak standar.
- JavaScript-challenge: Pada kunjungan pertama, Cloudflare melakukan pemeriksaan JavaScript. Jika browser tidak menjalankan JS atau melakukannya dengan salah β pemblokiran.
- Canvas dan WebGL fingerprinting: Cian membaca jejak unik dari mesin grafis browser. Jejak yang sama dari IP yang berbeda β tanda bot.
- Analisis perilaku: Kecepatan scrolling, gerakan mouse, waktu di halaman, pola klik. Tindakan yang terlalu cepat atau mekanis menimbulkan kecurigaan.
Cara menghindari perlindungan Cian:
- Gunakan proxy residensial: Hanya mereka yang dapat secara stabil menghindari Cloudflare. Pusat data diblokir dalam 90% kasus.
- Emulasi browser nyata: Gunakan pustaka dengan dukungan browser penuh (Playwright, Puppeteer Stealth). Mereka meniru TLS-fingerprint, Canvas, WebGL dari Chrome/Firefox yang nyata.
- Atur jeda: Antara permintaan β 3-7 detik (nilai acak). Sebelum mengklik β 0.5-2 detik. Simulasikan membaca iklan β jeda 10-20 detik di halaman iklan.
- Rotasi User-Agent: Gunakan daftar User-Agent nyata dari browser populer (Chrome 120+, Firefox 121+, Safari 17+). Ganti User-Agent bersamaan dengan IP.
- Atasi captcha: Bahkan dengan proxy, Cian dapat menampilkan captcha saat aktivitas mencurigakan. Gunakan layanan penyelesaian captcha (2Captcha, Anti-Captcha) atau kurangi intensitas pengambilan data.
Tip: Untuk pengambilan data dari Cian, kami merekomendasikan menggunakan browser headless dengan mode stealth (menyembunyikan tanda otomatisasi). Atur jeda acak, emulasi gerakan mouse, scrolling. Rotasi IP setiap 10 menit atau 80-100 permintaan. Dengan pengaturan seperti itu, keberhasilan pengambilan data mencapai 95-98%.
Menghindari perlindungan Avito
Avito menggunakan Cloudflare dan sistem deteksi bot mereka sendiri. Perlindungannya sedikit lebih lemah dibandingkan Cian, tetapi tetap memerlukan pengaturan proxy dan emulasi browser yang benar.
Fitur perlindungan Avito:
- Limit 50-70 permintaan dari IP: Setelah melebihi limit, Avito menampilkan captcha atau memblokir IP sementara selama 1-2 jam.
- Pemeriksaan Referer: Avito memeriksa dari mana pengguna datang. Ketidakadaan Referer atau sumber yang mencurigakan β alasan untuk pemblokiran.
- Analisis kecepatan permintaan: Jika permintaan datang lebih cepat dari 1-2 detik β ini adalah tanda jelas bot.
- Pemantauan regional: Avito memeriksa kesesuaian alamat IP dengan kota yang dipilih. Jika IP dari Moskow, tetapi melihat iklan dari Vladivostok β ini mencurigakan.
Pengaturan untuk menghindari perlindungan Avito:
- Proxy residensial dari wilayah yang tepat: Untuk pengambilan iklan dari Novosibirsk, gunakan proxy dengan IP dari Novosibirsk atau wilayah tetangga.
- Rotasi setiap 8-12 menit atau 50 permintaan: Jangan melebihi limit permintaan dari satu IP.
- Referer yang benar: Atur Referer seolah-olah Anda datang dari pencarian Yandex atau Google:
https://yandex.ru/search/?text=ΠΊΡΠΏΠΈΡΡ ΠΊΠ²Π°ΡΡΠΈΡΡ - Jeda 2-4 detik antara permintaan: Nilai acak, agar tidak ada interval yang merata.
- Penyimpanan cookies dan sesi: Avito melacak sesi pengguna. Simpan cookies antara permintaan dari satu IP.
Menghindari perlindungan CIAN dan platform lainnya
CIAN, Yandex.Properti, Domofond, dan platform lainnya memiliki perlindungan yang lebih lemah dibandingkan Cian dan Avito. Untuk mereka, pengaturan dasar sudah cukup:
- Proxy residensial dengan rotasi setiap 15-20 menit
- Jeda 1-3 detik antara permintaan
- User-Agent yang realistis dan header dasar
- Penanganan captcha yang jarang (muncul dalam 5-10% kasus)
Alat untuk pengambilan data properti dengan dukungan proxy
Untuk pengambilan data dari situs properti, baik solusi siap pakai maupun parser kustom digunakan. Pemilihan tergantung pada keterampilan teknis, anggaran, dan skala tugas.
Layanan pengambilan data siap pakai (tanpa pemrograman)
Jika Anda bukan pengembang, gunakan layanan siap pakai dengan antarmuka visual dan dukungan proxy bawaan:
- Octoparse: Pembuat parser visual dengan drag-and-drop. Mendukung proxy, JavaScript, captcha. Terdapat template siap pakai untuk situs populer. Biaya mulai dari $75/bulan.
- ParseHub: Tarif gratis untuk 200 halaman, tarif berbayar mulai dari $149/bulan. Dukungan proxy, AJAX, infinite scroll. Cocok untuk pengambilan data dari Avito dan situs regional.
- Apify: Platform cloud untuk web scraping. Perpustakaan besar aktor (parser) siap pakai untuk berbagai situs. Rotasi proxy bawaan. Dari $49/bulan.
- Bright Data (sebelumnya Luminati): Solusi profesional dengan jaringan proxy sendiri. Alat bawaan untuk pengambilan data, penanganan captcha, emulasi browser. Dari $500/bulan.
Rekomendasi: Untuk pemula dan proyek kecil, Octoparse atau ParseHub cocok. Untuk pengambilan data profesional dalam volume besar β Apify atau Bright Data.
Perpustakaan untuk pengembang
Jika Anda seorang pengembang atau memiliki tim teknis, parser kustom akan memberikan fleksibilitas dan kontrol maksimum:
- Puppeteer / Playwright (JavaScript/Node.js): Browser headless untuk pengambilan data dari situs yang kompleks dengan JavaScript. Emulasi penuh browser nyata, menghindari sebagian besar sistem anti-bot. Dukungan proxy bawaan.
- Selenium (Python, Java, C#): Alat klasik untuk otomatisasi browser. Komunitas besar, banyak solusi siap pakai. Membutuhkan pustaka tambahan untuk mode stealth.
- Scrapy (Python): Kerangka kerja kuat untuk pengambilan data. Asinkron, cepat, dapat diskalakan. Cocok untuk pengambilan data dari situs sederhana tanpa JavaScript yang kompleks. Mudah diintegrasikan dengan proxy.
- BeautifulSoup + Requests (Python): Pustaka sederhana untuk pengambilan HTML. Cocok untuk pemula dan tugas sederhana. Tidak berfungsi dengan situs JavaScript.
Untuk pengambilan data dari Cian dan Avito, kami merekomendasikan: Puppeteer Stealth atau Playwright β mereka paling baik dalam menghindari sistem anti-bot modern berkat emulasi penuh browser nyata.
Tips praktis: cara menghindari pemblokiran
Mari kita ringkas semua rekomendasi dalam bentuk checklist untuk pengambilan data properti yang stabil tanpa pemblokiran:
Checklist pengaturan parser properti
β Pemilihan proxy:
- Untuk Cian, Avito β hanya proxy residensial
- Kumpulan minimal 20-50 IP untuk distribusi beban
- Proxy dari wilayah yang tepat (Moskwa untuk iklan Moskwa)
- Pemeriksaan fungsionalitas semua IP sebelum peluncuran
β Pengaturan rotasi:
- Rotasi berdasarkan waktu: 10-15 menit untuk Cian, 8-12 menit untuk Avito
- Rotasi berdasarkan permintaan: 80-100 untuk Cian, 50-70 untuk Avito
- Penyimpanan cookies untuk setiap IP secara terpisah
- Jeda acak antara permintaan: 2-5 detik
β Emulasi browser:
- Penggunaan browser headless dengan mode stealth
- User-Agent acak dari daftar browser populer
- Header yang benar: Accept-Language, Referer, Accept-Encoding
- Pelaksanaan JavaScript, pemuatan gambar
- Emulasi scrolling dan gerakan mouse (untuk Cian)
β Penanganan kesalahan:
- Penyelesaian captcha otomatis melalui 2Captcha atau Anti-Captcha
- Pencobaan ulang saat terjadi kesalahan (maksimum 3 percobaan)
- Logging IP yang diblokir dan pengecualian dari kumpulan
- Monitoring keberhasilan permintaan (harus > 95%)
β Optimasi kinerja:
- Pengambilan data paralel: 3-5 thread dengan IP berbeda secara bersamaan
- Penyimpanan iklan yang sudah diambil (memeriksa berdasarkan ID)
- Pengambilan data di malam hari (beban lebih rendah pada situs, lebih sedikit pemeriksaan)
- Pembaruan daftar proxy secara teratur (sekali seminggu)
Kesalahan umum saat pengambilan data properti
Hindari kesalahan umum ini yang dapat menyebabkan pemblokiran:
- Penggunaan proxy gratis: Mereka sudah diblokir di 99% situs, lambat dan tidak dapat diandalkan. Menghemat biaya pada proxy akan mengakibatkan kehilangan waktu dan data.
- Permintaan yang terlalu cepat: Jeda kurang dari 1 detik antara permintaan β tanda jelas bot. Bahkan dengan proxy, Anda akan mendapatkan pemblokiran.
- User-Agent yang sama untuk semua IP: Jika 50 IP berbeda menggunakan User-Agent langka yang sama β ini mencurigakan. Rotasi User-Agent bersamaan dengan IP.
- Pengabaian pemantauan regional: Pengambilan iklan dari Yekaterinburg dengan IP dari Moskow terlihat aneh. Gunakan proxy dari wilayah yang tepat.
- Ketidakadaan penanganan captcha: Bahkan dengan pengaturan yang benar, captcha dapat muncul. Tanpa penyelesaian otomatis, parser akan terhenti.
- Pengambilan data di waktu puncak: Dari 10:00 hingga 20:00, situs mengalami puncak aktivitas dan kewaspadaan maksimum dari sistem anti-bot. Lakukan pengambilan data di malam hari atau pagi-pagi sekali.
Monitoring dan analitik pengambilan data
Atur pemantauan metrik kunci untuk mengontrol kualitas pengambilan data:
| Metrik | Nilai Normal | Masalah |
|---|---|---|
| Keberhasilan permintaan | > 95% | < 90% β masalah dengan proxy atau pemblokiran |
| Waktu respons rata-rata | 1-3 detik | > 5 detik β proxy lambat, perlu diganti |
| Frekuensi captcha | < 5% | > 10% β pengambilan data terlalu agresif, tingkatkan jeda |
| IP yang diblokir | < 2% dari kumpulan | > 5% β masalah dengan kualitas proxy atau pengaturan |
| Iklan yang dikumpulkan per jam | 500-2000 (tergantung pengaturan) | < 100 β terlalu lambat, optimalkan jeda |
Secara teratur analisis log parser, lacak IP yang diblokir, optimalkan pengaturan berdasarkan statistik. Pengambilan data bukanlah "atur dan lupakan", tetapi proses pemantauan dan perbaikan yang berkelanjutan.
Kesimpulan
Pengambilan data properti dari Cian, Avito, dan platform lainnya adalah tugas yang kompleks, yang memerlukan pemilihan proxy yang tepat, pengaturan rotasi yang cerdas, dan emulasi perilaku pengguna yang nyata. Tanpa proxy berkualitas, pengumpulan data dalam jumlah besar tidak mungkin dilakukan β IP Anda akan diblokir hanya dalam 10-15 menit kerja.
Kesimpulan kunci dari panduan ini:
- Untuk pengambilan data dari situs yang dilindungi (Cian, Avito), gunakan hanya proxy residensial β pusat data diblokir dalam 90% kasus
- Atur rotasi IP setiap 10-15 menit atau 80-100 permintaan untuk distribusi beban
- Emulasi pengguna nyata: jeda acak, header yang benar, pelaksanaan JavaScript
- Gunakan proxy dari wilayah yang tepat untuk pengambilan data iklan regional
- Monitor metrik pengambilan data dan optimalkan pengaturan berdasarkan statistik
Jika Anda berencana untuk secara profesional terlibat dalam pengambilan data properti atau mengumpulkan data untuk analisis pasar, kami merekomendasikan untuk mencoba proxy residensial β mereka memberikan anonimitas maksimum, stabilitas, dan risiko pemblokiran minimal. Untuk tugas dengan perlindungan yang sangat ketat, gunakan proxy seluler dengan IP dari operator Rusia.
Pengaturan proxy dan parser yang benar akan memungkinkan Anda untuk mengumpulkan puluhan ribu iklan setiap hari, melacak dinamika harga, menganalisis pasar properti, dan membuat keputusan investasi yang terinformasi β tanpa pemblokiran, captcha, dan kehilangan data.