Ozon — salah satu marketplace yang paling aman di Runet: sistem anti-bot, captcha, batasan permintaan, dan pemblokiran berdasarkan IP menjadikan pengumpulan data otomatis sebagai tantangan nyata. Jika Anda memantau harga pesaing, menganalisis variasi produk, atau mengumpulkan ulasan untuk analisis — tanpa proxy yang diatur dengan baik, parser Anda akan diblokir dalam beberapa menit. Dalam panduan ini, kita akan membahas jenis proxy yang cocok untuk Ozon, cara mengaturnya dengan benar, dan kesalahan apa yang dapat menghancurkan proyek pengumpulan data.
Mengapa Ozon memblokir parsing: bagaimana perlindungan bekerja
Sebelum mengatur proxy, penting untuk memahami apa yang akan Anda hadapi. Ozon menggunakan sistem perlindungan multi-level terhadap permintaan otomatis, dan setiap elemen perlu dipertimbangkan saat membangun parser.
Pembatasan laju — batasan frekuensi permintaan
Jika lebih dari 30–50 permintaan per menit datang dari satu alamat IP, Ozon mulai mengembalikan kesalahan 429 (Terlalu Banyak Permintaan) atau memblokir IP sepenuhnya. Untuk pengguna biasa, frekuensi permintaan seperti itu tidak ada — artinya, ini adalah bot. Itulah sebabnya satu server proxy tidak cukup: Anda memerlukan kumpulan puluhan atau ratusan alamat IP dengan rotasi.
Analisis User-Agent dan header HTTP
Sistem Ozon memeriksa header setiap permintaan. Jika User-Agent terlihat seperti skrip (misalnya, python-requests/2.28), permintaan akan diblokir seketika. Anda perlu meniru header dari browser nyata: User-Agent yang benar, Accept-Language, Accept-Encoding, Referer.
Fingerprinting browser
Di halaman Ozon, JavaScript berfungsi untuk mengumpulkan sidik jari browser: resolusi layar, font yang terpasang, WebGL, Canvas. Jika Anda melakukan parsing melalui browser headless (Puppeteer, Playwright) tanpa penyamaran — sistem akan mendeteksinya. Oleh karena itu, penting untuk menggunakan alat dengan mode stealth atau melakukan parsing melalui API tanpa merender JS.
Geoblocking dan pemeriksaan reputasi IP
Ozon adalah marketplace Rusia, dan ia mengharapkan permintaan dari alamat IP Rusia. Jika Anda terhubung melalui proxy data center dari Jerman atau AS, itu langsung menimbulkan kecurigaan. Selain itu, alamat IP dari data center sering kali terdaftar dalam basis data sistem anti-bot (Cloudflare, DataDome) — itulah sebabnya untuk Ozon Anda memerlukan IP residensial atau seluler Rusia.
Kesimpulan: apa yang memblokir Ozon
- IP dari data center dan server VPN (terdaftar dalam daftar hitam)
- Frekuensi permintaan yang terlalu tinggi dari satu IP
- Header HTTP yang tidak realistis (User-Agent skrip)
- Alamat IP asing untuk marketplace Rusia
- Ketiadaan cookies dan data sesi
Jenis proxy yang cocok untuk Ozon: perbandingan jenis
Tidak semua proxy dapat menangani perlindungan Ozon dengan baik. Mari kita bahas tiga jenis utama dan penerapannya untuk tugas di marketplace ini.
| Jenis proxy | Bagaimana terlihat untuk Ozon | Kecepatan | Risiko pemblokiran | Cocok untuk Ozon? |
|---|---|---|---|---|
| Data Center | IP hosting/cloud | Sangat tinggi | Tinggi | ⚠️ Hanya untuk tugas ringan |
| Residen | IP pengguna rumah | Sedang | Rendah | ✅ Sangat baik |
| Seluler | IP operator seluler | Sedang | Minimal | ✅ Sempurna |
Proxy Residen — kuda kerja untuk Ozon
Proxy residen menggunakan alamat IP dari pengguna rumah nyata. Untuk Ozon, permintaan seperti itu terlihat seperti orang biasa yang mengunjungi situs melalui internet rumah. Sistem anti-bot tidak melihat tanda-tanda otomatisasi pada tingkat IP. Ini menjadikan proxy residen sebagai pilihan utama untuk parsing skala besar: pemantauan harga untuk ribuan SKU, pengumpulan kartu produk, analisis variasi pesaing.
Keuntungan utama — kumpulan besar alamat IP dengan kemampuan memilih geolokasi Rusia. Ozon mengharapkan permintaan dari alamat Rusia, dan proxy residen dengan geotargeting ke Rusia memberikan tingkat kecurigaan yang minimal.
Proxy Seluler — keandalan maksimum
Proxy seluler bekerja melalui IP operator seluler (MTS, Beeline, MegaFon, Tele2). Ini adalah jenis lalu lintas yang paling "bersih" dari sudut pandang sistem anti-bot: IP seluler hampir tidak pernah masuk dalam daftar hitam, dan satu IP dapat digunakan oleh ribuan pengguna nyata secara bersamaan. Jika IP residen diblokir — itu mencurigakan. Jika IP seluler diblokir — Ozon berisiko memutus ribuan pembeli nyata, yang tidak menguntungkan bagi mereka.
Proxy seluler sangat baik untuk tugas yang memerlukan keandalan tinggi: pengumpulan ulasan, pemantauan promosi dan penjualan secara real-time.
Proxy Data Center — hanya untuk tugas sederhana
Proxy data center bekerja dengan cepat dan lebih murah, tetapi penggunaannya untuk Ozon terbatas. Sebagian besar IP semacam itu sudah terdaftar dalam basis data sistem anti-bot. Mereka dapat digunakan untuk tugas sekali pakai dengan frekuensi permintaan rendah — misalnya, memeriksa ketersediaan produk tertentu sekali dalam satu jam. Untuk pemantauan skala besar yang teratur, mereka tidak cocok.
Skenario penggunaan: harga, produk, ulasan
Tugas pengumpulan data dari Ozon bervariasi, dan masing-masing memerlukan strategi tersendiri. Mari kita bahas tiga skenario utama.
📊 Pemantauan harga pesaing
Ini adalah skenario paling populer di kalangan penjual. Tugas: memantau harga untuk ratusan atau ribuan posisi pesaing, agar dapat segera menyesuaikan penetapan harga sendiri. Ozon sering mengubah harga beberapa kali dalam sehari — terutama selama promosi.
Persyaratan untuk proxy: diperlukan kumpulan 50–200 IP residen dengan geolokasi Rusia. Permintaan harus dilakukan dengan jeda 2–5 detik antara setiap permintaan, dan IP harus berubah setelah setiap 5–10 permintaan. Dengan mode ini, parser dapat memproses 500–1000 kartu produk per jam tanpa pemblokiran.
Apa yang harus dikumpulkan: harga saat ini, harga sebelum diskon, ketersediaan di gudang, peringkat penjual, jumlah ulasan, status partisipasi dalam promosi Ozon.
🛍️ Pengumpulan data tentang produk dan variasi
Analis dan pemasar mengumpulkan data tentang variasi: kategori mana yang tumbuh, produk mana yang muncul di pencarian teratas, bagaimana jumlah penjual dalam niche berubah. Ini adalah tugas yang lebih besar — perlu menjelajahi ribuan halaman katalog.
Persyaratan untuk proxy: kumpulan minimal 200 IP dengan rotasi. Penting untuk menggunakan sesi lengket (ketika satu IP "terikat" pada satu sesi selama beberapa menit), untuk menjelajahi pagination dengan benar — jika tidak, saat mengganti IP di halaman katalog berikutnya, Anda dapat mendapatkan hasil yang berbeda.
Apa yang harus dikumpulkan: nama produk, artikel (SKU), kategori, merek, deskripsi, spesifikasi, foto, jumlah penjual, posisi dalam pencarian.
⭐ Parsing ulasan dan peringkat
Ulasan adalah sumber data yang berharga untuk menganalisis preferensi konsumen, mencari kelemahan pesaing, dan meningkatkan produk sendiri. Halaman ulasan di Ozon dilindungi dengan sangat baik: untuk memuatnya, diperlukan JavaScript, dan data sering dimuat melalui permintaan AJAX.
Persyaratan untuk proxy: untuk parsing ulasan, proxy seluler dengan IP Rusia adalah yang paling cocok. Karena setiap halaman ulasan memerlukan beberapa permintaan (halaman utama + AJAX untuk memuat konten), IP seluler memberikan stabilitas sesi.
Apa yang harus dikumpulkan: teks ulasan, penilaian (1–5 bintang), tanggal publikasi, kegunaan ulasan (like), tanggapan penjual, foto dalam ulasan, pembelian terverifikasi.
Rotasi IP dan manajemen sesi: cara menghindari pemblokiran
Bahkan dengan proxy yang baik, Anda bisa mendapatkan pemblokiran jika tidak mengelola sesi dan rotasi dengan benar. Ini adalah salah satu aspek teknis kunci dari parsing Ozon.
Dua mode rotasi: rotating vs sticky
Rotating (rotasi acak) — setiap permintaan dilakukan dengan IP baru. Ini baik untuk permintaan independen: misalnya, ketika Anda memeriksa harga untuk produk tertentu. Ozon tidak melihat hubungan antara permintaan.
Sticky sessions (sesi lengket) — satu IP digunakan untuk beberapa permintaan berturut-turut dalam satu "sesi" (biasanya 1–30 menit). Ini diperlukan ketika Anda menjelajahi pagination katalog, mengumpulkan beberapa halaman ulasan untuk satu produk, atau bekerja dengan keranjang/otentikasi. Pergantian IP yang tiba-tiba di tengah sesi terlihat mencurigakan.
Aturan jeda antara permintaan
| Jenis tugas | Jeda antara permintaan | Ganti IP |
|---|---|---|
| Pemantauan harga (1000+ SKU) | 2–4 detik | Setiap 5–10 permintaan |
| Menjelajahi katalog (pagination) | 3–6 detik | Setiap 20–30 halaman |
| Pengumpulan ulasan | 4–8 detik | Setiap produk — IP baru |
| Pemeriksaan ketersediaan sekali pakai | 1–2 detik | Setiap permintaan |
Manajemen cookies dan data sesi
Ozon melacak cookies: jika setiap permintaan datang tanpa cookies atau dengan cookies baru, itu adalah tanda bot. Disarankan untuk "memanaskan" sesi saat pertama kali mengunjungi dari IP baru — pertama-tama muat halaman utama, lalu masuk ke kategori, dan hanya kemudian meminta data yang diperlukan. Ini meniru perilaku pengguna nyata dan mengurangi risiko pemblokiran hingga 3–5 kali.
Pengaturan proxy untuk parsing Ozon: instruksi langkah demi langkah
Mari kita bahas pengaturan praktis dengan menggunakan contoh alat populer. Kita mulai dengan konfigurasi dasar yang cocok untuk sebagian besar skenario.
Langkah 1. Dapatkan data proxy
Setelah menghubungkan proxy residen atau seluler, Anda akan menerima data untuk koneksi dalam format:
host: proxy.example.com port: 8080 username: your_username password: your_password protocol: HTTP / HTTPS / SOCKS5
Untuk Ozon, disarankan untuk menggunakan protokol HTTPS atau SOCKS5. SOCKS5 lebih disukai jika alat Anda mendukungnya — ia mengirimkan lebih sedikit header yang mengidentifikasi.
Langkah 2. Atur geotargeting ke Rusia
Di pengaturan layanan proxy, pilih negara: Rusia (RU). Untuk beberapa tugas, kota tertentu penting — misalnya, jika Anda ingin melihat harga dengan mempertimbangkan pengiriman ke Moskow atau St. Petersburg. Dalam hal ini, pilih geotargeting pada tingkat kota.
Jika layanan menyediakan endpoint dengan parameter geolokasi di URL, itu terlihat seperti ini:
proxy.example.com:8080?country=ru&city=moscow&session=random
Langkah 3. Atur header HTTP yang benar
Ini adalah langkah yang sangat penting. Permintaan ke Ozon harus terlihat seperti permintaan dari browser nyata Chrome di Windows. Setidaknya, header yang diperlukan adalah:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Langkah 4. Atur rotasi dan jeda
Di sebagian besar parser siap pakai dan alat tanpa kode, ada pengaturan jeda dan rotasi. Atur:
- Jeda antara permintaan: 3–5 detik (dapat menambahkan kebetulan: dari 2 hingga 7 detik)
- Rotasi IP: setiap 5–10 permintaan untuk pemantauan harga, setiap permintaan untuk pemeriksaan sekali pakai
- Timeout permintaan: 15–30 detik (Ozon kadang-kadang merespons lambat)
- Pengulangan saat terjadi kesalahan: 3 kali percobaan dengan IP baru saat menerima 403/429/503
Langkah 5. Periksa fungsi sebelum peluncuran
Sebelum meluncurkan parsing secara penuh, lakukan tes: buat 20–30 permintaan ke halaman Ozon yang berbeda dengan interval 5 detik. Jika semua permintaan mengembalikan status 200 dan HTML yang benar — pengaturan telah dilakukan dengan benar. Jika Anda melihat 403 atau pengalihan ke captcha — perlu menyesuaikan header atau mengganti jenis proxy.
Alat untuk parsing Ozon tanpa kode
Sebagian besar penjual dan analis tidak menulis parser dari awal. Ada alat siap pakai yang mendukung koneksi proxy dan tidak memerlukan keterampilan pemrograman.
Octoparse — parser visual dengan dukungan proxy
Octoparse adalah salah satu alat tanpa kode yang populer untuk parsing. Anda secara visual menunjukkan elemen di halaman yang perlu dikumpulkan, dan alat secara otomatis menghasilkan parser. Mendukung koneksi proxy melalui pengaturan tugas: masukkan alamat, port, login, dan kata sandi — dan alat akan secara otomatis merotasi IP.
Cara menghubungkan proxy di Octoparse: buka tugas → Pengaturan → Pengaturan Proxy → Tambah Proxy → masukkan data koneksi → pilih mode rotasi. Untuk Ozon, disarankan untuk menggunakan mode "Rotate IP for every N requests" dengan nilai 5–10.
ParseHub — parser cloud untuk situs yang kompleks
ParseHub bekerja dengan baik dengan halaman yang memuat data melalui JavaScript (yang relevan untuk Ozon). Mendukung penggunaan proxy dalam tarif berbayar. Alat ini memiliki browser bawaan yang merender JS — ini membantu mengumpulkan data yang tidak tersedia melalui permintaan HTTP biasa.
Layanan pemantauan harga khusus
Untuk tugas pemantauan harga di Ozon, ada solusi SaaS khusus: Priceva, Metacommerce, Price2Spy. Mereka sudah memiliki logika bawaan untuk menghindari perlindungan Ozon dan bekerja berdasarkan langganan. Jika tugas Anda hanya pemantauan harga tanpa data kustom, layanan semacam itu mungkin lebih nyaman daripada pengaturan parser dengan proxy secara mandiri.
n8n / Make (Integromat) — otomatisasi dengan permintaan HTTP
Untuk tugas yang tidak rumit — misalnya, memeriksa harga produk tertentu setiap jam — Anda dapat menggunakan platform otomatisasi n8n atau Make. Mereka mengirimkan permintaan HTTP ke Ozon dan mem-parsing respons sesuai template yang ditentukan. Proxy terhubung di pengaturan node HTTP: masukkan alamat proxy di kolom Proxy URL. Ini bukan cara yang paling kuat, tetapi cara yang paling sederhana untuk otomatisasi tanpa kode.
💡 Tip: gunakan Ozon API di mana pun memungkinkan
Ozon menyediakan Seller API resmi untuk penjual. Jika Anda adalah penjual terdaftar, sebagian data (pesanan, stok, analisis penjualan) dapat diperoleh melalui API tanpa proxy dan risiko pemblokiran. Parsing melalui proxy diperlukan untuk data yang tidak disediakan oleh API: harga pesaing, ulasan mereka, posisi dalam pencarian.
7 kesalahan utama saat parsing Ozon dan cara menghindarinya
Sebagian besar masalah dengan pemblokiran muncul karena kesalahan yang sama. Berikut adalah daftar hal yang pasti tidak perlu dilakukan — dan bagaimana memperbaikinya.
❌ Kesalahan 1: Menggunakan satu IP untuk semua permintaan
Bahkan IP yang "bersih" sekalipun akan diblokir jika mengirimkan 500 permintaan per jam. Solusi: kumpulan minimal 50 IP dengan rotasi.
❌ Kesalahan 2: Parsing tanpa jeda
Permintaan tanpa jeda adalah tanda paling jelas dari bot. Bahkan 1 detik antara permintaan secara signifikan mengurangi risiko pemblokiran. Optimal: 3–5 detik dengan variasi acak.
❌ Kesalahan 3: Menggunakan User-Agent default dari pustaka
python-requests/2.28.0 — ini akan langsung memicu pemblokiran. Selalu ganti User-Agent dengan yang terbaru dari Chrome.
❌ Kesalahan 4: Menggunakan IP asing untuk Ozon
Ozon adalah layanan Rusia. Permintaan dari IP Jerman atau Amerika menimbulkan kecurigaan. Selalu pilih geotargeting ke Rusia.
❌ Kesalahan 5: Mengabaikan kesalahan 429 dan terus mengirim permintaan
Jika menerima 429 — segera hentikan permintaan dari IP ini, tunggu 5–10 menit, ganti IP. Melanjutkan permintaan saat 429 mempercepat pemblokiran permanen IP.
❌ Kesalahan 6: Tidak menangani pengalihan ke captcha
Ozon terkadang mengalihkan ke halaman captcha alih-alih memblokir. Parser harus memeriksa bahwa HTML yang diterima berisi data yang diperlukan, bukan halaman captcha — dan dalam kasus captcha, ganti IP.
❌ Kesalahan 7: Parsing pada jam sibuk
Pada jam sibuk (malam, akhir pekan) Ozon lebih agresif dalam menyaring lalu lintas. Untuk tugas besar, rencanakan parsing pada jam malam atau pagi hari — beban pada server lebih rendah, dan sistem anti-bot kurang ketat.
Kesimpulan: cara membangun pengumpulan data yang stabil dari Ozon
Parsing Ozon bukanlah pengaturan sekali saja, tetapi pekerjaan berkelanjutan dengan infrastruktur. Marketplace secara teratur memperbarui perlindungan, mengubah struktur halaman, dan memperketat filter anti-bot. Pemantauan yang sukses dibangun di atas tiga pilar: jenis proxy yang benar, rotasi IP yang cerdas, dan simulasi perilaku pengguna nyata yang tepat.
Jika dirangkum secara singkat dari semua yang telah kita bahas:
- Untuk pemantauan harga dan variasi — gunakan proxy residen dengan geolokasi Rusia dan kumpulan minimal 50 IP
- Untuk pengumpulan ulasan dan tugas dengan persyaratan keandalan tinggi — proxy seluler dari operator Rusia
- Selalu atur jeda, rotasi, dan header HTTP yang benar
- Gunakan sesi lengket saat menjelajahi pagination
- Rencanakan tugas besar pada waktu malam
Jika Anda baru mulai membangun sistem pemantauan Ozon, kami merekomendasikan untuk memulai dengan proxy residen dengan IP Rusia — mereka memberikan keseimbangan antara biaya, kecepatan, dan keandalan untuk sebagian besar tugas pengumpulan data dari marketplace. Untuk tugas yang sangat penting, di mana setiap permintaan harus berhasil tanpa gangguan, pertimbangkan proxy seluler — mereka lebih mahal, tetapi hampir tidak pernah diblokir bahkan dengan penggunaan intensif.