Kembali ke blog

Cara Mengurangi Penggunaan Traffic Proxy hingga 70% Melalui Caching: Panduan untuk Parsing dan Automatisasi

Pelajari cara mengatur caching data dengan benar untuk mengurangi biaya proxy saat melakukan parsing marketplace, memantau harga, dan mengotomatiskan tugas rutin.

📅8 Februari 2026
```html

Jika Anda secara rutin melakukan parsing Wildberries, memantau harga pesaing di Ozon, atau mengotomatiskan pengumpulan data — Anda tahu bahwa biaya proxy dapat berdampak serius pada anggaran. Permintaan ke halaman yang sama, pengunduhan ulang data statis, pembaruan informasi yang tidak berubah — semua ini menghabiskan trafik dan uang. Solusinya sederhana: cache data yang diatur dengan benar dapat mengurangi beban pada proxy hingga 50-70% tanpa kehilangan relevansi informasi.

Dalam panduan ini, kita akan membahas cara praktis untuk caching untuk berbagai tugas: dari parsing marketplace hingga pemantauan pesaing. Anda akan mengetahui data apa yang dapat di-cache dengan aman, cara mengatur waktu penyimpanan, dan alat apa yang dapat digunakan tanpa keterampilan pemrograman.

Mengapa caching sangat penting untuk bekerja dengan proxy

Bayangkan situasi: Anda memantau harga 500 produk di Wildberries setiap jam. Tanpa caching, parser Anda melakukan 500 permintaan melalui proxy setiap jam — itu 12.000 permintaan dalam sehari. Dengan biaya rata-rata proxy residensial, ini menjadi biaya yang signifikan, terutama jika sebagian besar data tidak berubah sama sekali.

Statistik menunjukkan bahwa saat melakukan parsing marketplace, hingga 60-70% permintaan mengembalikan data yang identik: deskripsi produk tidak berubah, spesifikasi tetap sama, gambar statis. Hanya harga, stok, dan posisi dalam hasil pencarian yang berubah. Jika Anda meng-cache data statis dan hanya memperbarui yang dinamis — penghematan trafik dapat mencapai 50-70%.

Contoh nyata: Toko online memantau harga 1200 produk pesaing di Ozon tanpa caching — pengeluaran 28.800 permintaan dalam sehari. Setelah menerapkan caching data statis (deskripsi, spesifikasi) dengan pembaruan setiap 7 hari dan caching harga setiap 1 jam — pengeluaran turun menjadi 9.600 permintaan. Penghematan trafik proxy mencapai 67%.

Caching menyelesaikan tiga masalah kunci:

  • Pengurangan biaya trafik proxy — lebih sedikit permintaan = lebih sedikit biaya untuk gigabyte
  • Pengurangan risiko pemblokiran — lebih sedikit permintaan ke situs target = lebih rendah kemungkinan diblokir karena frekuensi
  • Mempercepat kerja parser — data dari cache diberikan secara instan, tanpa penundaan pada permintaan jaringan

Data apa yang dapat di-cache saat melakukan parsing

Tidak semua data cocok untuk caching. Penting untuk membedakan informasi menjadi statis (jarang berubah) dan dinamis (sering diperbarui). Strategi caching yang salah akan menghasilkan data yang usang atau tidak ada penghematan.

Tipe Data Frekuensi Pembaruan Waktu Cache Penghematan Trafik
Deskripsi Produk Sekali sebulan 7-14 hari Hingga 80%
Spesifikasi dan Parameter Sekali sebulan 7-14 hari Hingga 75%
Gambar Produk Setiap 2-4 minggu 14-30 hari Hingga 90%
Ulasan Pelanggan Setiap hari 12-24 jam Hingga 50%
Harga Produk Beberapa kali sehari 1-3 jam Hingga 40%
Stok di Gudang Setiap jam 30-60 menit Hingga 30%
Posisi dalam Hasil Pencarian Selalu Tidak di-cache 0%

Aturan emas: semakin jarang data berubah, semakin lama mereka dapat disimpan dalam cache. Deskripsi produk di Wildberries atau Ozon diperbarui sangat jarang — mereka dapat dengan aman di-cache selama satu atau dua minggu. Harga berubah lebih sering, tetapi bahkan di sini, caching selama 1-3 jam akan memberikan penghematan yang signifikan jika Anda tidak memerlukan pemantauan waktu nyata.

Strategi caching untuk berbagai tugas

Caching yang efektif bukan hanya "menyimpan data selama sehari". Untuk setiap tugas diperlukan strategi tersendiri yang mempertimbangkan keseimbangan antara relevansi data dan penghematan trafik. Mari kita lihat pendekatan yang terbukti untuk skenario umum.

Caching Berlapis

Strategi yang paling efektif adalah membagi data menjadi beberapa tingkat dengan waktu penyimpanan yang berbeda. Ini memungkinkan untuk meminimalkan beban pada proxy sambil menjaga relevansi data yang kritis.

Contoh caching berlapis untuk parsing Wildberries:

  • Tingkat 1 (30 hari): Gambar produk, merek, kategori
  • Tingkat 2 (7 hari): Deskripsi, spesifikasi, komposisi
  • Tingkat 3 (24 jam): Peringkat, jumlah ulasan
  • Tingkat 4 (2 jam): Harga, diskon, promosi
  • Tanpa cache: Stok di gudang, posisi dalam hasil pencarian

Dengan strategi ini, untuk 1000 produk, alih-alih 1000 permintaan setiap 2 jam, Anda melakukan sekitar 300-350 permintaan: sebagian besar data diambil dari cache, hanya permintaan untuk harga dan stok baru yang dilakukan melalui proxy.

Caching dengan Pemeriksaan Perubahan

Pendekatan yang lebih maju adalah menggunakan permintaan bersyarat. Alih-alih memuat seluruh halaman, Anda mengirim permintaan ringan untuk memeriksa: apakah data telah berubah sejak terakhir kali. Jika tidak — gunakan cache, jika ya — muat pembaruan.

Banyak situs mendukung header HTTP untuk permintaan bersyarat: If-Modified-Since atau ETag. Jika halaman tidak berubah, server akan mengembalikan kode 304 (Not Modified) tanpa tubuh respons — Anda menghemat 95% trafik pada permintaan ini.

Pembaruan Cache yang Cerdas

Alih-alih memperbarui semua data sesuai jadwal, perbarui hanya yang kemungkinan besar telah berubah. Misalnya, jika produk terlibat dalam promosi — periksa harga setiap jam. Jika produk biasa tidak berubah selama 2 minggu terakhir — periksa sekali sehari.

Tip: Lacak riwayat perubahan. Jika harga produk berubah setiap hari — kurangi waktu cache menjadi 1 jam. Jika harga stabil selama sebulan — tingkatkan menjadi 6-12 jam. Caching adaptif dapat memberikan penghematan tambahan 20-30%.

Alat caching tanpa pemrograman

Untuk mengatur caching tidak perlu menjadi programmer. Alat parsing dan otomatisasi modern memiliki fungsi caching bawaan yang dapat diatur melalui antarmuka grafis.

Octoparse — parser dengan pembuat visual

Octoparse — alat populer untuk parsing situs tanpa kode. Dalam pengaturan tugas, ada bagian "Advanced Settings" → "Cache Management", di mana Anda dapat menentukan:

  • Elemen halaman mana yang akan di-cache (gambar, blok teks, tabel)
  • Waktu penyimpanan cache (dari 1 jam hingga 30 hari)
  • Ketentuan pembaruan (sesuai jadwal atau saat perubahan pada bidang tertentu)

Contoh pengaturan untuk parsing Ozon: kita meng-cache blok dengan deskripsi produk selama 7 hari, blok dengan harga — selama 2 jam. Octoparse secara otomatis akan melewatkan permintaan untuk deskripsi jika sudah ada di cache, dan hanya memperbarui harga melalui proxy.

ParseHub — caching untuk situs yang kompleks

ParseHub berspesialisasi dalam parsing situs dengan konten dinamis (JavaScript, AJAX). Di bagian "Project Settings" ada opsi "Data Caching":

  • Smart Cache — secara otomatis menentukan elemen statis dan meng-cache mereka
  • Custom Cache Rules — Anda secara manual menentukan pemilih CSS untuk elemen yang akan di-cache
  • Cache Duration — waktu hidup cache dari 30 menit hingga 90 hari

ParseHub bekerja dengan baik dengan marketplace yang banyak menggunakan JavaScript: Wildberries, AliExpress, Yandex.Market. Alat ini secara otomatis menentukan data mana yang dimuat secara dinamis dan meng-cache permintaan yang berulang.

Screaming Frog — untuk spesialis SEO

Jika Anda menggunakan Screaming Frog untuk menganalisis situs pesaing atau memantau posisi, caching bawaan akan menghemat banyak trafik. Dalam pengaturan "Configuration" → "Spider" → "Advanced", aktifkan:

  • Cache Pages — menyimpan HTML halaman secara lokal
  • Cache Images & CSS — tidak memuat ulang sumber statis
  • Use Cached Data — saat pemindaian ulang menggunakan data yang disimpan

Sangat berguna saat secara teratur memantau situs yang sama: pemindaian pertama memuat semuanya melalui proxy, pemindaian berikutnya — hanya halaman yang berubah.

Caching saat melakukan parsing marketplace

Marketplace adalah tugas paling populer untuk parsing di antara bisnis e-commerce. Wildberries, Ozon, Yandex.Market memiliki struktur data yang serupa, yang memungkinkan penerapan strategi caching yang universal.

Parsing Wildberries dengan pengeluaran trafik minimal

Tugas umum: memantau 500 produk pesaing. Tanpa caching — 500 permintaan setiap 2 jam = 6000 permintaan dalam sehari. Dengan cache yang benar — hingga 1500-2000 permintaan dalam sehari.

Langkah-langkah pengaturan cache untuk Wildberries:

  1. Permintaan pertama untuk produk: simpan kartu lengkap (deskripsi, spesifikasi, gambar) di database lokal atau file JSON
  2. Ekstrak dan simpan secara terpisah artikel produk — ini adalah pengidentifikasi unik
  3. Pada permintaan berikutnya: periksa apakah artikel ada di cache dan apakah waktu penyimpanan telah habis
  4. Jika cache masih berlaku: ambil deskripsi dan spesifikasi dari cache, melalui proxy hanya meminta blok harga dan stok (ini adalah endpoint API terpisah di Wildberries)
  5. Gabungkan data yang di-cache dengan harga terbaru — dapatkan informasi lengkap yang relevan

Wildberries memberikan harga dan stok melalui permintaan API ringan terpisah (sekitar 2-5 KB dibandingkan 200-500 KB untuk halaman penuh). Jika Anda meng-cache bagian yang berat dan hanya meminta harga — penghematan trafik mencapai 90-95%.

Optimasi parsing Ozon

Ozon memiliki perlindungan yang lebih agresif terhadap parsing, sehingga setiap permintaan yang tidak perlu meningkatkan risiko pemblokiran. Caching di sini tidak hanya menghemat uang, tetapi juga mengurangi kemungkinan diblokir.

Fitur Ozon: kartu produk sering kali berisi blok yang sama (deskripsi merek, spesifikasi standar kategori). Jika Anda melakukan parsing 100 produk dari satu merek — deskripsi merek akan identik. Cache blok yang berulang ini secara terpisah:

  • Deskripsi merek → cache selama 30 hari
  • Spesifikasi standar kategori (misalnya, "Komposisi" untuk pakaian) → cache selama 14 hari
  • Deskripsi unik untuk produk tertentu → cache selama 7 hari
  • Harga dan ketersediaan → permintaan setiap 2-4 jam

Avito: caching iklan

Saat melakukan parsing Avito (memantau pesaing, melacak iklan baru) penting untuk mempertimbangkan bahwa iklan sering kali dihapus dari publikasi. Tidak ada gunanya menyimpan data iklan yang dihapus dalam cache.

Strategi: hanya cache iklan aktif dan secara teratur periksa statusnya dengan permintaan ringan. Jika iklan dihapus — bersihkan cache. Ini akan mencegah penumpukan database dan mempercepat kerja parser.

Optimasi pemantauan harga pesaing

Pemantauan harga adalah tugas di mana caching memberikan efek maksimal. Harga tidak berubah setiap menit, tetapi perlu diperiksa secara teratur. Pengaturan cache yang benar memungkinkan Anda melacak perubahan tanpa permintaan yang tidak perlu.

Frekuensi pemeriksaan adaptif

Tidak semua produk memerlukan frekuensi pemantauan yang sama. Produk dengan harga dinamis (elektronik, barang diskon) perlu diperiksa lebih sering. Produk dengan harga stabil (bahan bangunan, furnitur) — lebih jarang.

Contoh caching harga adaptif:

  • Produk dengan perubahan harga dalam 7 hari terakhir → pemeriksaan setiap 2 jam, cache 2 jam
  • Produk tanpa perubahan 7-30 hari → pemeriksaan setiap 6 jam, cache 6 jam
  • Produk tanpa perubahan lebih dari 30 hari → pemeriksaan sekali sehari, cache 24 jam

Pendekatan ini mengurangi jumlah permintaan sebesar 40-60% dibandingkan dengan frekuensi pemeriksaan tetap. Saat memantau 1000 produk, alih-alih 12.000 permintaan dalam sehari (setiap 2 jam), Anda hanya melakukan 5000-7000.

Caching dengan pemberitahuan perubahan

Alih-alih terus memperbarui semua harga, atur sistem: periksa harga sesuai jadwal, tetapi perbarui cache hanya saat ada perubahan. Jika harga tidak berubah — perpanjang masa berlaku cache saat ini tanpa permintaan baru ke situs.

Banyak parser (Octoparse, ParseHub) mendukung mode "Update only if changed". Alat ini melakukan permintaan, membandingkan data baru dengan cache, dan jika tidak ada perbedaan — tidak menimpa cache, tetapi hanya memperbarui waktu pemeriksaan terakhir.

Kesalahan umum saat mengatur cache

Caching yang salah dapat menyebabkan data usang, kehilangan informasi penting, atau sebaliknya, tidak ada penghematan. Mari kita bahas kesalahan umum dan cara menghindarinya.

Kesalahan 1: Cache terlalu lama untuk data dinamis

Caching harga selama 24 jam saat memantau pesaing — ide yang buruk. Dalam sehari, harga dapat berubah 3-5 kali, terutama di niche yang sangat kompetitif. Anda akan mendapatkan penghematan trafik, tetapi kehilangan relevansi data.

Solusi: Tentukan frekuensi perubahan data yang sebenarnya. Lakukan tes: pantau 50-100 produk setiap jam selama seminggu dan lihat seberapa sering harga berubah. Berdasarkan ini, pilih waktu cache yang optimal.

Kesalahan 2: Caching tanpa versi

Jika Anda hanya menimpa cache pada setiap pembaruan, Anda kehilangan riwayat perubahan. Ini kritis untuk analisis dinamika harga: tidak mungkin membangun grafik perubahan harga selama sebulan jika data lama dihapus.

Solusi: Simpan versi cache dengan stempel waktu. Misalnya, alih-alih file product_12345.json, buat product_12345_2024-01-15.json. Ini akan memungkinkan analisis riwayat dan jika perlu, kembali ke versi data sebelumnya.

Kesalahan 3: Mengabaikan ukuran cache

Caching ribuan produk dengan halaman HTML lengkap akan cepat mengisi disk. Cache untuk 10.000 produk dapat memakan 5-10 GB jika menyimpan halaman lengkap dengan gambar dan skrip.

Solusi: Cache hanya data yang diperlukan. Alih-alih menyimpan seluruh halaman HTML, ekstrak bidang tertentu (nama, harga, deskripsi) dan simpan dalam format terstruktur (JSON, CSV). Ini akan mengurangi ukuran cache 10-20 kali.

Tip: Atur pembersihan otomatis untuk cache yang usang. Data yang lebih dari 30-90 hari biasanya tidak diperlukan untuk pekerjaan saat ini — arsipkan secara terpisah atau hapus. Ini akan mempercepat kerja parser dan membebaskan ruang di disk.

Kesalahan 4: Tidak ada penanganan kesalahan cache

Jika cache rusak (gagal menulis, kesalahan disk), parser dapat menggunakan data yang tidak benar atau bahkan gagal. Ini sangat kritis saat pemantauan otomatis: Anda dapat menerima data usang selama beberapa hari tanpa menyadarinya.

Solusi: Tambahkan pemeriksaan integritas cache. Simpan checksum (hash) data bersama dengan cache. Saat membaca, periksa: jika hash tidak cocok — cache rusak, perlu permintaan baru melalui proxy.

Kesimpulan

Caching yang diatur dengan benar adalah cara sederhana untuk mengurangi biaya proxy hingga 50-70% tanpa kehilangan kualitas data. Prinsip kunci: pisahkan data menjadi statis dan dinamis, gunakan caching berlapis dengan waktu penyimpanan yang berbeda, sesuaikan frekuensi pembaruan dengan dinamika perubahan yang sebenarnya.

Untuk sebagian besar tugas parsing marketplace dan pemantauan harga, tidak diperlukan solusi teknis yang rumit — alat modern seperti Octoparse atau ParseHub memiliki fungsi caching bawaan yang dapat diatur dalam 10-15 menit melalui antarmuka grafis.

Mulailah dengan yang sederhana: cache deskripsi produk selama seminggu, harga — selama 2-3 jam. Lacak hasil selama seminggu dan sesuaikan pengaturan berdasarkan statistik perubahan yang sebenarnya. Bahkan caching dasar dapat memberikan penghematan 30-40% trafik, dan yang dioptimalkan — hingga 70%.

Jika Anda terlibat dalam parsing marketplace atau pemantauan harga pesaing, kami merekomendasikan menggunakan proxy residensial bersamaan dengan caching — ini akan memastikan operasi yang stabil tanpa pemblokiran dan biaya trafik yang minimal. Untuk tugas yang memerlukan kecepatan dan volume data yang besar, proxy data center akan lebih cepat dan lebih murah dengan pengaturan rotasi dan cache yang tepat.

```