Pengumpulan data melalui proxy adalah praktik umum bagi pemasar, analis, dan pemilik bisnis. Namun, di mana batas antara parsing yang legal dan pelanggaran hukum? Dalam artikel ini, kita membahas aspek hukum bekerja dengan data: apa yang dapat dikumpulkan, metode apa yang diizinkan, bagaimana tidak melanggar GDPR dan undang-undang Rusia tentang data pribadi.
Dasar Hukum Pengumpulan Data: Apa Kata Hukum
Pengumpulan data melalui proxy diatur oleh beberapa norma hukum tergantung pada yurisdiksi. Di Rusia, dokumen utama adalah Undang-Undang Federal No. 152-FZ "Tentang Data Pribadi", di Eropa — GDPR (General Data Protection Regulation), di AS — berbagai undang-undang industri dan hukum preseden.
Prinsip kunci: pengumpulan data itu sendiri tidak ilegal. Yang ilegal bisa jadi cara mendapatkan data, penggunaannya, atau pelanggaran hak pemilik situs. Proxy dalam konteks ini hanyalah alat teknis, seperti browser atau koneksi internet.
Penting untuk dipahami: Penggunaan proxy tidak secara otomatis membuat pengumpulan data ilegal. Proxy adalah sarana untuk menjaga privasi dan mengatasi batasan teknis (geoblocking, rate limits), bukan alat untuk kegiatan ilegal.
Hukum Rusia membedakan beberapa kategori data:
- Data Publik — informasi yang dipublikasikan secara terbuka tanpa batasan (harga di toko, berita, profil publik)
- Data Pribadi — informasi yang berkaitan dengan individu tertentu (nama, telepon, email, alamat)
- Rahasia Dagang — data yang memiliki nilai komersial dan dilindungi oleh pemiliknya
- Data Teknis — log, metrik, analitik, yang tidak mengandung informasi pribadi
Untuk setiap kategori terdapat aturan pengumpulan dan penggunaan yang berbeda. Misalnya, parsing harga pesaing di Wildberries atau Ozon adalah pengumpulan data publik yang tidak melanggar undang-undang data pribadi. Namun, pengumpulan alamat email pelanggan dari basis data orang lain sudah merupakan pelanggaran.
Data Publik: Apa yang Dapat Diparsing Tanpa Batasan
Data publik adalah informasi yang secara sadar dipublikasikan oleh pemilik situs dalam akses terbuka tanpa persyaratan otorisasi atau pembayaran. Pengumpulan data semacam itu melalui proxy sepenuhnya legal, asalkan norma teknis dan etika dipatuhi.
| Tipe Data | Contoh | Status Hukum |
|---|---|---|
| Harga Produk | Wildberries, Ozon, Yandex.Market | Legal |
| Deskripsi Produk | Spesifikasi, foto, ulasan | Legal (dengan mempertimbangkan hak cipta) |
| Berita dan Artikel | Situs media, blog | Legal (untuk analisis, bukan publikasi) |
| Lowongan Kerja | hh.ru, Avito Kerja | Legal |
| Iklan | Avito, Yula (tanpa kontak) | Legal |
| Cuaca dan Data Geografis | API terbuka, layanan cuaca | Legal |
Skenario umum penggunaan proxy yang legal untuk mengumpulkan data publik:
- Monitoring Harga Pesaing — penjual di marketplace setiap hari memantau harga melalui parser untuk tetap kompetitif
- Analisis Pasar Properti — agen mengumpulkan data tentang iklan di Avito dan CIAN untuk membentuk analisis
- Monitoring Lowongan Kerja — agensi HR memparse hh.ru untuk analisis gaji dan permintaan pasar
- Pengumpulan Berita — pemantauan media mengumpulkan publikasi untuk klien (agen PR, analis)
Untuk tugas-tugas semacam itu, biasanya digunakan proxy data center — mereka menyediakan kecepatan tinggi dan stabilitas saat memparse volume data besar. Yang terpenting adalah menjaga interval yang wajar antara permintaan untuk tidak membebani server secara berlebihan.
Data Pribadi: Di Mana Batas Merah
Data pribadi adalah informasi yang secara langsung atau tidak langsung berkaitan dengan individu tertentu. Pengumpulan data semacam itu diatur dengan ketat, dan di sini penting untuk memahami batasan yang diizinkan dengan jelas.
Menurut 152-FZ, data pribadi dianggap sebagai:
- Nama Lengkap
- Tanggal dan Tempat Lahir
- Alamat Tempat Tinggal
- Nomor Telepon
- Alamat Email
- Data Paspor
- Foto (jika dapat mengidentifikasi orang)
- Alamat IP (di beberapa yurisdiksi)
Dilarang: Pengumpulan data pribadi tanpa persetujuan subjek data atau tanpa dasar hukum. Misalnya, parsing nomor telepon dan email dari profil media sosial untuk pengiriman — ini adalah pelanggaran langsung terhadap 152-FZ dengan denda hingga 500.000 rubel.
Namun, ada pengecualian di mana pengumpulan data pribadi adalah legal:
- Data Dipublikasikan oleh Subjek Secara Publik — jika seseorang sendiri mempublikasikan nomor teleponnya dalam iklan di Avito, Anda dapat melihatnya dan menggunakannya untuk menghubungi melalui iklan tersebut
- Pengolahan untuk Tujuan Jurnalisme — media dapat mengumpulkan data publik untuk menyiapkan materi
- Tujuan Statistik dan Penelitian — jika data tidak dapat diidentifikasi dan tidak memungkinkan untuk mengidentifikasi individu tertentu
- Ada Persetujuan Jelas — orang tersebut memberikan persetujuan tertulis untuk pengolahan datanya
Contoh praktis untuk pemasar: Anda dapat mengumpulkan daftar perusahaan dan nomor telepon mereka dari sumber publik (situs perusahaan, direktori 2GIS). Namun, Anda TIDAK dapat memparse nomor telepon pribadi karyawan dari profil VK atau Instagram mereka untuk panggilan dingin — ini adalah pelanggaran.
| Skenario | Legalitas | Komentar |
|---|---|---|
| Parsing nomor telepon dari iklan Avito | Legal | Data dipublikasikan secara publik untuk dihubungi |
| Parsing email dari profil LinkedIn | Zona Abu-abu | Melanggar ToS LinkedIn, tetapi tidak selalu ilegal |
| Pengumpulan nama dan nomor telepon dari grup tertutup VK | Dilarang | Pelanggaran 152-FZ dan ToS |
| Parsing kontak perusahaan dari 2GIS | Legal | Direktori publik |
| Pengumpulan email dari situs perusahaan untuk pengiriman B2B | Legal | Kontak dipublikasikan untuk dihubungi |
GDPR dan Persyaratan Internasional dalam Bekerja dengan Proxy
Jika Anda mengumpulkan data dari situs yang ditujukan untuk audiens Eropa, atau perusahaan Anda bekerja dengan klien dari UE, Anda harus mematuhi persyaratan GDPR (General Data Protection Regulation). Denda untuk pelanggaran dapat mencapai 20 juta euro atau 4% dari omset tahunan perusahaan.
Prinsip kunci GDPR yang penting saat mengumpulkan data:
- Kepatuhan, Keadilan, dan Transparansi — pengumpulan data harus memiliki dasar hukum (persetujuan, kontrak, kepentingan hukum)
- Tujuan Terbatas — data hanya dikumpulkan untuk tujuan tertentu yang dinyatakan
- Minimisasi Data — kumpulkan hanya data yang benar-benar diperlukan
- Akurasinya — data harus akurat dan benar
- Pengurangan Penyimpanan — jangan simpan data lebih lama dari yang diperlukan
- Integritas dan Kerahasiaan — lindungi data dari kebocoran
Penggunaan proxy saat bekerja dengan situs Eropa tidak membebaskan Anda dari kepatuhan terhadap GDPR. Jika Anda memparse data warga UE, Anda wajib:
- Memiliki dasar hukum untuk pengolahan (misalnya, kepentingan hukum untuk analisis pasar)
- Memberikan kemungkinan penghapusan data atas permintaan subjek ("hak untuk dilupakan")
- Tidak mentransfer data kepada pihak ketiga tanpa persetujuan
- Melindungi data dari kebocoran (enkripsi, kontrol akses)
Saran Praktis: Jika Anda mengumpulkan data untuk analisis pasar (harga, variasi, tren), ini dianggap "kepentingan hukum" menurut GDPR. Namun, jika Anda mengumpulkan email untuk pengiriman — perlu persetujuan yang jelas dari setiap penerima.
Saat menggunakan proxy residensial untuk mengakses situs Eropa, pastikan penyedia proxy juga mematuhi GDPR — ini penting untuk rantai pengolahan data.
Robots.txt dan Ketentuan Layanan: Kekuatan Hukum Pembatasan
Salah satu pertanyaan paling kontroversial dalam web scraping adalah apakah file robots.txt dan perjanjian pengguna (Terms of Service, ToS) yang melarang pengumpulan data otomatis memiliki kekuatan hukum?
Robots.txt
File robots.txt adalah rekomendasi teknis untuk robot pencari, bukan dokumen hukum. Di sebagian besar yurisdiksi, pelanggaran robots.txt tidak dianggap sebagai kejahatan. Namun, ada nuansa:
- AS — ada preseden di mana pengadilan mengakui pelanggaran robots.txt sebagai "akses tidak sah" (CFAA), tetapi ini adalah praktik yang diperdebatkan
- Eropa — robots.txt biasanya tidak memiliki kekuatan hukum, tetapi dapat digunakan sebagai bukti pelanggaran ToS
- Rusia — tidak ada praktik hukum yang jelas, tetapi mengabaikan robots.txt dapat dianggap sebagai menciptakan beban berlebihan pada server
Rekomendasi praktis: patuhi robots.txt jika Anda tidak ingin mengambil risiko. Jika Anda memerlukan data dari bagian tertutup — hubungi pemilik situs untuk API atau izin resmi.
Ketentuan Layanan (ToS)
Perjanjian pengguna adalah kontrak antara Anda dan pemilik situs. Banyak platform besar (Facebook, LinkedIn, Amazon) secara langsung melarang pengumpulan data otomatis dalam ToS mereka.
Kekuatan hukum ToS tergantung pada beberapa faktor:
| Faktor | Dampak pada Kekuatan Hukum |
|---|---|
| Anda terdaftar di situs | ToS memiliki kekuatan penuh sebagai kontrak — pelanggaran dapat mengakibatkan pemblokiran dan tuntutan hukum |
| Anda tidak terdaftar | ToS memiliki kekuatan terbatas — Anda tidak secara eksplisit menerima syaratnya |
| Data Publik | ToS dapat melarang penggunaan komersial, tetapi tidak penggunaan pribadi |
| Anda menciptakan beban pada server | Pelanggaran ToS + kemungkinan tanggung jawab untuk DDoS |
Preseden hukum yang dikenal:
- hiQ Labs vs LinkedIn (2019, AS) — pengadilan memutuskan bahwa parsing data publik tidak melanggar CFAA, bahkan jika dilarang oleh ToS
- Ryanair vs PR Aviation (2015, UE) — pengadilan UE memutuskan bahwa pengumpulan data publik tentang penerbangan tidak melanggar hukum, meskipun ada ToS
- eBay vs Bidder's Edge (2000, AS) — pengadilan melarang parsing karena beban berlebihan pada server eBay
Kesimpulan: ToS dapat melarang Anda menggunakan situs, tetapi tidak selalu dapat melarang pengumpulan data publik. Namun, pelanggaran ToS selalu berisiko pemblokiran akun dan kemungkinan tuntutan hukum.
Metode Legal Pengumpulan Data untuk Bisnis
Ada banyak cara yang sepenuhnya legal untuk mengumpulkan data untuk tugas bisnis. Yang terpenting adalah menggunakan alat yang tepat dan mematuhi norma etika.
1. Menggunakan API Resmi
Banyak platform menyediakan API resmi untuk mengakses data. Ini adalah cara yang paling aman:
- Google Maps API — untuk data geografis dan informasi tempat
- Twitter API — untuk analisis penyebutan dan tren
- Wildberries API — untuk penjual (akses ke data mereka sendiri)
- OpenWeatherMap API — untuk data cuaca
API biasanya memiliki batasan jumlah permintaan (rate limits), tetapi Anda mendapatkan data terstruktur dan perlindungan hukum.
2. Parsing Data Publik dengan Mematuhi Etika
Jika tidak ada API, Anda dapat memparse halaman publik dengan mematuhi aturan:
- Patuhilah interval — buat jeda antara permintaan (1-3 detik) untuk tidak menciptakan beban
- Hormati robots.txt — bahkan jika ini tidak selalu diwajibkan secara hukum
- Gunakan User-Agent — identifikasi bot Anda dengan jujur
- Parsing pada jam non-puncak — pada malam hari, beban pada server lebih rendah
Untuk tugas semacam itu, proxy residensial cocok digunakan — mereka meniru pengguna biasa dan jarang diblokir oleh sistem anti-bot.
3. Pembelian Dataset Siap Pakai
Banyak perusahaan menjual data yang dikumpulkan secara legal:
- Data Statistik — Rosstat, Bank Dunia, PBB
- Riset Pemasaran — Nielsen, GfK, Kantar
- Basis Data Perusahaan — SPARK, Kontur.Fokus (basis B2B yang legal)
- Data Industri — penyedia khusus untuk properti, keuangan, ritel
4. Crowdsourcing dan Survei
Kumpulkan data langsung dari pengguna dengan persetujuan mereka:
- Survei online (Google Forms, SurveyMonkey)
- Program loyalitas dengan pertukaran data untuk bonus
- Konten pengguna (ulasan, komentar di situs Anda)
- Program afiliasi dengan pertukaran data
Apa yang Dilarang: Tindakan dengan Risiko Hukum Tinggi
Beberapa metode pengumpulan data jelas ilegal atau membawa risiko tinggi untuk litigasi. Hindari praktik berikut:
Dilarang Keras:
- Peretasan dan Menghindari Perlindungan — menghindari CAPTCHA, meretas kata sandi, mengeksploitasi kerentanan (Pasal 272 KUHP RF — hingga 7 tahun)
- Pengumpulan Data dari Akun Tertutup — parsing profil media sosial tertutup, grup privat
- Serangan DDoS — beban berlebihan pada server yang mengakibatkan penolakan layanan (Pasal 273 KUHP RF)
- Pengumpulan Data Keuangan — nomor kartu, CVV, rincian bank (Pasal 159.6 KUHP RF — penipuan)
- Parsing Basis Data Pesaing — pencurian rahasia dagang (Pasal 183 KUHP RF)
- Pengumpulan Data Medis — diagnosis, riwayat penyakit tanpa persetujuan (kategori khusus PD)
Zona Abu-abu — Risiko Tinggi:
- Parsing email untuk spam — bahkan jika email publik, pengiriman massal tanpa persetujuan melanggar 152-FZ dan undang-undang tentang iklan
- Parsing Agresif — ribuan permintaan per detik dapat dianggap sebagai serangan
- Menghindari Pemblokiran melalui Proxy — jika situs memblokir Anda, melanjutkan parsing dapat dianggap sebagai akses tidak sah
- Parsing Konten Berbayar — menghindari langganan berbayar, materi tertutup
Contoh nyata kasus hukum:
- Facebook vs Power Ventures (2016) — pengadilan memutuskan Facebook $3 juta untuk parsing data pengguna
- LinkedIn vs hiQ Labs (2022) — setelah banyak litigasi, kasus ini kembali ke pengadilan, hasilnya masih belum jelas
- Clearview AI (2021) — perusahaan didenda di Eropa untuk pengumpulan foto dari media sosial untuk pengenalan wajah
Praktik Aman: Cara Melindungi Bisnis dari Klaim
Untuk meminimalkan risiko hukum saat mengumpulkan data melalui proxy, ikuti rekomendasi ini:
1. Dokumentasikan Dasar Hukum
Buat dokumen internal yang menjelaskan:
- Data apa yang Anda kumpulkan
- Dari sumber mana (hanya publik)
- Untuk tujuan apa (analisis pasar, monitoring harga)
- Bagaimana Anda melindungi data dari kebocoran
- Berapa lama Anda menyimpan data
Ini akan membantu membuktikan itikad baik jika ada klaim.
2. Gunakan Langkah Perlindungan Teknis
- Rate limiting — batasi kecepatan permintaan (tidak lebih dari 1-2 per detik)
- User-Agent yang Jujur — jangan menyamar sebagai browser, sebutkan nama bot Anda
- Email Kontak — tambahkan email untuk dihubungi dalam User-Agent
- Rotasi Proxy — gunakan proxy mobile atau residensial untuk mendistribusikan beban
3. Anonimkan Data Pribadi
Jika Anda telah mengumpulkan data yang mengandung informasi pribadi:
- Hapus nama, telepon, email segera setelah diproses
- Agregasi data (daripada "Ivan, 35 tahun, Moskow" → "pria 30-40 tahun, Moskow")
- Gunakan hashing untuk pengidentifikasi
- Jangan simpan lebih banyak data daripada yang diperlukan untuk tugas
4. Dapatkan Persetujuan Jika Memungkinkan
Jika Anda berencana menggunakan data untuk pemasaran atau pengiriman:
- Tambahkan kotak centang persetujuan untuk pemrosesan PD
- Jelaskan bagaimana data akan digunakan
- Berikan opsi untuk menolak (unsubscribe)
- Simpan bukti persetujuan
5. Konsultasikan dengan Pengacara
Jika bisnis Anda sangat bergantung pada pengumpulan data, sewa pengacara yang berspesialisasi dalam hukum TI. Dia akan membantu:
- Menyusun Kebijakan Privasi dan Ketentuan Penggunaan
- Melakukan audit kepatuhan terhadap GDPR dan 152-FZ
- Menyiapkan jawaban untuk klaim dari pemilik situs
- Mendaftarkan pemrosesan PD di Roskomnadzor (jika diperlukan)
Checklist Pengumpulan Data yang Legal:
✅ Hanya mengumpulkan data publik
✅ Tidak menciptakan beban berlebihan pada server
✅ Mematuhi robots.txt (jika memungkinkan)
✅ Tidak mengumpulkan data pribadi tanpa persetujuan
✅ Menganonimkan data sebelum penyimpanan
✅ Menggunakan data hanya untuk tujuan yang dinyatakan
✅ Melindungi data dari kebocoran
✅ Siap menghapus data atas permintaan subjek
Kesimpulan
Pengumpulan data melalui proxy adalah praktik legal dan umum, jika mematuhi norma hukum dan etika. Prinsip kunci: kumpulkan hanya data publik, jangan melanggar hak subjek data pribadi, jangan menciptakan beban berlebihan pada server, dan gunakan data dengan itikad baik.
Sebagian besar tugas bisnis — monitoring harga di marketplace, analisis pesaing, pengumpulan berita, penelitian pasar — sepenuhnya sesuai dengan kerangka hukum. Yang terpenting adalah memahami batasan dan tidak melanggarnya.
Jika Anda berencana mengumpulkan data untuk analisis atau monitoring, kami merekomendasikan menggunakan proxy residensial — mereka memberikan tingkat anonimitas tinggi dan risiko pemblokiran minimal, yang memungkinkan Anda bekerja dengan data secara legal dan efektif. Untuk tugas dengan kecepatan pemrosesan tinggi, proxy data center cocok, dan untuk bekerja dengan platform mobile — proxy mobile.
Ingatlah: teknologi itu netral, penting bagaimana Anda menggunakannya. Proxy adalah alat untuk bekerja dengan data secara legal, bukan cara untuk menghindari hukum. Patuhi aturan, hormati hak orang lain, dan bisnis Anda akan terlindungi dari risiko hukum.