Situs tiket pesawat adalah salah satu sumber daya yang paling agresif dilindungi di internet. Harga yang tidak stabil, captcha, pemblokiran IP secara instan — semua ini membuat pengumpulan data tarif menjadi tantangan nyata. Jika Anda membangun agregator, memantau harga untuk klien, atau mencari rute murah secara otomatis, tanpa proksi yang diatur dengan benar, Anda tidak akan bertahan lebih dari satu jam. Dalam artikel ini, kita akan membahas proksi mana yang bekerja, bagaimana cara mengaturnya, dan mengapa beberapa jenis gagal di tempat di mana yang lain berhasil.
Mengapa situs penerbangan memblokir pengambilan data dengan cepat
Industri penerbangan bekerja dengan penetapan harga dinamis: tarif berubah puluhan kali sehari tergantung pada permintaan, waktu dalam sehari, riwayat browser, dan bahkan geolokasi pengguna. Itulah sebabnya agregator besar — Aviasales, Skyscanner, Kayak, Google Flights — menginvestasikan sumber daya besar dalam perlindungan terhadap permintaan otomatis.
Berikut adalah yang terjadi ketika Anda mencoba mengumpulkan data tanpa proksi atau dengan IP dari pusat data yang murah:
- Pemblokiran IP secara instan — sebagian besar situs penerbangan memiliki basis data ASN (sistem otonom) dari pusat data. Permintaan dari IP hosting diblokir bahkan sebelum halaman dimuat.
- Captcha dan Cloudflare — bahkan jika permintaan pertama berhasil, setelah 5–10 permintaan dari satu alamat, captcha atau pengalihan untuk verifikasi muncul.
- Harga palsu — beberapa situs (terutama agregator OTA) sengaja menunjukkan tarif yang tinggi atau usang kepada bot untuk merusak data pesaing.
- Fingerprinting — selain IP, sistem menganalisis header HTTP, urutan ekstensi TLS, perilaku mouse, dan kecepatan scrolling.
- Rate limiting — pembatasan jumlah permintaan dari satu IP dalam satu waktu. Biasanya ambang batas — 20–50 permintaan per menit, setelah itu koneksi terputus.
Kesimpulannya: tanpa proksi berkualitas dengan IP nyata, Anda tidak akan dapat mengumpulkan data yang akurat. Proksi dari pusat data di sini bekerja dengan buruk — situs penerbangan mengenali mereka dalam hitungan detik. Anda memerlukan IP residensial atau seluler.
Jenis proksi apa yang cocok untuk tiket pesawat
Mari kita bahas tiga jenis proksi utama dan penerapannya untuk tugas pengumpulan harga tiket pesawat:
| Jenis Proksi | Sumber IP | Menghindari perlindungan situs penerbangan | Kecepatan | Biaya |
|---|---|---|---|---|
| Proksi Residensial | Penyedia rumah (Rostelecom, Beeline, AT&T) | ⭐⭐⭐⭐⭐ Sangat Baik | Sedang | Sedang |
| Proksi Seluler | Jaringan operator (MTS, MegaFon, T-Mobile) | ⭐⭐⭐⭐⭐ Sangat Baik | Tinggi | Tinggi |
| Proksi Pusat Data | Farm server (AWS, OVH, Hetzner) | ⭐⭐ Buruk | Sangat Tinggi | Rendah |
Kesimpulannya jelas: untuk situs penerbangan, proksi dari pusat data hampir tidak berguna. Aviasales, Skyscanner, dan Google Flights segera mengenali IP dari penyedia hosting ASN dan baik memblokir atau menunjukkan captcha. Pilihan nyata adalah antara proksi residensial dan seluler — dan masing-masing memiliki niche-nya sendiri.
Proksi Residensial vs Proksi Seluler: Mana yang Dipilih untuk Tiket Pesawat
Kedua jenis bekerja, tetapi dalam skenario yang berbeda, satu mengungguli yang lain. Mari kita bahas secara spesifik.
Proksi Residensial — untuk Pengumpulan Data Skala Besar
Proksi residensial menggunakan alamat IP dari pengguna rumah nyata di seluruh dunia. Untuk pengambilan tiket pesawat, ini berarti:
- Kemampuan untuk memilih negara tertentu dan bahkan kota — sangat penting jika Anda memeriksa harga untuk pasar yang berbeda (misalnya, harga dari Moskow vs dari London untuk penerbangan yang sama).
- Kolam IP besar — ribuan alamat untuk rotasi, yang memungkinkan Anda melakukan ratusan permintaan tanpa pengulangan.
- Rasio harga/kualitas yang baik untuk volume lalu lintas yang besar.
- Dukungan untuk mode sesi dan rotasi — Anda dapat menjaga satu sesi untuk meniru pengguna nyata.
Skenario ideal: Anda membangun agregator atau layanan pemantauan dan perlu mengumpulkan harga dari 10–20 situs secara bersamaan, melakukan ribuan permintaan per jam. Proksi residensial dengan rotasi adalah pilihan Anda.
Proksi Seluler — untuk Situs yang Paling Dilindungi
Proksi seluler bekerja melalui SIM nyata dari operator seluler. Ciri khasnya adalah alamat IP dari jaringan seluler (3G/4G/5G), yang hampir tidak pernah diblokir oleh situs penerbangan. Alasannya sederhana: satu IP seluler dapat mewakili jaringan NAT, di mana ribuan pengguna nyata berada. Memblokir alamat seperti itu berarti kehilangan ribuan pelanggan hidup.
- Tingkat kepercayaan maksimum dari sistem anti-bot.
- Risiko pemblokiran hampir nol bahkan saat melakukan pengambilan data secara agresif.
- Kemampuan untuk mengganti IP melalui pergantian sesi (tanpa mengganti perangkat secara fisik).
- Biaya lebih tinggi — dibenarkan untuk data yang sangat penting atau situs yang kompleks.
Skenario ideal: Anda perlu mengumpulkan data dari situs kompleks tertentu (misalnya, situs langsung maskapai dengan Cloudflare Enterprise), di mana proksi residensial terkadang memberikan captcha. Proksi seluler akan menyelesaikan masalah ini.
💡 Tips Praktis
Untuk sebagian besar tugas pemantauan harga tiket pesawat, strategi optimal adalah proksi residensial untuk pengumpulan massal + proksi seluler untuk situs yang kompleks. Ini memungkinkan Anda mengoptimalkan anggaran tanpa mengorbankan kualitas data.
Fitur Perlindungan Aviasales, Skyscanner, Google Flights, dan Kayak
Setiap platform memiliki fitur perlindungan yang berbeda. Memahami perbedaan ini akan membantu Anda mengatur proksi dan perilaku permintaan dengan benar.
Aviasales
Agregator Rusia ini menggunakan kombinasi pembatasan laju dan analisis perilaku. Pembatasan — sekitar 30–40 permintaan per menit dari satu IP. Jika melebihi — pengalihan ke captcha dari Yandex SmartCaptcha. Situs ini relatif ramah terhadap proksi residensial dengan IP Rusia. Penting: harga di Aviasales tergantung pada geolokasi, jadi untuk pengumpulan data yang akurat, gunakan proksi dengan IP dari negara yang diperlukan untuk tarif.
Skyscanner
Salah satu agregator yang paling dilindungi. Menggunakan Cloudflare dengan pengaturan "Under Attack Mode" untuk IP yang mencurigakan, serta sistem anti-botnya sendiri. Proksi dari pusat data di sini sama sekali tidak berfungsi. Proksi residensial dapat digunakan, tetapi memerlukan laju permintaan yang lambat (tidak lebih dari 15–20 per menit) dan header browser yang benar. Untuk Skyscanner, disarankan untuk meniru sesi browser nyata melalui Playwright atau Puppeteer dengan proksi yang terhubung.
Google Flights
Google menggunakan algoritma deteksi botnya sendiri — reCAPTCHA v3 dan analisis pola perilaku. Pengambilan HTML secara langsung di sini tidak berfungsi, karena data dimuat melalui JavaScript. Diperlukan browser headless (Playwright/Puppeteer) dengan proksi residensial atau seluler. Google juga sensitif terhadap kesesuaian geolokasi IP dan bahasa browser — ketidakcocokan meningkatkan risiko pemblokiran.
Kayak
Agregator Amerika dengan perlindungan agresif terhadap bot berbasis PerimeterX (sekarang HUMAN Security). Mengenali tidak hanya IP, tetapi juga fingerprint TLS, urutan header HTTP/2, dan waktu antara permintaan. Untuk Kayak, diperlukan: proksi residensial atau seluler, peniruan browser nyata, dan jeda acak antara permintaan (2–8 detik).
| Platform | Sistem Perlindungan | Apakah proksi pusat data berfungsi? | Apakah perlu headless? | Jenis proksi yang disarankan |
|---|---|---|---|---|
| Aviasales | Pembatasan laju + Yandex Captcha | ❌ Tidak | Diutamakan | Residensial (RU) |
| Skyscanner | Cloudflare + sistem sendiri | ❌ Tidak | ✅ Ya | Residensial / Seluler |
| Google Flights | reCAPTCHA v3 + analisis perilaku | ❌ Tidak | ✅ Wajib | Residensial / Seluler |
| Kayak | HUMAN Security (PerimeterX) | ❌ Tidak | ✅ Ya | Seluler |
Cara Mengatur Proksi untuk Pengumpulan Data Harga Tiket Pesawat
Pengaturan tergantung pada alat yang Anda gunakan. Mari kita lihat skenario yang paling umum.
Opsi 1: Pengambil data siap pakai dan alat tanpa kode
Jika Anda tidak menulis kode, gunakan solusi siap pakai: Octoparse, ParseHub, Apify. Semua mendukung koneksi proksi eksternal. Langkah-langkahnya:
- Dapatkan data proksi: host (IP atau domain), port, login, kata sandi.
- Buka pengaturan alat Anda → bagian "Proksi" atau "Jaringan".
- Pilih jenis protokol: HTTPS (untuk sebagian besar tugas) atau SOCKS5 (jika perlu kerja yang lebih rendah).
- Masukkan data koneksi. Format biasanya seperti ini:
login:password@host:port - Aktifkan rotasi proksi — sebagian besar alat melakukannya secara otomatis jika ada kolam alamat.
- Jalankan permintaan uji ke situs target dan periksa apakah IP telah berubah.
Opsi 2: Playwright / Puppeteer dengan proksi
Untuk situs yang kompleks (Google Flights, Skyscanner), diperlukan browser headless. Berikut cara menghubungkan proksi di Playwright:
const { chromium } = require('playwright');
const browser = await chromium.launch({
proxy: {
server: 'http://your-proxy-host:port',
username: 'your_login',
password: 'your_password'
}
});
const page = await browser.newPage();
await page.goto('https://www.skyscanner.com/...');
// Selanjutnya logika pengambilan data Anda
await browser.close();
Untuk rotasi proksi pada setiap permintaan baru, buat konteks browser baru dengan proksi baru dari kolam Anda. Ini meniru perilaku pengguna yang berbeda.
Opsi 3: Python + requests/httpx
Untuk situs tanpa rendering JavaScript (atau untuk bekerja dengan API situs penerbangan), Python cocok:
import requests
import random
proxies_pool = [
"http://login:[email protected]:port",
"http://login:[email protected]:port",
"http://login:[email protected]:port",
]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "ru-RU,ru;q=0.9",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
}
proxy = {"http": random.choice(proxies_pool), "https": random.choice(proxies_pool)}
response = requests.get(
"https://www.aviasales.ru/search/...",
proxies=proxy,
headers=headers,
timeout=15
)
print(response.status_code)
Rotasi IP dan Manajemen Sesi: Aturan Kunci
Rotasi IP yang benar adalah setengah dari keberhasilan dalam pengambilan data tiket pesawat. Hanya mengganti IP tidak cukup: Anda perlu melakukannya dengan cerdas.
Aturan 1: Satu IP — Satu Sesi
Jangan gunakan satu IP untuk beberapa permintaan paralel. Sistem anti-bot melihat beban yang tidak normal tinggi dari satu alamat dan memblokirnya. Setiap aliran permintaan harus bekerja melalui proksi terpisah.
Aturan 2: Jeda Acak antara Permintaan
Pengguna nyata tidak membuat permintaan dengan interval waktu yang sama. Tambahkan jeda acak dari 2 hingga 8 detik antara permintaan. Ini mengurangi kemungkinan terdeteksi oleh bot hingga 3–4 kali dibandingkan dengan permintaan yang merata.
Aturan 3: Kesesuaian Geolokasi dan Bahasa
Jika Anda menggunakan proksi dengan IP Jerman, header browser harus memiliki bahasa Jerman (Accept-Language: de-DE). Ketidakcocokan adalah sinyal jelas bagi sistem anti-bot. Ini sangat penting untuk Google Flights.
Aturan 4: Proksi Sesi untuk Permintaan Bertahap
Beberapa situs penerbangan memerlukan beberapa langkah: pencarian → pemilihan penerbangan → melihat detail. Semua langkah ini harus dilakukan dari satu IP. Gunakan sesi lengket (sticky session) — mode di mana satu IP terikat pada aliran Anda untuk waktu tertentu (biasanya 10–30 menit).
Aturan 5: Pemantauan Kualitas Proksi
Secara teratur periksa IP mana dari kolam yang diblokir. Secara otomatis kecualikan alamat yang mengembalikan kode 403, 429 atau pengalihan ke captcha. Sebagian besar kerangka kerja pengambilan data profesional (Scrapy, Apify) melakukan ini secara otomatis.
Alat Siap Pakai untuk Pengambilan Harga Tiket Pesawat
Jika Anda tidak ingin menulis pengambil data dari awal, berikut adalah alat yang sudah mendukung kerja dengan proksi dan cocok untuk pemantauan harga penerbangan:
Apify
Platform cloud untuk web scraping. Memiliki aktor (bot) siap pakai untuk Skyscanner dan Google Flights. Mendukung koneksi proksi eksternal melalui pengaturan. Untuk menghubungkan proksi Anda: pergi ke pengaturan aktor → tab "Proxy and browser configuration" → pilih "Custom proxies" → masukkan URL proksi Anda dalam format http://user:pass@host:port.
Octoparse
Pengambil data tanpa kode dengan antarmuka visual. Cocok untuk mereka yang tidak menulis kode. Mendukung rotasi proksi: Pengaturan → Ekstraksi Cloud → Pengaturan Proksi → Tambah Proksi Kustom. Anda dapat menambahkan daftar proksi, dan Octoparse akan secara otomatis mengalirkannya.
Scrapy + Scrapy-Rotating-Proxies
Kerangka kerja Python untuk pengambilan data profesional. Plugin scrapy-rotating-proxies secara otomatis merotasi IP dari daftar Anda dan mengecualikan alamat yang diblokir. Cocok untuk tugas dengan beban tinggi — ratusan ribu permintaan per hari.
ParseHub
Alat lain tanpa kode dengan dukungan rendering JavaScript. Sangat baik dalam menangani Aviasales. Proksi terhubung di bagian Pengaturan → Lanjutan → Proksi.
⚠️ Penting tentang Geotargeting Harga
Situs penerbangan menunjukkan harga yang berbeda tergantung pada negara pengguna. Ini bukan hanya strategi pemasaran — ini adalah kenyataan teknis. Jika Anda memantau harga untuk pasar Rusia, gunakan proksi dengan IP Rusia. Untuk membandingkan harga di pasar (misalnya, berapa biaya penerbangan yang sama untuk pengguna dari Jerman) diperlukan proksi dengan IP dari negara yang sesuai.
Daftar Periksa: Cara Menghindari Larangan Saat Mengumpulkan Harga Tiket Pesawat
Simpan daftar ini — ini akan membantu menghindari sebagian besar masalah saat mengatur pengambilan data:
✅ Sebelum Menjalankan Pengambil Data
- Proksi residensial atau seluler dipilih (bukan dari pusat data)
- IP proksi sesuai dengan pasar target (negara/kota)
- Bahasa browser sesuai dengan geolokasi proksi
- Rotasi IP diatur (minimal 1 IP per aliran)
- Header User-Agent meniru browser nyata
- Untuk situs JS, digunakan browser headless (Playwright/Puppeteer)
✅ Selama Pengoperasian Pengambil Data
- Jeda antara permintaan: 2–8 detik (acak)
- Tidak lebih dari 20–30 permintaan per menit dari satu IP
- Sesi bertahap menggunakan satu IP (sticky session)
- Kode 403/429 secara otomatis mengecualikan IP dari kolam
- Logging semua kesalahan untuk analisis
✅ Tambahan untuk Situs yang Kompleks
- Header Referer dan Accept yang benar
- Meniru gerakan mouse dan scrolling (untuk Playwright)
- Perubahan acak User-Agent dari kolam browser nyata
- Penggunaan sesi cookie untuk meniru kunjungan ulang
Kesalahan Umum yang Mengarah ke Larangan
- Penggunaan proksi gratis. IP mereka sudah lama terdaftar dalam daftar hitam semua situs penerbangan besar. Anda akan diblokir pada permintaan pertama.
- Frekuensi permintaan terlalu tinggi. Bahkan dengan proksi yang baik, 100 permintaan per menit dari satu IP — ini adalah jalan pasti menuju larangan.
- User-Agent yang sama untuk semua permintaan. Pengguna nyata menggunakan browser dan versi yang berbeda — pengambil data Anda harus menirunya.
- Mengabaikan cookies. Banyak situs melacak sesi melalui cookies. Jika Anda tidak menyimpan dan tidak mengirim cookies antara permintaan, perilakunya terlihat tidak normal.
- Ketidakcocokan geolokasi dan konten permintaan. Meminta versi situs berbahasa Rusia melalui IP Amerika — bendera merah untuk sistem anti-bot.
Kesimpulan
Pengumpulan data harga tiket pesawat adalah salah satu tugas yang paling teknis dan rumit dalam pengambilan data. Situs penerbangan menginvestasikan sumber daya yang signifikan dalam perlindungan terhadap bot, dan menghindarinya tanpa alat yang tepat adalah hal yang mustahil. Kesimpulan utama dari artikel ini:
- Proksi dari pusat data tidak berfungsi untuk situs penerbangan — mereka diblokir secara instan.
- Proksi residensial adalah pilihan optimal untuk pemantauan harga skala besar dari berbagai pasar.
- Proksi seluler diperlukan untuk platform yang paling dilindungi (Kayak, Skyscanner) dan data yang sangat penting.
- Rotasi IP, jeda acak, dan peniruan browser nyata adalah syarat wajib untuk operasi yang stabil.
- Geolokasi proksi harus sesuai dengan pasar target, jika tidak, harga akan tidak akurat.
Jika Anda berencana untuk membangun sistem pemantauan harga tiket pesawat atau mengumpulkan data untuk agregator, mulailah dengan proksi residensial — mereka memberikan keseimbangan yang diperlukan antara kualitas penghindaran perlindungan, jangkauan geografis, dan biaya. Untuk situs yang paling rumit dengan perlindungan anti-bot yang agresif, pertimbangkan proksi seluler — mereka memberikan tingkat kepercayaan maksimum dari sistem anti-bot dan hampir menghilangkan pemblokiran dengan pengaturan yang tepat.