Назад к блогу

Прокси для сбора цен на авиабилеты: как парсить Aviasales, Skyscanner и Google Flights без блокировок

Авиасайты блокируют автоматические запросы мгновенно — узнайте, какие прокси помогут собирать актуальные цены на билеты без банов и капч.

📅15 марта 2026 г.

Сайты авиабилетов — одни из самых агрессивно защищённых ресурсов в интернете. Stale-цены, капчи, мгновенные блокировки IP — всё это делает сбор данных о тарифах настоящим испытанием. Если вы строите агрегатор, мониторите цены для клиентов или ищете дешёвые маршруты в автоматическом режиме, без правильно настроенных прокси вы не продержитесь и часа. В этой статье разберём, какие прокси работают, как их настроить и почему одни типы проваливаются там, где другие справляются.

Почему авиасайты блокируют парсинг так быстро

Авиационная индустрия работает с динамическим ценообразованием: тарифы меняются десятки раз в день в зависимости от спроса, времени суток, истории браузера и даже геолокации пользователя. Именно поэтому крупные агрегаторы — Aviasales, Skyscanner, Kayak, Google Flights — вкладывают огромные ресурсы в защиту от автоматических запросов.

Вот что происходит, когда вы пытаетесь собирать данные без прокси или с дешёвыми датацентровыми IP:

  • Мгновенная блокировка IP — большинство авиасайтов ведут базы ASN (автономных систем) дата-центров. Запрос с IP хостинга блокируется ещё до загрузки страницы.
  • Капчи и Cloudflare — даже если первый запрос прошёл, после 5–10 обращений с одного адреса появляется капча или редирект на проверку.
  • Фейковые цены — некоторые сайты (особенно OTA-агрегаторы) специально показывают ботам завышенные или устаревшие тарифы, чтобы испортить данные конкурентам.
  • Fingerprinting — помимо IP, системы анализируют заголовки HTTP, порядок TLS-расширений, поведение мыши и скорость скроллинга.
  • Rate limiting — ограничение числа запросов с одного IP в единицу времени. Обычно порог — 20–50 запросов в минуту, после чего соединение разрывается.

Итог: без качественных прокси с реальными IP вы не соберёте актуальные данные. Дата-центровые прокси здесь работают плохо — авиасайты распознают их в первые секунды. Нужны либо резидентные, либо мобильные IP.

Какие типы прокси подходят для авиабилетов

Разберём три основных типа прокси и их применимость к задаче сбора цен на авиабилеты:

Тип прокси Источник IP Обход защиты авиасайтов Скорость Стоимость
Резидентные прокси Домашние провайдеры (Ростелеком, Билайн, AT&T) ⭐⭐⭐⭐⭐ Отлично Средняя Средняя
Мобильные прокси Сети операторов (МТС, Мегафон, T-Mobile) ⭐⭐⭐⭐⭐ Отлично Высокая Высокая
Прокси дата-центров Серверные фермы (AWS, OVH, Hetzner) ⭐⭐ Плохо Очень высокая Низкая

Вывод очевиден: для авиасайтов дата-центровые прокси практически бесполезны. Aviasales, Skyscanner и Google Flights мгновенно определяют IP из ASN хостинг-провайдеров и либо блокируют, либо показывают капчу. Реальный выбор стоит между резидентными и мобильными прокси — и у каждого есть своя ниша.

Резидентные vs мобильные прокси: что выбрать для авиабилетов

Оба типа работают, но в разных сценариях один выигрывает у другого. Давайте разберём конкретно.

Резидентные прокси — для масштабного сбора данных

Резидентные прокси используют IP-адреса реальных домашних пользователей по всему миру. Для парсинга авиабилетов это означает:

  • Возможность выбрать конкретную страну и даже город — критично, если вы проверяете цены для разных рынков (например, цена из Москвы vs из Лондона на один и тот же рейс).
  • Большой пул IP — тысячи адресов для ротации, что позволяет делать сотни запросов без повторения.
  • Хорошее соотношение цена/качество при больших объёмах трафика.
  • Поддержка сессионных и ротирующих режимов — можно держать одну сессию для имитации реального пользователя.

Идеальный сценарий: вы строите агрегатор или мониторинговый сервис и вам нужно собирать цены с 10–20 сайтов одновременно, делая тысячи запросов в час. Резидентные прокси с ротацией — ваш выбор.

Мобильные прокси — для самых защищённых сайтов

Мобильные прокси работают через реальные SIM-карты операторов сотовой связи. Их особенность — IP-адреса из мобильных сетей (3G/4G/5G), которые авиасайты практически никогда не блокируют. Причина проста: за одним мобильным IP может стоять NAT-сеть, где сидят тысячи реальных пользователей. Заблокировать такой адрес — значит потерять тысячи живых клиентов.

  • Максимальный уровень доверия со стороны антибот-систем.
  • Практически нулевой риск блокировки даже при агрессивном парсинге.
  • Возможность смены IP через смену сессии (без физической смены устройства).
  • Выше стоимость — оправдана для критически важных данных или сложных сайтов.

Идеальный сценарий: вам нужно собрать данные с конкретного сложного сайта (например, прямой сайт авиакомпании с Cloudflare Enterprise), где резидентные прокси периодически дают капчи. Мобильные прокси решат эту проблему.

💡 Практический совет

Для большинства задач по мониторингу цен на авиабилеты оптимальная стратегия — резидентные прокси для массового сбора + мобильные прокси для сложных сайтов. Это позволяет оптимизировать бюджет без потери качества данных.

Особенности защиты Aviasales, Skyscanner, Google Flights и Kayak

Каждая платформа имеет свои особенности защиты. Понимание этих различий поможет правильно настроить прокси и поведение запросов.

Aviasales

Российский агрегатор использует комбинацию rate limiting и анализа поведения. Ограничение — примерно 30–40 запросов в минуту с одного IP. При превышении — редирект на капчу от Yandex SmartCaptcha. Сайт относительно лоялен к резидентным прокси с российскими IP. Важно: цены на Aviasales зависят от геолокации, поэтому для корректного сбора данных используйте прокси с IP той страны, для которой нужны тарифы.

Skyscanner

Один из самых защищённых агрегаторов. Использует Cloudflare с настройкой «Under Attack Mode» для подозрительных IP, а также собственную антибот-систему. Дата-центровые прокси здесь не работают вообще. Резидентные прокси проходят, но требуют медленного темпа запросов (не более 15–20 в минуту) и корректных заголовков браузера. Для Skyscanner рекомендуется имитировать реальный браузерный сеанс через Playwright или Puppeteer с подключённым прокси.

Google Flights

Google использует собственные алгоритмы обнаружения ботов — reCAPTCHA v3 и анализ поведенческих паттернов. Прямой парсинг HTML здесь не работает, так как данные загружаются через JavaScript. Нужен headless-браузер (Playwright/Puppeteer) с резидентными или мобильными прокси. Google также чувствителен к совпадению геолокации IP и языка браузера — несоответствие повышает риск блокировки.

Kayak

Американский агрегатор с агрессивной защитой от ботов на базе PerimeterX (теперь HUMAN Security). Распознаёт не только IP, но и TLS fingerprint, порядок заголовков HTTP/2 и время между запросами. Для Kayak обязательны: резидентные или мобильные прокси, имитация реального браузера и случайные задержки между запросами (2–8 секунд).

Платформа Система защиты Работают датацентровые? Нужен headless? Рекомендуемый тип прокси
Aviasales Rate limit + Yandex Captcha ❌ Нет Желательно Резидентные (RU)
Skyscanner Cloudflare + собственная система ❌ Нет ✅ Да Резидентные / Мобильные
Google Flights reCAPTCHA v3 + поведенческий анализ ❌ Нет ✅ Обязательно Резидентные / Мобильные
Kayak HUMAN Security (PerimeterX) ❌ Нет ✅ Да Мобильные

Как настроить прокси для сбора данных о ценах на авиабилеты

Настройка зависит от инструмента, который вы используете. Рассмотрим наиболее распространённые сценарии.

Вариант 1: Готовые парсеры и no-code инструменты

Если вы не пишете код, используйте готовые решения: Octoparse, ParseHub, Apify. Все они поддерживают подключение внешних прокси. Порядок действий:

  1. Получите данные прокси: хост (IP или домен), порт, логин, пароль.
  2. Откройте настройки вашего инструмента → раздел «Proxy» или «Network».
  3. Выберите тип протокола: HTTPS (для большинства задач) или SOCKS5 (если нужна более низкоуровневая работа).
  4. Вставьте данные подключения. Формат обычно такой: login:password@host:port
  5. Включите ротацию прокси — большинство инструментов делают это автоматически при наличии пула адресов.
  6. Запустите тестовый запрос к целевому сайту и проверьте, что IP изменился.

Вариант 2: Playwright / Puppeteer с прокси

Для сложных сайтов (Google Flights, Skyscanner) нужен headless-браузер. Вот как подключить прокси в Playwright:

const { chromium } = require('playwright');

const browser = await chromium.launch({
  proxy: {
    server: 'http://your-proxy-host:port',
    username: 'your_login',
    password: 'your_password'
  }
});

const page = await browser.newPage();
await page.goto('https://www.skyscanner.com/...');
// Дальше ваша логика извлечения данных
await browser.close();

Для ротации прокси при каждом новом запросе создавайте новый контекст браузера с новым прокси из вашего пула. Это имитирует поведение разных пользователей.

Вариант 3: Python + requests/httpx

Для сайтов без JavaScript-рендеринга (или для работы с API авиасайтов) подойдёт Python:

import requests
import random

proxies_pool = [
    "http://login:[email protected]:port",
    "http://login:[email protected]:port",
    "http://login:[email protected]:port",
]

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "ru-RU,ru;q=0.9",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
}

proxy = {"http": random.choice(proxies_pool), "https": random.choice(proxies_pool)}

response = requests.get(
    "https://www.aviasales.ru/search/...",
    proxies=proxy,
    headers=headers,
    timeout=15
)

print(response.status_code)

Ротация IP и управление сессиями: ключевые правила

Правильная ротация IP — это половина успеха при парсинге авиабилетов. Просто менять IP недостаточно: нужно делать это умно.

Правило 1: Один IP — одна сессия

Не используйте один IP для нескольких параллельных запросов. Антибот-системы видят аномально высокую нагрузку с одного адреса и блокируют его. Каждый поток запросов должен работать через отдельный прокси.

Правило 2: Случайные задержки между запросами

Реальный пользователь не делает запросы через равные промежутки времени. Добавьте случайную задержку от 2 до 8 секунд между запросами. Это снижает вероятность обнаружения ботом в 3–4 раза по сравнению с равномерными запросами.

Правило 3: Соответствие геолокации и языка

Если вы используете прокси с немецким IP, в заголовках браузера должен быть немецкий язык (Accept-Language: de-DE). Несоответствие — явный сигнал для антибот-систем. Это особенно важно для Google Flights.

Правило 4: Сессионные прокси для многошаговых запросов

Некоторые авиасайты требуют нескольких шагов: поиск → выбор рейса → просмотр деталей. Все эти шаги должны выполняться с одного IP. Используйте sticky-сессии (залипающие сессии) — режим, при котором один IP закрепляется за вашим потоком на определённое время (обычно 10–30 минут).

Правило 5: Мониторинг качества прокси

Регулярно проверяйте, какие IP из пула заблокированы. Автоматически исключайте адреса, которые возвращают код 403, 429 или редирект на капчу. Большинство профессиональных парсинговых фреймворков (Scrapy, Apify) делают это автоматически.

Готовые инструменты для парсинга цен на авиабилеты

Если вы не хотите писать парсер с нуля, вот инструменты, которые уже поддерживают работу с прокси и подходят для мониторинга авиацен:

Apify

Облачная платформа для веб-скрапинга. Имеет готовые акторы (боты) для Skyscanner и Google Flights. Поддерживает подключение внешних прокси через настройки. Для подключения ваших прокси: перейдите в настройки актора → вкладка «Proxy and browser configuration» → выберите «Custom proxies» → вставьте URL ваших прокси в формате http://user:pass@host:port.

Octoparse

No-code парсер с визуальным интерфейсом. Подходит для тех, кто не пишет код. Поддерживает ротацию прокси: Settings → Cloud Extraction → Proxy Settings → Add Custom Proxy. Можно добавить список прокси, и Octoparse будет автоматически их чередовать.

Scrapy + Scrapy-Rotating-Proxies

Python-фреймворк для профессионального парсинга. Плагин scrapy-rotating-proxies автоматически ротирует IP из вашего списка и исключает заблокированные адреса. Подходит для высоконагруженных задач — сотни тысяч запросов в день.

ParseHub

Ещё один no-code инструмент с поддержкой JavaScript-рендеринга. Хорошо справляется с Aviasales. Прокси подключаются в разделе Settings → Advanced → Proxy.

⚠️ Важно про геотаргетинг цен

Авиасайты показывают разные цены в зависимости от страны пользователя. Это не только маркетинговая стратегия — это техническая реальность. Если вы мониторите цены для российского рынка, используйте прокси с российскими IP. Для сравнения цен по рынкам (например, сколько стоит тот же рейс для пользователя из Германии) нужны прокси с IP соответствующих стран.

Чек-лист: как не получить бан при сборе цен на авиабилеты

Сохраните этот список — он поможет избежать большинства проблем при настройке парсинга:

✅ Перед запуском парсера

  • Выбраны резидентные или мобильные прокси (не дата-центровые)
  • IP прокси соответствует целевому рынку (страна/город)
  • Язык браузера совпадает с геолокацией прокси
  • Настроена ротация IP (минимум 1 IP на поток)
  • Заголовки User-Agent имитируют реальный браузер
  • Для JS-сайтов используется headless-браузер (Playwright/Puppeteer)

✅ Во время работы парсера

  • Задержки между запросами: 2–8 секунд (случайные)
  • Не более 20–30 запросов в минуту с одного IP
  • Многошаговые сессии используют один IP (sticky session)
  • Коды 403/429 автоматически исключают IP из пула
  • Логирование всех ошибок для анализа

✅ Дополнительно для сложных сайтов

  • Корректные заголовки Referer и Accept
  • Имитация движения мыши и скроллинга (для Playwright)
  • Случайное изменение User-Agent из реального пула браузеров
  • Использование cookie-сессий для имитации повторного посещения

Типичные ошибки, которые приводят к банам

  • Использование бесплатных прокси. Их IP давно занесены в чёрные списки всех крупных авиасайтов. Вы получите блокировку на первом же запросе.
  • Слишком высокая частота запросов. Даже с хорошими прокси 100 запросов в минуту с одного IP — это верный путь к бану.
  • Одинаковый User-Agent для всех запросов. Реальные пользователи используют разные браузеры и версии — ваш парсер должен это имитировать.
  • Игнорирование cookies. Многие сайты отслеживают сессию через cookies. Если вы не сохраняете и не передаёте cookies между запросами, поведение выглядит аномально.
  • Несоответствие геолокации и контента запроса. Запрашивать русскоязычную версию сайта через американский IP — красный флаг для антибот-систем.

Заключение

Сбор данных о ценах на авиабилеты — одна из самых технически сложных задач в парсинге. Авиасайты вкладывают значительные ресурсы в защиту от ботов, и обойти её без правильных инструментов невозможно. Главные выводы из этой статьи:

  • Дата-центровые прокси не работают для авиасайтов — они блокируются мгновенно.
  • Резидентные прокси — оптимальный выбор для масштабного мониторинга цен с разных рынков.
  • Мобильные прокси нужны для самых защищённых платформ (Kayak, Skyscanner) и критически важных данных.
  • Ротация IP, случайные задержки и имитация реального браузера — обязательные условия стабильной работы.
  • Геолокация прокси должна совпадать с целевым рынком, иначе цены будут некорректными.

Если вы планируете построить систему мониторинга цен на авиабилеты или собирать данные для агрегатора, начните с резидентных прокси — они обеспечивают нужный баланс между качеством обхода защиты, географическим охватом и стоимостью. Для наиболее сложных сайтов с агрессивной антибот-защитой рассмотрите мобильные прокси — они дают максимальный уровень доверия со стороны антибот-систем и практически исключают блокировки при правильной настройке.