Voltar ao blog

Proxies para Coleta de Preços de Passagens Aéreas: Como Raspagem de Aviasales, Skyscanner e Google Flights Sem Bloqueios

Sites de aviação bloqueiam solicitações automáticas instantaneamente - descubra quais proxies ajudam a coletar preços atualizados de passagens sem bans e captchas.

📅15 de março de 2026
```html

Sites de passagens aéreas são um dos recursos mais agressivamente protegidos da internet. Preços stale, captchas, bloqueios instantâneos de IP — tudo isso torna a coleta de dados sobre tarifas um verdadeiro desafio. Se você está construindo um agregador, monitorando preços para clientes ou procurando rotas baratas de forma automática, sem proxies configurados corretamente, você não durará nem uma hora. Neste artigo, vamos discutir quais proxies funcionam, como configurá-los e por que alguns tipos falham onde outros têm sucesso.

Por que os sites de passagens bloqueiam scraping tão rapidamente

A indústria da aviação trabalha com precificação dinâmica: as tarifas mudam dezenas de vezes ao dia dependendo da demanda, hora do dia, histórico do navegador e até mesmo da geolocalização do usuário. É por isso que grandes agregadores — Aviasales, Skyscanner, Kayak, Google Flights — investem enormes recursos na proteção contra solicitações automáticas.

Aqui está o que acontece quando você tenta coletar dados sem proxies ou com IPs de data centers baratos:

  • Bloqueio instantâneo de IP — a maioria dos sites de passagens mantém bancos de dados ASN (sistemas autônomos) de data centers. Uma solicitação com IP de hospedagem é bloqueada antes mesmo de carregar a página.
  • Captchas e Cloudflare — mesmo que a primeira solicitação passe, após 5–10 acessos de um único endereço, aparece um captcha ou redirecionamento para verificação.
  • Preços falsos — alguns sites (especialmente agregadores OTA) mostram intencionalmente preços inflacionados ou desatualizados para prejudicar os dados dos concorrentes.
  • Fingerprinting — além do IP, os sistemas analisam cabeçalhos HTTP, ordem de extensões TLS, comportamento do mouse e velocidade de rolagem.
  • Limitação de taxa — limitação do número de solicitações de um único IP em um determinado período de tempo. Normalmente, o limite é de 20–50 solicitações por minuto, após o qual a conexão é interrompida.

Resultado: sem proxies de qualidade com IPs reais, você não conseguirá coletar dados atualizados. Proxies de data center funcionam mal aqui — os sites de passagens os reconhecem nos primeiros segundos. Você precisa de IPs residenciais ou móveis.

Quais tipos de proxies são adequados para passagens aéreas

Vamos discutir três tipos principais de proxies e sua aplicabilidade à tarefa de coleta de preços de passagens aéreas:

Tipo de proxy Fonte de IP Contorno da proteção dos sites de passagens Velocidade Custo
Proxies residenciais Provedores domésticos (Ростелеком, Билайн, AT&T) ⭐⭐⭐⭐⭐ Excelente Média Média
Proxies móveis Redes de operadores (MTS, MegaFon, T-Mobile) ⭐⭐⭐⭐⭐ Excelente Alta Alta
Proxies de data center Fazendas de servidores (AWS, OVH, Hetzner) ⭐⭐ Ruim Muito alta Baixa

A conclusão é óbvia: para sites de passagens, proxies de data center são praticamente inúteis. Aviasales, Skyscanner e Google Flights identificam instantaneamente IPs de provedores de hospedagem e ou bloqueiam ou mostram um captcha. A escolha real está entre proxies residenciais e móveis — e cada um tem seu nicho.

Proxies residenciais vs móveis: o que escolher para passagens aéreas

Ambos os tipos funcionam, mas em diferentes cenários um ganha do outro. Vamos analisar especificamente.

Proxies residenciais — para coleta em larga escala

Proxies residenciais usam endereços IP de usuários domésticos reais em todo o mundo. Para scraping de passagens aéreas, isso significa:

  • Capacidade de escolher um país específico e até mesmo uma cidade — crítico se você está verificando preços para diferentes mercados (por exemplo, preço de Moscovo vs de Londres para o mesmo voo).
  • Grande pool de IPs — milhares de endereços para rotação, permitindo fazer centenas de solicitações sem repetição.
  • Boa relação custo/benefício em grandes volumes de tráfego.
  • Suporte para modos de sessão e rotação — é possível manter uma sessão para simular um usuário real.

Cenário ideal: você está construindo um agregador ou serviço de monitoramento e precisa coletar preços de 10–20 sites ao mesmo tempo, fazendo milhares de solicitações por hora. Proxies residenciais com rotação são a sua escolha.

Proxies móveis — para os sites mais protegidos

Proxies móveis funcionam através de SIMs reais de operadores de telefonia móvel. Sua característica é que os endereços IP vêm de redes móveis (3G/4G/5G), que os sites de passagens praticamente nunca bloqueiam. A razão é simples: por trás de um IP móvel pode haver uma rede NAT, onde milhares de usuários reais estão conectados. Bloquear tal endereço significa perder milhares de clientes vivos.

  • Nível máximo de confiança por parte dos sistemas anti-bot.
  • Risco praticamente nulo de bloqueio mesmo com scraping agressivo.
  • Capacidade de mudar de IP através da troca de sessão (sem mudança física de dispositivo).
  • Custo mais alto — justificado para dados críticos ou sites complexos.

Cenário ideal: você precisa coletar dados de um site específico e complexo (por exemplo, o site direto de uma companhia aérea com Cloudflare Enterprise), onde proxies residenciais periodicamente apresentam captchas. Proxies móveis resolverão esse problema.

💡 Dica prática

Para a maioria das tarefas de monitoramento de preços de passagens aéreas, a estratégia ideal é proxies residenciais para coleta em massa + proxies móveis para sites complexos. Isso permite otimizar o orçamento sem perder a qualidade dos dados.

Características de proteção do Aviasales, Skyscanner, Google Flights e Kayak

Cada plataforma tem suas características de proteção. Compreender essas diferenças ajudará a configurar corretamente os proxies e o comportamento das solicitações.

Aviasales

O agregador russo utiliza uma combinação de limitação de taxa e análise de comportamento. O limite é de aproximadamente 30–40 solicitações por minuto de um único IP. Ao exceder — redirecionamento para captcha do Yandex SmartCaptcha. O site é relativamente tolerante a proxies residenciais com IPs russos. Importante: os preços no Aviasales dependem da geolocalização, portanto, para coletar dados corretamente, use proxies com IP do país para o qual você precisa das tarifas.

Skyscanner

Um dos agregadores mais protegidos. Utiliza Cloudflare com a configuração "Under Attack Mode" para IPs suspeitos, além de seu próprio sistema anti-bot. Proxies de data center não funcionam aqui. Proxies residenciais passam, mas exigem um ritmo lento de solicitações (não mais que 15–20 por minuto) e cabeçalhos de navegador corretos. Para o Skyscanner, recomenda-se simular uma sessão de navegador real através do Playwright ou Puppeteer com o proxy conectado.

Google Flights

O Google utiliza seus próprios algoritmos de detecção de bots — reCAPTCHA v3 e análise de padrões comportamentais. O scraping direto de HTML não funciona aqui, pois os dados são carregados via JavaScript. É necessário um navegador headless (Playwright/Puppeteer) com proxies residenciais ou móveis. O Google também é sensível à correspondência entre a geolocalização do IP e o idioma do navegador — a discrepância aumenta o risco de bloqueio.

Kayak

Agregador americano com proteção agressiva contra bots baseada em PerimeterX (agora HUMAN Security). Reconhece não apenas IPs, mas também o fingerprint TLS, a ordem dos cabeçalhos HTTP/2 e o tempo entre solicitações. Para o Kayak, são obrigatórios: proxies residenciais ou móveis, simulação de navegador real e atrasos aleatórios entre solicitações (2–8 segundos).

Plataforma Sistema de proteção Funcionam proxies de data center? Necessário headless? Tipo de proxy recomendado
Aviasales Limitação de taxa + Captcha do Yandex ❌ Não Desejável Residenciais (RU)
Skyscanner Cloudflare + sistema próprio ❌ Não ✅ Sim Residenciais / Móveis
Google Flights reCAPTCHA v3 + análise comportamental ❌ Não ✅ Obrigatório Residenciais / Móveis
Kayak HUMAN Security (PerimeterX) ❌ Não ✅ Sim Móveis

Como configurar proxies para coleta de dados sobre preços de passagens aéreas

A configuração depende da ferramenta que você está usando. Vamos considerar os cenários mais comuns.

Opção 1: Scrapers prontos e ferramentas no-code

Se você não está escrevendo código, use soluções prontas: Octoparse, ParseHub, Apify. Todos eles suportam a conexão de proxies externos. Ordem de ações:

  1. Obtenha os dados do proxy: host (IP ou domínio), porta, login, senha.
  2. Abra as configurações da sua ferramenta → seção "Proxy" ou "Network".
  3. Escolha o tipo de protocolo: HTTPS (para a maioria das tarefas) ou SOCKS5 (se precisar de um trabalho de nível mais baixo).
  4. Insira os dados de conexão. O formato geralmente é assim: login:senha@host:porta
  5. Ative a rotação de proxies — a maioria das ferramentas faz isso automaticamente quando há um pool de endereços.
  6. Execute uma solicitação de teste ao site alvo e verifique se o IP mudou.

Opção 2: Playwright / Puppeteer com proxies

Para sites complexos (Google Flights, Skyscanner), é necessário um navegador headless. Veja como conectar proxies no Playwright:

const { chromium } = require('playwright');

const browser = await chromium.launch({
  proxy: {
    server: 'http://seu-proxy-host:porta',
    username: 'seu_login',
    password: 'sua_senha'
  }
});

const page = await browser.newPage();
await page.goto('https://www.skyscanner.com/...');
// A seguir, sua lógica de extração de dados
await browser.close();

Para rotação de proxies a cada nova solicitação, crie um novo contexto de navegador com um novo proxy do seu pool. Isso simula o comportamento de diferentes usuários.

Opção 3: Python + requests/httpx

Para sites sem renderização JavaScript (ou para trabalhar com APIs de sites de passagens), o Python é adequado:

import requests
import random

proxies_pool = [
    "http://login:[email protected]:porta",
    "http://login:[email protected]:porta",
    "http://login:[email protected]:porta",
]

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "pt-BR,pt;q=0.9",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
}

proxy = {"http": random.choice(proxies_pool), "https": random.choice(proxies_pool)}

response = requests.get(
    "https://www.aviasales.ru/search/...",
    proxies=proxy,
    headers=headers,
    timeout=15
)

print(response.status_code)

Rotação de IP e gerenciamento de sessões: regras principais

A rotação correta de IP é metade do sucesso ao fazer scraping de passagens aéreas. Apenas mudar de IP não é suficiente: é preciso fazer isso de forma inteligente.

Regra 1: Um IP — uma sessão

Não use um único IP para várias solicitações paralelas. Sistemas anti-bot detectam uma carga anormalmente alta de um único endereço e o bloqueiam. Cada fluxo de solicitações deve operar através de um proxy separado.

Regra 2: Atrasos aleatórios entre solicitações

Um usuário real não faz solicitações em intervalos de tempo iguais. Adicione um atraso aleatório de 2 a 8 segundos entre as solicitações. Isso reduz a probabilidade de detecção por bots em 3–4 vezes em comparação com solicitações uniformes.

Regra 3: Correspondência de geolocalização e idioma

Se você está usando proxies com IPs alemães, os cabeçalhos do navegador devem estar em alemão (Accept-Language: de-DE). A discrepância é um sinal claro para sistemas anti-bot. Isso é especialmente importante para Google Flights.

Regra 4: Proxies de sessão para solicitações em várias etapas

Alguns sites de passagens exigem várias etapas: pesquisa → seleção de voo → visualização de detalhes. Todas essas etapas devem ser realizadas a partir de um único IP. Use sessões sticky (sessões fixas) — um modo em que um IP é atribuído ao seu fluxo por um determinado tempo (geralmente 10–30 minutos).

Regra 5: Monitoramento da qualidade dos proxies

Verifique regularmente quais IPs do pool estão bloqueados. Exclua automaticamente endereços que retornam código 403, 429 ou redirecionamento para captcha. A maioria dos frameworks de scraping profissionais (Scrapy, Apify) faz isso automaticamente.

Ferramentas prontas para scraping de preços de passagens aéreas

Se você não quer escrever um scraper do zero, aqui estão ferramentas que já suportam trabalhar com proxies e são adequadas para monitoramento de preços de aviação:

Apify

Plataforma em nuvem para web scraping. Tem atores (bots) prontos para Skyscanner e Google Flights. Suporta a conexão de proxies externos através das configurações. Para conectar seus proxies: vá para as configurações do ator → aba "Proxy and browser configuration" → selecione "Custom proxies" → cole a URL dos seus proxies no formato http://user:pass@host:port.

Octoparse

Scraper no-code com interface visual. Adequado para quem não escreve código. Suporta rotação de proxies: Configurações → Extração em Nuvem → Configurações de Proxy → Adicionar Proxy Personalizado. Você pode adicionar uma lista de proxies, e o Octoparse os alternará automaticamente.

Scrapy + Scrapy-Rotating-Proxies

Framework Python para scraping profissional. O plugin scrapy-rotating-proxies rotaciona automaticamente IPs da sua lista e exclui endereços bloqueados. Adequado para tarefas de alta carga — centenas de milhares de solicitações por dia.

ParseHub

Outra ferramenta no-code com suporte para renderização JavaScript. Funciona bem com Aviasales. Proxies são conectados na seção Configurações → Avançado → Proxy.

⚠️ Importante sobre geotargeting de preços

Os sites de passagens mostram preços diferentes dependendo do país do usuário. Isso não é apenas uma estratégia de marketing — é uma realidade técnica. Se você está monitorando preços para o mercado russo, use proxies com IPs russos. Para comparar preços entre mercados (por exemplo, quanto custa o mesmo voo para um usuário da Alemanha), você precisa de proxies com IPs dos países correspondentes.

Checklist: como não ser banido ao coletar preços de passagens aéreas

Salve esta lista — ela ajudará a evitar a maioria dos problemas ao configurar o scraping:

✅ Antes de iniciar o scraper

  • Proxies residenciais ou móveis selecionados (não de data center)
  • IP do proxy corresponde ao mercado alvo (país/cidade)
  • Idioma do navegador corresponde à geolocalização do proxy
  • Rotação de IP configurada (mínimo de 1 IP por fluxo)
  • Os cabeçalhos User-Agent imitam um navegador real
  • Para sites JS, um navegador headless é utilizado (Playwright/Puppeteer)

✅ Durante a operação do scraper

  • Atrasos entre solicitações: 2–8 segundos (aleatórios)
  • Não mais que 20–30 solicitações por minuto de um único IP
  • Sessões em várias etapas usam um único IP (sessão fixa)
  • Códigos 403/429 excluem automaticamente o IP do pool
  • Registro de todos os erros para análise

✅ Adicionalmente para sites complexos

  • Cabeçalhos Referer e Accept corretos
  • Imitação de movimento do mouse e rolagem (para Playwright)
  • Alteração aleatória do User-Agent de um pool real de navegadores
  • Uso de cookies de sessão para simular visitas repetidas

Erros típicos que levam a bans

  • Uso de proxies gratuitos. Seus IPs já estão listados em listas negras de todos os grandes sites de passagens. Você será bloqueado na primeira solicitação.
  • Frequência de solicitações muito alta. Mesmo com bons proxies, 100 solicitações por minuto de um único IP é um caminho certo para o ban.
  • User-Agent idêntico para todas as solicitações. Usuários reais usam diferentes navegadores e versões — seu scraper deve imitar isso.
  • Ignorar cookies. Muitos sites rastreiam a sessão através de cookies. Se você não salva e não transmite cookies entre solicitações, o comportamento parece anômalo.
  • Incompatibilidade entre geolocalização e conteúdo da solicitação. Solicitar a versão em russo do site através de um IP americano é um sinal vermelho para sistemas anti-bot.

Conclusão

Coletar dados sobre preços de passagens aéreas é uma das tarefas mais tecnicamente complexas em scraping. Sites de passagens investem recursos significativos na proteção contra bots, e contorná-la sem as ferramentas corretas é impossível. As principais conclusões deste artigo:

  • Proxies de data center não funcionam para sites de passagens — eles são bloqueados instantaneamente.
  • Proxies residenciais são a escolha ideal para monitoramento em larga escala de preços de diferentes mercados.
  • Proxies móveis são necessários para plataformas mais protegidas (Kayak, Skyscanner) e dados críticos.
  • Rotação de IP, atrasos aleatórios e simulação de navegador real são condições obrigatórias para um funcionamento estável.
  • A geolocalização do proxy deve corresponder ao mercado alvo, caso contrário, os preços serão incorretos.

Se você planeja construir um sistema de monitoramento de preços de passagens aéreas ou coletar dados para um agregador, comece com proxies residenciais — eles oferecem o equilíbrio necessário entre qualidade de contorno de proteção, cobertura geográfica e custo. Para os sites mais complexos com proteção anti-bot agressiva, considere proxies móveis — eles oferecem o nível máximo de confiança por parte dos sistemas anti-bot e praticamente eliminam bloqueios com a configuração correta.

```