Por que alguns sites não abrem através de proxy: guia completo
Proxy é uma ferramenta indispensável para web scraping, testes, automação de SMM e contorno de restrições geográficas. Mas às vezes, em vez de conteúdo, você vê um erro 403, timeout ou uma página em branco. Vamos descobrir por que isso acontece e como corrigir.
1. Detecção e bloqueio de proxy
Esta é a razão mais comum. Aplicações web modernas usam serviços especiais para detectar tráfego de proxy. O site analisa:
- ASN (Número do Sistema Autônomo) — muitos provedores de proxy usam intervalos de ASN conhecidos, que são fáceis de bloquear
- Comportamento do usuário — alternância impossível rápida entre IPs, ausência de cookies, padrões de cliques estranhos
- Impressões digitais TLS — os navegadores enviam dados únicos sobre versão SSL, extensões, ordem de criptografia
- Impressões digitais WebGL e Canvas — até mesmo JavaScript pode revelar o uso de proxy
Exemplo: O site vê que em 10 segundos, 100 páginas de produtos foram carregadas do seu IP. Isso claramente não é uma pessoa — o bloqueio é inevitável.
2. Restrições geográficas
O site verifica a geolocalização do IP e nega acesso se não corresponder às expectativas:
- Bancos e serviços financeiros bloqueiam acesso de determinados países
- Serviços de streaming (Netflix, YouTube) limitam conteúdo por regiões
- Sites governamentais podem estar indisponíveis de fora
- Plataformas de e-commerce alteram idioma e moeda com base no IP
Se você usar proxy de data center dos EUA, e o site exigir acesso apenas da Europa — você receberá um erro 403 ou redirecionamento.
3. Reputação do endereço IP
Cada IP tem um histórico. Se o endereço foi usado anteriormente para spam, parsing ou ataques DDoS, os sites o bloquearão:
- Listas negras — o IP entra em bases de dados como Project Honey Pot, Spamhaus, AbuseIPDB
- Pontuação baixa em serviços como IPQualityScore — os sites usam esses serviços para filtrar
- Violações anteriores — se o IP já foi bloqueado no site, pode permanecer na lista negra por muito tempo
Você pode verificar a reputação do IP em abuseipdb.com ou ipqualityscore.com.
4. Cabeçalhos incorretos e configuração
Frequentemente, os sites bloqueiam solicitações devido à ausência ou incorreção de cabeçalhos HTTP:
| Cabeçalho | Problema |
|---|---|
User-Agent |
Ausente ou estranho (como Python-requests/2.25.1) |
Referer |
Não corresponde à lógica de navegação do site |
Accept-Language |
Ausente ou não corresponde à geolocalização do IP |
X-Forwarded-For |
Revela o uso de proxy ou VPN |
Solução: Use cabeçalhos reais do navegador. Aqui está um exemplo em Python:
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1'
}
proxy = 'http://your-proxy:port'
response = requests.get('https://example.com',
headers=headers,
proxies={'http': proxy, 'https': proxy})
5. Problemas com protocolo e portas
Alguns proxies suportam apenas HTTP, mas você está tentando acessar um site HTTPS. Ou a porta está bloqueada no nível da rede:
- HTTP vs HTTPS — certifique-se de que o proxy suporta ambos os protocolos
- Portas — padrão 80 (HTTP) e 443 (HTTPS), mas alguns sites usam portas não padrão
- SOCKS vs HTTP — diferentes tipos de proxy têm limitações diferentes
Dica: Se o site não abrir através de proxy HTTP, tente SOCKS5. Ele funciona em um nível mais baixo e contorna melhor algumas restrições.
6. Rate limiting e proteção DDoS
Se você fizer muitas solicitações seguidas, mesmo através de IPs diferentes, o site pode bloqueá-lo:
- 429 Too Many Requests — você excedeu o limite de solicitações
- Bloqueio temporário — geralmente por 1-24 horas
- Bloqueio permanente — se você continuar atacando o servidor
- Cloudflare, WAF — sistemas de proteção especializados que diferenciam bots de pessoas
7. Soluções práticas
✓ Use proxies residenciais em vez de data centers
Proxies residenciais são endereços IP reais de usuários domésticos. Eles são muito mais difíceis de detectar porque parecem tráfego comum. Os data centers geralmente são bloqueados porque seu ASN é conhecido.
✓ Adicione atrasos entre solicitações
import time
import random
for url in urls:
response = requests.get(url, headers=headers, proxies=proxies)
# Atraso aleatório de 1 a 5 segundos
time.sleep(random.uniform(1, 5))
✓ Alterne proxies
Não use um IP para todas as solicitações. Alterne entre diferentes endereços:
proxies_list = [
'http://proxy1:port',
'http://proxy2:port',
'http://proxy3:port',
]
for i, url in enumerate(urls):
proxy = proxies_list[i % len(proxies_list)]
response = requests.get(url, proxies={'http': proxy, 'https': proxy})
✓ Verifique o IP antes de usar
Certifique-se de que o IP não está em uma lista negra:
import requests
def check_ip_reputation(ip):
response = requests.get(f'https://ipqualityscore.com/api/json/ip/{ip}')
data = response.json()
return data.get('fraud_score', 0)
# Use apenas IPs com pontuação baixa
if check_ip_reputation(proxy_ip) < 75:
# IP é seguro
pass
✓ Use automação de navegador para sites complexos
Se o site usar JavaScript e proteção complexa, solicitações HTTP comuns não ajudarão. Use Selenium ou Puppeteer:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://proxy:port')
driver = webdriver.Chrome(options=options)
driver.get('https://example.com')
✓ Use proxies móveis para sites móveis
Proxies móveis funcionam através de redes móveis reais (4G/5G). Eles são mais confiáveis para aplicativos móveis e frequentemente não são bloqueados por sites que restringem acesso para PC.
✓ Trate erros corretamente
try:
response = requests.get(url, proxies=proxies, timeout=10)
response.raise_for_status()
except requests.exceptions.ProxyError:
print("Erro de proxy — o IP pode estar bloqueado")
except requests.exceptions.Timeout:
print("Timeout — o servidor não responde")
except requests.exceptions.HTTPError as e:
if response.status_code == 403:
print("Acesso negado — tente outro proxy")
Resumo
Os sites bloqueiam proxies por várias razões: desde detecção de padrões de tráfego até reputação simples do IP. Não há uma solução universal, mas uma combinação de bons proxies, cabeçalhos corretos, atrasos e rotação de IP resolverá a maioria dos problemas.
Para parsing e automação, recomenda-se usar proxies residenciais de qualidade, que parecem tráfego real de usuários domésticos. Eles são mais caros que data centers, mas funcionam de forma mais confiável e raramente são bloqueados.