```html

Pourquoi certains sites ne s'ouvrent pas via proxy : guide complet

Les proxies sont un outil indispensable pour le web scraping, les tests, l'automatisation SMM et le contournement des restrictions géographiques. Mais parfois, au lieu du contenu, vous voyez une erreur 403, un timeout ou une page vide. Découvrez pourquoi cela se produit et comment le corriger.

1. Détection et blocage des proxies

C'est la raison la plus courante. Les applications web modernes utilisent des services spécialisés pour détecter le trafic proxy. Le site analyse :

ASN (Autonomous System Number) — de nombreux fournisseurs de proxies utilisent des plages ASN connues, faciles à bloquer
Comportement de l'utilisateur — changements d'IP impossiblement rapides, absence de cookies, modèles de clics étranges
Empreintes TLS — les navigateurs envoient des données uniques sur la version SSL, les extensions, l'ordre de chiffrement
Empreintes WebGL et Canvas — même JavaScript peut révéler l'utilisation d'un proxy

Exemple : Le site voit que 100 pages de produits ont été chargées à partir de votre IP en 10 secondes. Ce n'est clairement pas un humain — le blocage est inévitable.

2. Restrictions géographiques

Le site vérifie la géolocalisation de l'IP et refuse l'accès si elle ne correspond pas aux attentes :

Les banques et services financiers bloquent l'accès depuis certains pays
Les services de streaming (Netflix, YouTube) limitent le contenu par région
Les sites gouvernementaux peuvent être inaccessibles de l'extérieur
Les plateformes de commerce électronique changent la langue et la devise en fonction de l'IP

Si vous utilisez un proxy de centre de données des États-Unis, mais que le site exige un accès uniquement depuis l'Europe — vous recevrez une erreur 403 ou une redirection.

3. Réputation de l'adresse IP

Chaque IP a un historique. Si l'adresse a été utilisée précédemment pour le spam, le scraping ou les attaques DDoS, les sites la bloqueront :

Listes noires — l'IP figure dans les bases de données Project Honey Pot, Spamhaus, AbuseIPDB
Score faible dans des services comme IPQualityScore — les sites utilisent ces services pour filtrer
Violations antérieures — si l'IP a déjà été bloquée sur le site, elle peut rester sur la liste noire longtemps

Vous pouvez vérifier la réputation de l'IP sur abuseipdb.com ou ipqualityscore.com.

4. En-têtes incorrects et configuration

Souvent, les sites bloquent les requêtes en raison d'en-têtes HTTP manquants ou incorrects :

En-tête	Problème
`User-Agent`	Manquant ou étrange (comme Python-requests/2.25.1)
`Referer`	Ne correspond pas à la logique de navigation du site
`Accept-Language`	Manquant ou ne correspond pas à la géolocalisation IP
`X-Forwarded-For`	Révèle l'utilisation d'un proxy ou VPN

Solution : Utilisez les en-têtes de navigateur réels. Voici un exemple en Python :

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en-US,en;q=0.5',
    'Accept-Encoding': 'gzip, deflate',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}

proxy = 'http://your-proxy:port'
response = requests.get('https://example.com', 
                       headers=headers, 
                       proxies={'http': proxy, 'https': proxy})

5. Problèmes de protocole et de ports

Certains proxies ne supportent que HTTP, alors que vous essayez d'accéder à un site HTTPS. Ou le port est bloqué au niveau du réseau :

HTTP vs HTTPS — assurez-vous que le proxy supporte les deux protocoles
Ports — les ports standard sont 80 (HTTP) et 443 (HTTPS), mais certains sites utilisent des ports non standard
SOCKS vs HTTP — différents types de proxies ont des limitations différentes

Conseil : Si le site ne s'ouvre pas via un proxy HTTP, essayez SOCKS5. Il fonctionne à un niveau inférieur et contourne mieux certaines restrictions.

6. Limitation de débit et protection DDoS

Si vous faites beaucoup de requêtes d'affilée, même via différentes IP, le site peut vous bloquer :

429 Too Many Requests — vous avez dépassé la limite de requêtes
Blocage temporaire — généralement de 1 à 24 heures
Blocage permanent — si vous continuez à attaquer le serveur
Cloudflare, WAF — systèmes de protection spécialisés qui distinguent les bots des humains

7. Solutions pratiques

✓ Utilisez des proxies résidentiels au lieu de centres de données

Les proxies résidentiels sont des adresses IP réelles d'utilisateurs domestiques. Ils sont beaucoup plus difficiles à détecter car ils ressemblent à du trafic normal. Les centres de données sont souvent bloqués car leur ASN est connu.

✓ Ajoutez des délais entre les requêtes

import time
import random

for url in urls:
    response = requests.get(url, headers=headers, proxies=proxies)
    # Délai aléatoire de 1 à 5 secondes
    time.sleep(random.uniform(1, 5))

✓ Faites tourner les proxies

N'utilisez pas une seule IP pour toutes les requêtes. Alternez entre différentes adresses :

proxies_list = [
    'http://proxy1:port',
    'http://proxy2:port',
    'http://proxy3:port',
]

for i, url in enumerate(urls):
    proxy = proxies_list[i % len(proxies_list)]
    response = requests.get(url, proxies={'http': proxy, 'https': proxy})

✓ Vérifiez l'IP avant utilisation

Assurez-vous que l'IP n'est pas sur liste noire :

import requests

def check_ip_reputation(ip):
    response = requests.get(f'https://ipqualityscore.com/api/json/ip/{ip}')
    data = response.json()
    return data.get('fraud_score', 0)

# Utilisez uniquement les IP avec un score faible
if check_ip_reputation(proxy_ip) < 75:
    # L'IP est sûre
    pass

✓ Utilisez l'automatisation de navigateur pour les sites complexes

Si le site utilise JavaScript et une protection complexe, les requêtes HTTP ordinaires ne suffiront pas. Utilisez Selenium ou Puppeteer :

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://proxy:port')

driver = webdriver.Chrome(options=options)
driver.get('https://example.com')

✓ Utilisez des proxies mobiles pour les sites mobiles

Les proxies mobiles fonctionnent via des réseaux mobiles réels (4G/5G). Ils sont plus fiables pour les applications mobiles et ne sont souvent pas bloqués par les sites qui limitent l'accès pour les ordinateurs.

✓ Gérez les erreurs correctement

try:
    response = requests.get(url, proxies=proxies, timeout=10)
    response.raise_for_status()
except requests.exceptions.ProxyError:
    print("Erreur proxy — l'IP peut être bloquée")
except requests.exceptions.Timeout:
    print("Timeout — le serveur ne répond pas")
except requests.exceptions.HTTPError as e:
    if response.status_code == 403:
        print("Accès refusé — essayez un autre proxy")

Résumé

Les sites bloquent les proxies pour diverses raisons : de la détection des modèles de trafic à la simple réputation de l'IP. Il n'y a pas de solution universelle, mais une combinaison de bons proxies, d'en-têtes corrects, de délais et de rotation d'IP résoudra la plupart des problèmes.

Pour le scraping et l'automatisation, il est recommandé d'utiliser des proxies résidentiels de qualité, qui ressemblent à du trafic réel d'utilisateurs domestiques. Ils sont plus chers que les centres de données, mais fonctionnent de manière plus fiable et sont rarement bloqués.