Назад к блогу

Прокси для парсинга AliExpress: как собирать данные о товарах без блокировок

Разбираем как настроить безопасный парсинг каталогов AliExpress через прокси: какие типы IP использовать, как избежать блокировок и автоматизировать сбор данных о товарах и ценах.

📅23 января 2026 г.

AliExpress активно борется с автоматическим сбором данных — парсеры получают капчи, временные баны по IP и требования авторизации. Если вы мониторите цены конкурентов, ищете трендовые товары для дропшиппинга или собираете базу для маркетплейса, без правильно настроенных прокси работа превращается в постоянную борьбу с блокировками.

В этом руководстве разберём как выбрать прокси для парсинга AliExpress, настроить ротацию IP-адресов, обойти антибот-системы и автоматизировать сбор данных о товарах, ценах и отзывах без риска попасть в бан.

Почему AliExpress блокирует парсинг и как это работает

AliExpress использует многоуровневую систему защиты от автоматического сбора данных. Платформа теряет деньги когда конкуренты массово копируют каталоги, а серверы перегружаются от ботов. Поэтому защита постоянно совершенствуется и становится агрессивнее.

Основные методы обнаружения парсеров:

  • Частота запросов с одного IP — если за минуту приходит 50+ запросов с одного адреса, система автоматически показывает капчу или временно блокирует IP на 30-60 минут
  • Анализ поведения — боты открывают страницы слишком быстро (0.5-1 секунда), не двигают мышью, не скроллят, не кликают на элементы интерфейса
  • Отсутствие cookies — нормальные пользователи накапливают cookies при посещении сайта, парсеры часто работают с чистой сессией
  • Подозрительный User-Agent — старые версии браузеров, серверные библиотеки (Python-requests, curl), отсутствие мобильных устройств в статистике
  • Fingerprint браузера — AliExpress собирает отпечаток: разрешение экрана, часовой пояс, установленные шрифты, WebGL, Canvas. Одинаковые fingerprint с разных IP — признак бота

Когда система обнаруживает подозрительную активность, она применяет градацию блокировок: сначала показывает капчу, затем временный бан IP на 1-2 часа, при повторных нарушениях — бан на сутки или постоянный.

Важно: AliExpress использует Cloudflare и собственную антибот-систему. Они анализируют не только IP, но и TLS-fingerprint (версия протокола, порядок шифров) — даже с прокси можно попасть в бан если использовать устаревшие HTTP-клиенты.

Какие типы прокси подходят для парсинга AliExpress

Выбор типа прокси зависит от объёма парсинга, бюджета и требований к качеству данных. Разберём каждый тип с реальными сценариями использования.

Тип прокси Скорость Риск блокировки Когда использовать
Прокси дата-центров Высокая (50-150 мс) Высокий Быстрый парсинг публичных данных с частой ротацией IP
Резидентные прокси Средняя (200-500 мс) Низкий Долгосрочный парсинг, сбор данных с авторизацией
Мобильные прокси Средняя (300-700 мс) Очень низкий Парсинг с мобильной версии, обход жёстких блокировок

Прокси дата-центров для быстрого парсинга

Подходят когда нужно быстро собрать большой объём данных: цены на 10000+ товаров, характеристики категорий, список продавцов. Скорость отклика 50-150 мс позволяет делать 5-10 запросов в секунду с одного IP.

Сценарий использования: У вас дропшиппинг-магазин на Shopify, нужно ежедневно обновлять цены на 5000 товаров из AliExpress. Покупаете пул из 50-100 IP дата-центров с ротацией каждые 10-15 запросов. За 2-3 часа собираете все данные, затраты на прокси — 50-100$ в месяц.

Минусы: AliExpress знает диапазоны IP дата-центров и относится к ним подозрительно. Нужна агрессивная ротация (менять IP каждые 5-10 запросов) и эмуляция поведения (случайные задержки 2-5 секунд между запросами).

Резидентные прокси для стабильного парсинга

Резидентные прокси имеют IP реальных домашних пользователей — провайдеры выдают их физическим лицам. AliExpress не может отличить запрос через такой прокси от запроса обычного покупателя. Это снижает риск блокировок в 5-10 раз по сравнению с дата-центрами.

Сценарий использования: Вы мониторите цены конкурентов для своего магазина на Ozon. Нужно каждый день проверять 200-300 товаров, сравнивать цены на AliExpress и у российских поставщиков. Используете 10-20 резидентных IP с ротацией каждые 50-100 запросов. Парсинг занимает 30-40 минут, блокировок нет месяцами.

Плюсы: Можно работать с одного IP дольше (100-200 запросов вместо 10-20), меньше капч, возможность авторизации и работы с личным кабинетом продавца.

Мобильные прокси для обхода жёстких блокировок

Мобильные IP (3G/4G/5G операторов) имеют максимальное доверие — AliExpress не может блокировать целые подсети мобильных операторов, это заблокирует миллионы реальных покупателей. Один мобильный IP могут использовать сотни устройств (NAT), поэтому даже агрессивный парсинг выглядит как активность разных пользователей.

Сценарий использования: Вы уже попали в бан по резидентным IP в определённом регионе, нужно срочно собрать данные для отчёта клиенту. Берёте 2-3 мобильных прокси, парсите через мобильную версию сайта (m.aliexpress.com). Даже с агрессивным парсингом (1 запрос в секунду) блокировок нет.

Минусы: Дороже резидентных в 2-3 раза, меньшая скорость (300-700 мс задержка), IP может меняться при переподключении оператора.

Настройка ротации IP: частота смены и таймауты

Правильная ротация IP — ключ к долгосрочному парсингу без блокировок. Слишком частая смена выглядит подозрительно и тратит прокси, слишком редкая — приводит к банам.

Рекомендуемая частота ротации по типам прокси

Тип прокси Запросов на 1 IP Задержка между запросами Время жизни сессии
Дата-центры 5-15 запросов 2-5 секунд 1-3 минуты
Резидентные 50-150 запросов 3-8 секунд 10-30 минут
Мобильные 100-300 запросов 1-3 секунды 30-60 минут

Стратегии ротации для разных задач

1. Быстрый парсинг каталога (10000+ товаров за час)

  • Используйте пул из 100-200 IP дата-центров
  • Ротация каждые 5-10 запросов
  • Параллельные потоки: 10-20 одновременных запросов с разных IP
  • Задержка между запросами: 1-2 секунды (имитация быстрого пользователя)
  • Если получили капчу на IP — исключаете его из пула на 2-3 часа

2. Ежедневный мониторинг цен (500-1000 товаров)

  • Используйте 10-20 резидентных IP
  • Ротация каждые 50-100 запросов
  • Последовательные запросы с задержкой 3-5 секунд
  • Сохраняйте cookies между запросами с одного IP
  • Имитируйте поведение: иногда открывайте главную страницу, категории

3. Парсинг с авторизацией (личный кабинет продавца)

  • Один резидентный или мобильный IP на аккаунт
  • Без ротации в течение сессии (30-60 минут)
  • Задержка 5-10 секунд между запросами
  • Полная эмуляция браузера: сохранение cookies, localStorage, fingerprint

Совет: Добавляйте случайность в задержки. Вместо фиксированных 3 секунд используйте диапазон 2-5 секунд. Это делает паттерн запросов менее предсказуемым для антибот-систем.

Обход антибот-систем: User-Agent, cookies и fingerprint

Смена IP решает только часть проблемы. AliExpress анализирует десятки параметров запросов и поведения, чтобы отличить бота от человека. Разберём что нужно настроить помимо прокси.

User-Agent и HTTP-заголовки

User-Agent сообщает серверу какой браузер и операционная система делают запрос. Парсеры часто используют дефолтные значения библиотек (Python-requests/2.28.0), которые мгновенно вычисляются.

Правильная настройка User-Agent:

  • Используйте актуальные версии популярных браузеров: Chrome 120+, Firefox 121+, Safari 17+
  • Меняйте User-Agent при ротации IP — один IP не должен показывать разные браузеры
  • Добавляйте мобильные User-Agent в пропорции 40-50% (половина трафика AliExpress — мобильные устройства)
  • Копируйте полный набор заголовков из реального браузера: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests

Пример правильных заголовков для десктопа:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1

Пример для мобильного устройства:

User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br

Работа с cookies и сессиями

AliExpress устанавливает cookies при первом посещении: идентификатор сессии, настройки языка и валюты, токены для отслеживания. Парсеры без cookies выглядят подозрительно — нормальный пользователь накапливает их при навигации по сайту.

Правильная работа с cookies:

  • Перед парсингом откройте главную страницу и сохраните все cookies
  • Используйте эти cookies для всех последующих запросов с того же IP
  • При смене IP — начинайте новую сессию с новыми cookies
  • Сохраняйте cookies между запусками парсера — это имитирует возвращающегося пользователя
  • Обновляйте cookies каждые 1-2 часа (открывайте главную страницу заново)

Browser fingerprint и TLS-fingerprint

Современные антибот-системы собирают цифровой отпечаток браузера — комбинацию десятков параметров, которая уникально идентифицирует устройство. Даже с разных IP одинаковый fingerprint выдаёт бота.

Что входит в browser fingerprint:

  • Разрешение экрана и глубина цвета
  • Часовой пояс и язык системы
  • Список установленных шрифтов
  • WebGL и Canvas fingerprint (уникальный способ рендеринга графики)
  • Аудио-контекст (AudioContext fingerprint)
  • Список плагинов браузера
  • Поддержка WebRTC, Battery API и других современных API

Простые HTTP-библиотеки (requests, axios, curl) не имеют этих параметров — они работают на уровне протокола без рендеринга. Для серьёзного парсинга нужны инструменты с полноценным браузером.

Решения для эмуляции браузера:

  • Selenium + undetected-chromedriver — запускает реальный Chrome с модификациями для обхода детекта
  • Puppeteer + puppeteer-extra-plugin-stealth — Node.js библиотека с плагинами для маскировки автоматизации
  • Playwright — современная альтернатива Selenium с лучшей производительностью
  • Antidetect-браузеры — Dolphin Anty, AdsPower, Multilogin (для работы через интерфейс)

Важно: TLS-fingerprint (отпечаток SSL-соединения) тоже анализируется. Старые версии Python и Node.js используют устаревшие наборы шифров, которые выдают бота. Используйте актуальные версии библиотек или curl_cffi для имитации современных браузеров.

Готовые инструменты для парсинга AliExpress

Писать парсер с нуля имеет смысл только для специфических задач. Для стандартного сбора данных (товары, цены, отзывы) есть готовые решения, которые экономят недели разработки.

Коммерческие сервисы с API

1. ScraperAPI (scrape.do, scrapingbee.com)

Облачные сервисы, которые берут на себя всю работу с прокси и обходом защиты. Вы отправляете им URL товара AliExpress, они возвращают HTML или JSON с данными.

  • Плюсы: не нужны свои прокси, автоматический обход капч, готовые парсеры для популярных сайтов
  • Минусы: дорого при больших объёмах (от 50$ за 100K запросов), зависимость от стороннего сервиса
  • Когда использовать: разовые задачи, прототипирование, небольшие объёмы (до 10K товаров в месяц)

2. Bright Data (luminati.io)

Крупнейший провайдер прокси с собственными инструментами для парсинга. Предоставляют не только прокси, но и готовые datasets с AliExpress (обновляемые базы товаров).

  • Плюсы: огромный пул IP (72+ млн резидентных), инфраструктура для Enterprise-клиентов
  • Минусы: очень дорого (от 500$ в месяц), сложная тарификация
  • Когда использовать: крупный бизнес с бюджетом, постоянный парсинг больших объёмов

Open-source решения

1. Scrapy + scrapy-rotating-proxies

Популярный фреймворк для парсинга на Python. Поддерживает асинхронные запросы, автоматическую ротацию прокси, экспорт в CSV/JSON/базу данных.

Пример настройки прокси в Scrapy:

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:pass@proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'http://user:pass@proxy3.example.com:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

# Настройки для обхода бана
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300  # время бана прокси в секундах

2. Puppeteer + puppeteer-extra-plugin-stealth

Для сайтов с агрессивной защитой (как AliExpress) нужен полноценный браузер. Puppeteer управляет Chrome через DevTools Protocol, плагин stealth маскирует признаки автоматизации.

// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8000',
      '--no-sandbox',
      '--disable-setuid-sandbox'
    ]
  });

  const page = await browser.newPage();
  
  // Авторизация прокси
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });

  // Установка реалистичного viewport
  await page.setViewport({
    width: 1920,
    height: 1080,
    deviceScaleFactor: 1
  });

  // Парсинг товара
  await page.goto('https://www.aliexpress.com/item/1234567890.html', {
    waitUntil: 'networkidle2'
  });

  const productData = await page.evaluate(() => {
    return {
      title: document.querySelector('.product-title-text')?.innerText,
      price: document.querySelector('.product-price-value')?.innerText,
      rating: document.querySelector('.overview-rating-average')?.innerText
    };
  });

  console.log(productData);
  await browser.close();
})();

Desktop-приложения для нетехнических пользователей

1. Octoparse

Визуальный парсер без кода — кликаете на элементы страницы, программа запоминает структуру и собирает данные. Встроенная поддержка прокси и планировщик задач.

  • Плюсы: не нужно программировать, работает с динамическим контентом, облачная версия для фоновой работы
  • Минусы: ограничения в бесплатной версии (10K строк в месяц), иногда не справляется со сложной защитой
  • Цена: от 75$ в месяц для Standard плана

2. ParseHub

Аналог Octoparse с более простым интерфейсом. Хорошо работает с AliExpress благодаря встроенным шаблонам для популярных сайтов.

  • Плюсы: бесплатный тариф на 200 страниц, простая настройка прокси
  • Минусы: медленная работа в бесплатной версии, нет продвинутых функций (API, webhooks)

Геотаргетинг: как парсить цены для разных стран

AliExpress показывает разные цены, ассортимент и условия доставки в зависимости от страны пользователя. Если вы работаете с международным дропшиппингом или сравниваете цены для разных рынков, нужны прокси из конкретных регионов.

Как AliExpress определяет страну пользователя

Платформа использует несколько источников данных:

  • IP-адрес — основной способ, определяет страну по геолокации IP
  • Cookies — сохраняет выбранную страну в aep_usuc_f (можно подменить)
  • Accept-Language заголовок — язык браузера, но не определяющий фактор
  • Валюта в URL — параметры ?currency=USD или поддомены (ru.aliexpress.com)

Для надёжного парсинга цен конкретной страны нужно использовать прокси из этого региона. Подмена только cookies не всегда работает — AliExpress приоритизирует IP-геолокацию.

Популярные регионы для парсинга и их особенности

Страна Особенности цен Зачем парсить
США Цены в USD, часто ниже чем в Европе Дропшиппинг в США, сравнение с Amazon
Россия Цены в RUB, учёт пошлин и НДС Сравнение с Wildberries, Ozon
Германия Цены в EUR, быстрая доставка из EU складов Дропшиппинг в Европе, eBay.de
Бразилия Высокие цены из-за пошлин, но большой спрос Локальный e-commerce (Mercado Livre)

Настройка геотаргетинга через прокси

Большинство провайдеров резидентных и мобильных прокси позволяют выбирать страну (и даже город) через параметры подключения или API.

Пример выбора страны через username прокси:

# Формат: username-country-код_страны
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"

# Парсинг цены для США
response_us = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_us, "https": proxy_us}
)

# Парсинг цены для Германии
response_de = requests.get(
    "https://www.aliexpress.com/item/1234567890.html",
    proxies={"http": proxy_de, "https": proxy_de}
)

Дополнительно настройте заголовки под регион:

  • Accept-Language: en-US для США, de-DE для Германии, pt-BR для Бразилии
  • Используйте соответствующий поддомен: ru.aliexpress.com для России, de.aliexpress.com для Германии
  • Проверяйте валюту в ответе — если видите не ту валюту, значит геотаргетинг не сработал

Типичные ошибки при парсинге и как их избежать

Даже с правильными прокси и настройками можно получить блокировки из-за ошибок в логике парсинга. Разберём частые проблемы и решения.

Ошибка 1: Слишком агрессивный парсинг

Проблема: Парсер делает 100 запросов в минуту с одного IP, пытаясь собрать данные быстрее. AliExpress детектирует это как DDoS-атаку и блокирует IP.

Решение: Добавьте задержки и ограничение на количество запросов. Для резидентных прокси безопасная скорость — 10-20 запросов в минуту с одного IP (1 запрос в 3-6 секунд). Лучше парсить дольше, чем терять прокси.

Ошибка 2: Игнорирование капч и ошибок

Проблема: Парсер получает страницу с капчей, но продолжает парсить её как обычный контент. В результате — тысячи пустых записей в базе данных.

Решение: Проверяйте ответ сервера перед парсингом. Если в HTML есть слова "captcha", "Access Denied" или код ответа 403/429 — прекращайте использовать этот IP на 1-2 часа.

def is_blocked(html):
    blocked_keywords = ['captcha', 'access denied', 'too many requests']
    return any(keyword in html.lower() for keyword in blocked_keywords)

response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
    print(f"Proxy {proxy} is blocked, switching...")
    # Исключаем прокси из пула на 2 часа
    blocked_proxies[proxy] = time.time() + 7200
    continue

Ошибка 3: Парсинг устаревших данных

Проблема: AliExpress кеширует страницы через CDN (Cloudflare). Парсер получает данные 2-3 часовой давности вместо актуальных цен.

Решение: Добавляйте случайный параметр в URL чтобы обойти кеш, или используйте заголовок Cache-Control: no-cache.

import random
import time

# Добавляем timestamp в URL чтобы обойти кеш
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"

# Или используем заголовок
headers = {
    'Cache-Control': 'no-cache',
    'Pragma': 'no-cache'
}

Ошибка 4: Неправильная обработка динамического контента

Проблема: Цены и характеристики товаров на AliExpress подгружаются через JavaScript после загрузки страницы. Простой HTTP-запрос получает пустой HTML-шаблон без данных.

Решение: Используйте headless-браузер (Selenium, Puppeteer, Playwright) который выполняет JavaScript и ждёт полной загрузки контента. Или найдите API-эндпоинт который возвращает данные в JSON — часто он доступен через DevTools в Network.

Ошибка 5: Отсутствие логирования и мониторинга

Проблема: Парсер работает неделю, собирает данные, но никто не проверяет качество. Оказывается 30% записей — пустые из-за изменений в структуре сайта.

Решение: Логируйте все важные события — успешные запросы, ошибки, блокировки прокси, изменения структуры данных. Настройте алерты при росте количества ошибок выше 10%.

Чек-лист перед запуском парсера:
✅ Задержки между запросами настроены (3-8 секунд для резидентных прокси)
✅ Ротация IP работает (не более 50-100 запросов на один IP)
✅ User-Agent актуальный и меняется вместе с IP
✅ Cookies сохраняются и используются повторно
✅ Есть проверка на капчу и блокировки
✅ Логирование и мониторинг настроены
✅ Тестовый запуск на 100 товарах прошёл успешно

Заключение

Парсинг AliExpress требует комплексного подхода: правильные прокси — только часть решения. Нужна грамотная ротация IP, эмуляция реального браузера, работа с cookies и fingerprint, а также постоянный мониторинг качества данных. Слишком агрессивный парсинг приведёт к блокировкам даже с дорогими прокси, а правильная настройка позволит собирать данные месяцами без проблем.

Для большинства задач (мониторинг цен конкурентов, сбор каталогов для дропшиппинга, анализ трендов) оптимальный выбор — резидентные прокси с ротацией каждые 50-100 запросов. Они обеспечивают баланс между скоростью работы и уровнем доверия со стороны AliExpress. Если бюджет ограничен и нужна высокая скорость — начните с прокси дата-центров, но будьте готовы к более частым блокировкам и необходимости агрессивной ротации.

Помните: качество прокси важнее их количества. 10 качественных резидентных IP с правильной настройкой дадут лучший результат чем 100 дешёвых прокси дата-центров с высоким процентом блокировок. Инвестируйте время в настройку эмуляции браузера, логирование и мониторинг — это окупится стабильной работой парсера без постоянных проблем с капчами и банами.