AliExpress는 자동 데이터 수집에 적극적으로 대응하고 있습니다. 파서들은 CAPTCHA, IP에 대한 임시 차단 및 인증 요구를 받습니다. 경쟁사의 가격을 모니터링하거나 드롭쉬핑을 위한 트렌디한 제품을 찾거나 마켓플레이스를 위한 데이터베이스를 수집하는 경우, 적절하게 설정된 프록시 없이는 작업이 차단과의 지속적인 싸움으로 변합니다.
이 가이드에서는 AliExpress 파싱을 위한 프록시 선택, IP 주소 회전 설정, 안티봇 시스템 우회 및 제품, 가격 및 리뷰 데이터 수집을 자동화하는 방법을 살펴보겠습니다. 차단될 위험 없이 진행할 수 있습니다.
왜 AliExpress가 파싱을 차단하는가 및 그 작동 방식
AliExpress는 자동 데이터 수집을 방지하기 위해 다단계 보호 시스템을 사용합니다. 플랫폼은 경쟁자가 카탈로그를 대량으로 복사할 때 손실을 입고, 서버는 봇으로 인해 과부하가 걸립니다. 따라서 보호는 지속적으로 개선되고 더욱 공격적으로 변하고 있습니다.
파서를 감지하는 주요 방법:
- 하나의 IP에서의 요청 빈도 — 1분에 50개 이상의 요청이 하나의 주소에서 들어오면 시스템은 자동으로 CAPTCHA를 표시하거나 IP를 30-60분 동안 임시 차단합니다.
- 행동 분석 — 봇은 페이지를 너무 빠르게 열고(0.5-1초), 마우스를 움직이지 않으며, 스크롤하지 않고, 인터페이스 요소를 클릭하지 않습니다.
- 쿠키 부족 — 정상 사용자는 사이트 방문 시 쿠키를 축적하지만, 파서는 종종 깨끗한 세션으로 작업합니다.
- 의심스러운 User-Agent — 구형 브라우저 버전, 서버 라이브러리(Python-requests, curl), 통계에서 모바일 장치의 부재.
- 브라우저 지문 — AliExpress는 화면 해상도, 시간대, 설치된 글꼴, WebGL, Canvas의 지문을 수집합니다. 서로 다른 IP에서 동일한 지문은 봇의 징후입니다.
시스템이 의심스러운 활동을 감지하면 차단을 단계적으로 적용합니다: 먼저 CAPTCHA를 표시하고, 그 다음 1-2시간 동안 IP를 임시 차단하며, 반복적인 위반 시 하루 또는 영구 차단합니다.
중요: AliExpress는 Cloudflare와 자체 안티봇 시스템을 사용합니다. 그들은 IP뿐만 아니라 TLS 지문(프로토콜 버전, 암호 순서)도 분석합니다. 구형 HTTP 클라이언트를 사용하면 프록시를 통해서도 차단될 수 있습니다.
AliExpress 파싱에 적합한 프록시 유형
프록시 유형 선택은 파싱 양, 예산 및 데이터 품질 요구 사항에 따라 다릅니다. 각 유형을 실제 사용 시나리오와 함께 살펴보겠습니다.
| 프록시 유형 | 속도 | 차단 위험 | 사용 시기 |
|---|---|---|---|
| 데이터 센터 프록시 | 높음 (50-150 ms) | 높음 | IP를 자주 변경하며 공개 데이터의 빠른 파싱 |
| 주거지 프록시 | 중간 (200-500 ms) | 낮음 | 장기 파싱, 인증이 필요한 데이터 수집 |
| 모바일 프록시 | 중간 (300-700 ms) | 매우 낮음 | 모바일 버전에서의 파싱, 강력한 차단 우회 |
빠른 파싱을 위한 데이터 센터 프록시
대량의 데이터를 신속하게 수집해야 할 때 적합합니다: 10000개 이상의 제품 가격, 카테고리 특성, 판매자 목록. 응답 속도가 50-150 ms로, 하나의 IP에서 초당 5-10개의 요청을 처리할 수 있습니다.
사용 시나리오: Shopify에서 드롭쉬핑 상점을 운영하며, 매일 AliExpress에서 5000개 제품의 가격을 업데이트해야 합니다. 10-15개의 요청마다 회전하는 50-100개의 데이터 센터 IP 풀을 구매합니다. 2-3시간 내에 모든 데이터를 수집하며, 프록시 비용은 월 50-100달러입니다.
단점: AliExpress는 데이터 센터 IP 범위를 알고 있으며, 이를 의심스럽게 여깁니다. 공격적인 회전이 필요하며(5-10개의 요청마다 IP 변경) 행동을 에뮬레이션해야 합니다(요청 간에 2-5초의 무작위 지연).
안정적인 파싱을 위한 주거지 프록시
주거지 프록시는 실제 가정 사용자의 IP를 가지고 있습니다. 공급자는 이를 개인에게 제공합니다. AliExpress는 이러한 프록시를 통해 요청을 보낸 것을 일반 구매자의 요청과 구별할 수 없습니다. 이는 데이터 센터에 비해 차단 위험을 5-10배 줄입니다.
사용 시나리오: Ozon에서 자신의 상점을 위해 경쟁사의 가격을 모니터링하고 있습니다. 매일 200-300개의 제품을 확인하고, AliExpress와 러시아 공급자의 가격을 비교해야 합니다. 50-100개의 주거지 IP를 사용하여 50-100개의 요청마다 회전합니다. 파싱은 30-40분이 소요되며, 몇 달 동안 차단이 없습니다.
장점: 하나의 IP에서 더 오랜 시간 동안 작업할 수 있습니다(100-200개의 요청 대신 10-20개), CAPTCHA가 적고, 인증 및 판매자 개인 계정 작업이 가능합니다.
강력한 차단 우회를 위한 모바일 프록시
모바일 IP(3G/4G/5G 운영자)는 최대의 신뢰를 얻습니다. AliExpress는 모바일 운영자의 전체 서브넷을 차단할 수 없으며, 이는 수백만 명의 실제 구매자를 차단할 것입니다. 하나의 모바일 IP는 수백 개의 장치(NAT)가 사용할 수 있으므로, 심지어 공격적인 파싱도 다양한 사용자 활동처럼 보입니다.
사용 시나리오: 특정 지역에서 주거지 IP로 차단된 경우, 고객에게 보고서를 위해 데이터를 신속하게 수집해야 합니다. 2-3개의 모바일 프록시를 가져와 모바일 버전의 사이트(m.aliexpress.com)를 통해 파싱합니다. 공격적인 파싱(초당 1요청)에도 차단이 없습니다.
단점: 주거지 프록시보다 2-3배 비쌉니다. 속도가 낮으며(300-700 ms 지연), 운영자 재연결 시 IP가 변경될 수 있습니다.
IP 회전 설정: 변경 빈도 및 타임아웃
올바른 IP 회전은 차단 없이 장기 파싱의 핵심입니다. 너무 자주 변경하면 의심스럽게 보이고 프록시를 낭비하게 되며, 너무 드물게 변경하면 차단으로 이어집니다.
프록시 유형별 권장 회전 빈도
| 프록시 유형 | 1 IP당 요청 수 | 요청 간 지연 | 세션 지속 시간 |
|---|---|---|---|
| 데이터 센터 | 5-15 요청 | 2-5초 | 1-3분 |
| 주거지 | 50-150 요청 | 3-8초 | 10-30분 |
| 모바일 | 100-300 요청 | 1-3초 | 30-60분 |
다양한 작업을 위한 회전 전략
1. 카탈로그의 빠른 파싱 (1시간에 10000개 이상의 제품)
- 100-200개의 데이터 센터 IP 풀을 사용하세요.
- 5-10 요청마다 회전하세요.
- 병렬 스트림: 서로 다른 IP에서 10-20개의 동시 요청을 보냅니다.
- 요청 간 지연: 1-2초(빠른 사용자를 에뮬레이션).
- IP에서 CAPTCHA를 받으면 2-3시간 동안 해당 IP를 풀에서 제외하세요.
2. 매일 가격 모니터링 (500-1000개의 제품)
- 10-20개의 주거지 IP를 사용하세요.
- 50-100 요청마다 회전하세요.
- 3-5초의 지연을 두고 순차적으로 요청하세요.
- 하나의 IP에서 요청 간 쿠키를 저장하세요.
- 행동을 에뮬레이션하세요: 가끔 메인 페이지와 카테고리를 여세요.
3. 인증이 필요한 파싱 (판매자 개인 계정)
- 계정당 하나의 주거지 또는 모바일 IP를 사용하세요.
- 세션 동안 회전 없이 진행하세요(30-60분).
- 요청 간 5-10초의 지연을 두세요.
- 브라우저를 완전히 에뮬레이션하세요: 쿠키, localStorage, 지문 저장.
조언: 지연에 무작위성을 추가하세요. 고정된 3초 대신 2-5초 범위를 사용하세요. 이는 요청 패턴을 안티봇 시스템에 덜 예측 가능하게 만듭니다.
안티봇 시스템 우회: User-Agent, 쿠키 및 지문
IP 변경은 문제의 일부만 해결합니다. AliExpress는 요청 및 행동의 수십 가지 매개변수를 분석하여 봇과 사람을 구별합니다. 프록시 외에 무엇을 설정해야 하는지 살펴보겠습니다.
User-Agent 및 HTTP 헤더
User-Agent는 서버에 어떤 브라우저와 운영 체제가 요청을 보내는지를 알려줍니다. 파서는 종종 라이브러리의 기본값(Python-requests/2.28.0)을 사용하여 즉시 감지됩니다.
User-Agent의 올바른 설정:
- 최신 인기 브라우저 버전을 사용하세요: Chrome 120+, Firefox 121+, Safari 17+
- IP 회전 시 User-Agent를 변경하세요 — 하나의 IP는 서로 다른 브라우저를 보여주지 않아야 합니다.
- 모바일 User-Agent를 40-50% 비율로 추가하세요 (AliExpress 트래픽의 절반은 모바일 장치입니다).
- 실제 브라우저에서 전체 헤더 세트를 복사하세요: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests.
데스크탑용 올바른 헤더 예:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
모바일 장치용 예:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
쿠키 및 세션 작업
AliExpress는 첫 방문 시 쿠키를 설정합니다: 세션 ID, 언어 및 통화 설정, 추적을 위한 토큰. 쿠키 없이 작업하는 파서는 의심스럽게 보입니다 — 정상 사용자는 사이트 탐색 시 쿠키를 축적합니다.
쿠키 작업의 올바른 방법:
- 파싱 전에 메인 페이지를 열고 모든 쿠키를 저장하세요.
- 이 쿠키를 동일한 IP에서 모든 후속 요청에 사용하세요.
- IP 변경 시 새로운 쿠키로 새로운 세션을 시작하세요.
- 파서 실행 간 쿠키를 저장하세요 — 이는 돌아오는 사용자를 에뮬레이션합니다.
- 쿠키를 매 1-2시간마다 업데이트하세요 (메인 페이지를 다시 여세요).
브라우저 지문 및 TLS 지문
현대의 안티봇 시스템은 브라우저의 디지털 지문을 수집합니다 — 장치를 고유하게 식별하는 수십 가지 매개변수의 조합입니다. 서로 다른 IP에서 동일한 지문은 봇을 나타냅니다.
브라우저 지문에 포함되는 것:
- 화면 해상도 및 색 깊이
- 시간대 및 시스템 언어
- 설치된 글꼴 목록
- WebGL 및 Canvas 지문 (그래픽 렌더링의 고유한 방법)
- 오디오 컨텍스트 (AudioContext 지문)
- 브라우저 플러그인 목록
- WebRTC, Battery API 및 기타 현대 API 지원
간단한 HTTP 라이브러리(requests, axios, curl)는 이러한 매개변수를 가지고 있지 않습니다 — 이들은 프로토콜 수준에서 작동하며 렌더링이 없습니다. 진지한 파싱을 위해서는 완전한 브라우저를 갖춘 도구가 필요합니다.
브라우저 에뮬레이션 솔루션:
- Selenium + undetected-chromedriver — 탐지를 우회하기 위한 수정된 실제 Chrome을 실행합니다.
- Puppeteer + puppeteer-extra-plugin-stealth — 자동화를 숨기기 위한 플러그인이 있는 Node.js 라이브러리입니다.
- Playwright — Selenium의 현대적인 대안으로 더 나은 성능을 제공합니다.
- 안티디텍트 브라우저 — Dolphin Anty, AdsPower, Multilogin (인터페이스를 통해 작업하기 위해).
중요: TLS 지문(SSL 연결의 지문)도 분석됩니다. 구형 Python 및 Node.js 버전은 봇을 나타내는 구형 암호 세트를 사용합니다. 현대 브라우저를 에뮬레이션하기 위해 최신 라이브러리 버전이나 curl_cffi를 사용하세요.
AliExpress 파싱을 위한 준비된 도구
특정 작업을 위해 처음부터 파서를 작성하는 것은 의미가 있습니다. 표준 데이터 수집(제품, 가격, 리뷰)을 위해서는 개발 주를 절약할 수 있는 준비된 솔루션이 있습니다.
API가 있는 상업적 서비스
1. ScraperAPI (scrape.do, scrapingbee.com)
프록시 및 보호 우회를 위한 모든 작업을 처리하는 클라우드 서비스입니다. AliExpress 제품의 URL을 보내면 HTML 또는 JSON 형식으로 데이터를 반환합니다.
- 장점: 자체 프록시가 필요 없고, CAPTCHA를 자동으로 우회하며, 인기 사이트를 위한 준비된 파서가 있습니다.
- 단점: 대량 요청 시 비용이 많이 들며(100K 요청당 50달러부터 시작), 외부 서비스에 의존합니다.
- 사용 시기: 일회성 작업, 프로토타입 제작, 소량(월 10K 제품 이하).
2. Bright Data (luminati.io)
파싱을 위한 자체 도구를 가진 최대의 프록시 공급자입니다. 프록시뿐만 아니라 AliExpress의 준비된 데이터 세트(업데이트되는 제품 데이터베이스)도 제공합니다.
- 장점: 방대한 IP 풀(7200만 개 이상의 주거지), 기업 고객을 위한 인프라.
- 단점: 매우 비쌉니다(월 500달러부터 시작), 복잡한 요금제.
- 사용 시기: 예산이 있는 대규모 비즈니스, 대량의 지속적인 파싱.
오픈 소스 솔루션
1. Scrapy + scrapy-rotating-proxies
파싱을 위한 인기 있는 Python 프레임워크입니다. 비동기 요청, 자동 프록시 회전, CSV/JSON/데이터베이스로 내보내기를 지원합니다.
Scrapy에서 프록시 설정 예시:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# 차단 우회를 위한 설정
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # 프록시 차단 시간(초)
2. Puppeteer + puppeteer-extra-plugin-stealth
공격적인 보호가 있는 사이트(AliExpress와 같은)에는 완전한 브라우저가 필요합니다. Puppeteer는 DevTools 프로토콜을 통해 Chrome을 제어하며, stealth 플러그인은 자동화의 징후를 숨깁니다.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// 프록시 인증
await page.authenticate({
username: 'user',
password: 'pass'
});
// 현실적인 뷰포트 설정
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// 제품 파싱
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
비기술 사용자를 위한 데스크탑 애플리케이션
1. Octoparse
코드 없는 시각적 파서 — 페이지의 요소를 클릭하면 프로그램이 구조를 기억하고 데이터를 수집합니다. 내장된 프록시 지원 및 작업 스케줄러가 있습니다.
- 장점: 프로그래밍이 필요 없으며, 동적 콘텐츠와 잘 작동하고, 백그라운드 작업을 위한 클라우드 버전이 있습니다.
- 단점: 무료 버전의 제한(월 10K 행), 때때로 복잡한 보호를 처리하지 못합니다.
- 가격: Standard 플랜의 경우 월 75달러부터 시작합니다.
2. ParseHub
Octoparse와 유사하지만 더 간단한 인터페이스를 제공합니다. 인기 사이트에 대한 내장 템플릿 덕분에 AliExpress와 잘 작동합니다.
- 장점: 200페이지에 대한 무료 요금제, 프록시 설정이 간단합니다.
- 단점: 무료 버전에서 느린 작업 속도, 고급 기능 없음(API, 웹훅).
지리적 타겟팅: 다양한 국가의 가격 파싱 방법
AliExpress는 사용자 국가에 따라 다양한 가격, 품목 및 배송 조건을 표시합니다. 국제 드롭쉬핑을 하거나 다양한 시장의 가격을 비교하는 경우 특정 지역의 프록시가 필요합니다.
AliExpress가 사용자 국가를 결정하는 방법
플랫폼은 여러 데이터 소스를 사용합니다:
- IP 주소 — 기본 방법으로, IP의 지리적 위치에 따라 국가를 결정합니다.
- 쿠키 — 선택한 국가를 aep_usuc_f에 저장합니다(변경 가능).
- Accept-Language 헤더 — 브라우저 언어, 그러나 결정적인 요소는 아닙니다.
- URL의 통화 — ?currency=USD와 같은 매개변수 또는 서브도메인(ru.aliexpress.com).
특정 국가의 가격을 신뢰할 수 있게 파싱하려면 해당 지역의 프록시를 사용해야 합니다. 쿠키만 변경하는 것은 항상 효과적이지 않으며, AliExpress는 IP 지리적 위치를 우선시합니다.
파싱을 위한 인기 지역 및 그 특징
| 국가 | 가격 특징 | 파싱 이유 |
|---|---|---|
| 미국 | USD로 가격이 책정되며, 유럽보다 낮은 경우가 많습니다. | 미국 내 드롭쉬핑, Amazon과의 비교. |
| 러시아 | RUB로 가격이 책정되며, 세금 및 VAT 포함. | Wildberries, Ozon과의 비교. |
| 독일 | EUR로 가격이 책정되며, EU 창고에서의 빠른 배송. | 유럽 내 드롭쉬핑, eBay.de. |
| 브라질 | 세금으로 인해 높은 가격이지만, 수요가 큽니다. | 현지 전자상거래(Mercado Livre). |
프록시를 통한 지리적 타겟팅 설정
대부분의 주거지 및 모바일 프록시 공급자는 연결 매개변수 또는 API를 통해 국가(심지어 도시)를 선택할 수 있게 해줍니다.
프록시의 사용자 이름을 통해 국가를 선택하는 예:
# 형식: username-country-국가_코드
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# 미국 가격 파싱
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# 독일 가격 파싱
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
지역에 맞게 헤더를 추가로 설정하세요:
- Accept-Language: 미국은 en-US, 독일은 de-DE, 브라질은 pt-BR.
- 해당 서브도메인을 사용하세요: 러시아는 ru.aliexpress.com, 독일은 de.aliexpress.com.
- 응답에서 통화를 확인하세요 — 잘못된 통화가 보이면 지리적 타겟팅이 작동하지 않은 것입니다.
파싱 시 일반적인 실수 및 피하는 방법
올바른 프록시와 설정이 있어도 파싱 로직의 오류로 인해 차단될 수 있습니다. 자주 발생하는 문제와 해결책을 살펴보겠습니다.
오류 1: 너무 공격적인 파싱
문제: 파서가 하나의 IP에서 분당 100개의 요청을 보내며 데이터를 더 빨리 수집하려고 합니다. AliExpress는 이를 DDoS 공격으로 감지하고 IP를 차단합니다.
해결책: 지연 및 요청 수 제한을 추가하세요. 주거지 프록시의 안전한 속도는 하나의 IP에서 분당 10-20개의 요청(3-6초에 1요청)입니다. 프록시를 잃는 것보다 더 오래 파싱하는 것이 좋습니다.
오류 2: CAPTCHA 및 오류 무시
문제: 파서가 CAPTCHA가 있는 페이지를 받지만 이를 일반 콘텐츠처럼 계속 파싱합니다. 결과적으로 데이터베이스에 수천 개의 빈 레코드가 생성됩니다.
해결책: 파싱 전에 서버 응답을 확인하세요. HTML에 "captcha", "Access Denied" 또는 응답 코드 403/429가 포함되어 있으면 해당 IP를 1-2시간 동안 사용 중지하세요.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"프록시 {proxy}가 차단되었습니다, 전환 중...")
# 2시간 동안 프록시를 풀에서 제외합니다.
blocked_proxies[proxy] = time.time() + 7200
continue
오류 3: 오래된 데이터 파싱
문제: AliExpress는 CDN(Cloudflare)을 통해 페이지를 캐시합니다. 파서는 최신 가격 대신 2-3시간 전의 데이터를 받습니다.
해결책: 캐시를 우회하기 위해 URL에 무작위 매개변수를 추가하거나 Cache-Control: no-cache 헤더를 사용하세요.
import random
import time
# 캐시를 우회하기 위해 URL에 타임스탬프 추가
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# 또는 헤더를 사용하세요
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
오류 4: 동적 콘텐츠 잘못 처리
문제: AliExpress의 제품 가격 및 특성은 페이지 로드 후 JavaScript를 통해 로드됩니다. 간단한 HTTP 요청은 데이터가 없는 빈 HTML 템플릿을 받습니다.
해결책: JavaScript를 실행하고 콘텐츠가 완전히 로드될 때까지 기다리는 헤드리스 브라우저(Selenium, Puppeteer, Playwright)를 사용하세요. 또는 JSON 형식으로 데이터를 반환하는 API 엔드포인트를 찾아보세요 — 종종 DevTools의 네트워크에서 사용할 수 있습니다.
오류 5: 로깅 및 모니터링 부족
문제: 파서가 일주일 동안 작동하며 데이터를 수집하지만, 아무도 품질을 확인하지 않습니다. 결과적으로 30%의 레코드가 사이트 구조 변경으로 인해 비어 있습니다.
해결책: 모든 중요한 이벤트를 로깅하세요 — 성공적인 요청, 오류, 프록시 차단, 데이터 구조 변경. 오류 비율이 10% 이상 증가할 경우 알림을 설정하세요.
파서를 실행하기 전 체크리스트:
✅ 요청 간 지연이 설정되었습니다(주거지 프록시의 경우 3-8초)
✅ IP 회전이 작동합니다(하나의 IP에서 50-100 요청 이하)
✅ User-Agent가 최신이며 IP와 함께 변경됩니다
✅ 쿠키가 저장되고 재사용됩니다
✅ CAPTCHA 및 차단 확인이 있습니다
✅ 로깅 및 모니터링이 설정되었습니다
✅ 100개 제품에 대한 테스트 실행이 성공적으로 완료되었습니다
결론
AliExpress 파싱은 종합적인 접근이 필요합니다: 올바른 프록시는 솔루션의 일부일 뿐입니다. IP의 올바른 회전, 실제 브라우저 에뮬레이션, 쿠키 및 지문 작업, 지속적인 데이터 품질 모니터링이 필요합니다. 너무 공격적인 파싱은 비싼 프록시를 사용하더라도 차단으로 이어질 수 있으며, 올바른 설정을 통해 문제 없이 수개월 동안 데이터를 수집할 수 있습니다.
대부분의 작업(경쟁사 가격 모니터링, 드롭쉬핑을 위한 카탈로그 수집, 트렌드 분석)에 최적의 선택은 주거지 프록시로, 50-100 요청마다 회전합니다. 이는 작업 속도와 AliExpress의 신뢰 수준 간의 균형을 제공합니다. 예산이 제한적이고 높은 속도가 필요한 경우 데이터 센터 프록시로 시작하되, 더 빈번한 차단 및 공격적인 회전 필요성에 대비해야 합니다.
기억하세요: 프록시의 품질이 수량보다 중요합니다. 올바른 설정을 가진 10개의 고품질 주거지 IP가 차단 비율이 높은 100개의 저렴한 데이터 센터 프록시보다 더 나은 결과를 제공합니다. 브라우저 에뮬레이션, 로깅 및 모니터링 설정에 시간을 투자하세요 — 이는 CAPTCHA 및 차단 문제 없이 안정적인 파서 작업으로 보답받을 것입니다.