AliExpress đang tích cực chống lại việc thu thập dữ liệu tự động - các trình phân tích nhận được captcha, cấm tạm thời theo IP và yêu cầu xác thực. Nếu bạn đang theo dõi giá của đối thủ, tìm kiếm sản phẩm xu hướng cho dropshipping hoặc thu thập cơ sở dữ liệu cho thị trường, mà không có proxy được cấu hình đúng, công việc sẽ trở thành cuộc chiến liên tục với các khối.
Trong hướng dẫn này, chúng ta sẽ phân tích cách chọn proxy cho việc phân tích AliExpress, thiết lập quay vòng địa chỉ IP, vượt qua các hệ thống chống bot và tự động thu thập dữ liệu về sản phẩm, giá cả và đánh giá mà không có rủi ro bị cấm.
Tại sao AliExpress chặn phân tích và cách nó hoạt động
AliExpress sử dụng hệ thống bảo vệ đa tầng chống lại việc thu thập dữ liệu tự động. Nền tảng này mất tiền khi các đối thủ sao chép hàng loạt danh mục, và các máy chủ bị quá tải bởi bot. Do đó, bảo vệ liên tục được cải tiến và trở nên hung hăng hơn.
Các phương pháp phát hiện trình phân tích chính:
- Tần suất yêu cầu từ một IP - nếu trong một phút có hơn 50 yêu cầu từ một địa chỉ, hệ thống sẽ tự động hiển thị captcha hoặc tạm thời chặn IP trong 30-60 phút
- Phân tích hành vi - bot mở các trang quá nhanh (0.5-1 giây), không di chuyển chuột, không cuộn, không nhấp vào các phần tử giao diện
- Thiếu cookies - người dùng bình thường tích lũy cookies khi truy cập trang web, các trình phân tích thường làm việc với phiên sạch
- User-Agent nghi ngờ - các phiên bản trình duyệt cũ, thư viện máy chủ (Python-requests, curl), thiếu thiết bị di động trong thống kê
- Fingerprint trình duyệt - AliExpress thu thập dấu vân tay: độ phân giải màn hình, múi giờ, phông chữ đã cài đặt, WebGL, Canvas. Dấu vân tay giống nhau từ các IP khác nhau - dấu hiệu của bot
Khi hệ thống phát hiện hoạt động nghi ngờ, nó áp dụng mức độ chặn: đầu tiên hiển thị captcha, sau đó là cấm tạm thời IP trong 1-2 giờ, nếu vi phạm lặp lại - cấm trong một ngày hoặc vĩnh viễn.
Quan trọng: AliExpress sử dụng Cloudflare và hệ thống chống bot riêng. Họ phân tích không chỉ IP mà còn cả TLS-fingerprint (phiên bản giao thức, thứ tự mã hóa) - ngay cả với proxy cũng có thể bị cấm nếu sử dụng các khách hàng HTTP lỗi thời.
Các loại proxy nào phù hợp cho việc phân tích AliExpress
Việc chọn loại proxy phụ thuộc vào khối lượng phân tích, ngân sách và yêu cầu về chất lượng dữ liệu. Chúng ta sẽ phân tích từng loại với các kịch bản sử dụng thực tế.
| Loại proxy | Tốc độ | Rủi ro bị chặn | Khi nào sử dụng |
|---|---|---|---|
| Proxy trung tâm dữ liệu | Cao (50-150 ms) | Cao | Phân tích nhanh dữ liệu công khai với quay vòng IP thường xuyên |
| Proxy cư trú | Trung bình (200-500 ms) | Thấp | Phân tích lâu dài, thu thập dữ liệu với xác thực |
| Proxy di động | Trung bình (300-700 ms) | Rất thấp | Phân tích từ phiên bản di động, vượt qua các khối nghiêm ngặt |
Proxy trung tâm dữ liệu cho phân tích nhanh
Phù hợp khi cần nhanh chóng thu thập một khối lượng lớn dữ liệu: giá của 10000+ sản phẩm, đặc điểm của các danh mục, danh sách người bán. Tốc độ phản hồi 50-150 ms cho phép thực hiện 5-10 yêu cầu mỗi giây từ một IP.
Kịch bản sử dụng: Bạn có một cửa hàng dropshipping trên Shopify, cần cập nhật giá hàng ngày cho 5000 sản phẩm từ AliExpress. Mua một nhóm từ 50-100 IP trung tâm dữ liệu với quay vòng mỗi 10-15 yêu cầu. Trong 2-3 giờ, bạn thu thập tất cả dữ liệu, chi phí cho proxy - 50-100$ mỗi tháng.
Nhược điểm: AliExpress biết các dải IP của trung tâm dữ liệu và có thái độ nghi ngờ đối với chúng. Cần quay vòng mạnh mẽ (thay đổi IP mỗi 5-10 yêu cầu) và mô phỏng hành vi (độ trễ ngẫu nhiên 2-5 giây giữa các yêu cầu).
Proxy cư trú cho phân tích ổn định
Proxy cư trú có IP của người dùng thực tế - các nhà cung cấp cấp phát cho các cá nhân. AliExpress không thể phân biệt yêu cầu qua proxy này với yêu cầu của người mua bình thường. Điều này giảm rủi ro bị chặn từ 5-10 lần so với trung tâm dữ liệu.
Kịch bản sử dụng: Bạn đang theo dõi giá của đối thủ cho cửa hàng của mình trên Ozon. Cần kiểm tra hàng ngày 200-300 sản phẩm, so sánh giá trên AliExpress và với các nhà cung cấp Nga. Sử dụng 10-20 IP cư trú với quay vòng mỗi 50-100 yêu cầu. Phân tích mất 30-40 phút, không có khối trong nhiều tháng.
Ưu điểm: Có thể làm việc từ một IP lâu hơn (100-200 yêu cầu thay vì 10-20), ít captcha hơn, khả năng xác thực và làm việc với tài khoản cá nhân của người bán.
Proxy di động để vượt qua các khối nghiêm ngặt
IP di động (3G/4G/5G của các nhà mạng) có độ tin cậy tối đa - AliExpress không thể chặn toàn bộ các subnet của nhà mạng di động, điều này sẽ chặn hàng triệu người mua thực tế. Một IP di động có thể được sử dụng bởi hàng trăm thiết bị (NAT), vì vậy ngay cả việc phân tích mạnh mẽ cũng giống như hoạt động của nhiều người dùng khác nhau.
Kịch bản sử dụng: Bạn đã bị cấm theo IP cư trú ở một khu vực nhất định, cần gấp thu thập dữ liệu cho báo cáo cho khách hàng. Lấy 2-3 proxy di động, phân tích qua phiên bản di động của trang web (m.aliexpress.com). Ngay cả với việc phân tích mạnh mẽ (1 yêu cầu mỗi giây) cũng không có khối.
Nhược điểm: Đắt hơn cư trú từ 2-3 lần, tốc độ thấp hơn (300-700 ms độ trễ), IP có thể thay đổi khi kết nối lại với nhà mạng.
Cài đặt quay vòng IP: tần suất thay đổi và thời gian chờ
Quay vòng IP đúng cách là chìa khóa cho việc phân tích lâu dài mà không bị chặn. Thay đổi quá thường xuyên sẽ trông nghi ngờ và tiêu tốn proxy, quá ít sẽ dẫn đến việc bị cấm.
Tần suất quay vòng được khuyến nghị theo loại proxy
| Loại proxy | Yêu cầu trên 1 IP | Độ trễ giữa các yêu cầu | Thời gian sống của phiên |
|---|---|---|---|
| Trung tâm dữ liệu | 5-15 yêu cầu | 2-5 giây | 1-3 phút |
| Cư trú | 50-150 yêu cầu | 3-8 giây | 10-30 phút |
| Di động | 100-300 yêu cầu | 1-3 giây | 30-60 phút |
Chiến lược quay vòng cho các nhiệm vụ khác nhau
1. Phân tích nhanh danh mục (10000+ sản phẩm trong một giờ)
- Sử dụng nhóm từ 100-200 IP trung tâm dữ liệu
- Quay vòng mỗi 5-10 yêu cầu
- Luồng song song: 10-20 yêu cầu đồng thời từ các IP khác nhau
- Độ trễ giữa các yêu cầu: 1-2 giây (mô phỏng người dùng nhanh)
- Nếu nhận được captcha trên IP - loại bỏ nó khỏi nhóm trong 2-3 giờ
2. Theo dõi giá hàng ngày (500-1000 sản phẩm)
- Sử dụng 10-20 IP cư trú
- Quay vòng mỗi 50-100 yêu cầu
- Các yêu cầu tuần tự với độ trễ 3-5 giây
- Lưu cookies giữa các yêu cầu từ một IP
- Mô phỏng hành vi: đôi khi mở trang chính, các danh mục
3. Phân tích với xác thực (tài khoản cá nhân của người bán)
- Một IP cư trú hoặc di động cho mỗi tài khoản
- Không quay vòng trong suốt phiên (30-60 phút)
- Độ trễ 5-10 giây giữa các yêu cầu
- Mô phỏng hoàn toàn trình duyệt: lưu cookies, localStorage, fingerprint
Mẹo: Thêm sự ngẫu nhiên vào độ trễ. Thay vì 3 giây cố định, hãy sử dụng khoảng 2-5 giây. Điều này làm cho mẫu yêu cầu ít dự đoán hơn đối với các hệ thống chống bot.
Vượt qua các hệ thống chống bot: User-Agent, cookies và fingerprint
Thay đổi IP chỉ giải quyết một phần vấn đề. AliExpress phân tích hàng chục tham số của yêu cầu và hành vi để phân biệt bot với con người. Chúng ta sẽ phân tích những gì cần được cấu hình ngoài proxy.
User-Agent và tiêu đề HTTP
User-Agent thông báo cho máy chủ trình duyệt và hệ điều hành nào đang thực hiện yêu cầu. Các trình phân tích thường sử dụng các giá trị mặc định của thư viện (Python-requests/2.28.0), dễ dàng bị phát hiện.
Cấu hình User-Agent đúng cách:
- Sử dụng các phiên bản hiện tại của các trình duyệt phổ biến: Chrome 120+, Firefox 121+, Safari 17+
- Thay đổi User-Agent khi quay vòng IP - một IP không nên hiển thị các trình duyệt khác nhau
- Thêm User-Agent di động với tỷ lệ 40-50% (một nửa lưu lượng truy cập AliExpress là từ thiết bị di động)
- Sao chép đầy đủ tập hợp tiêu đề từ trình duyệt thực: Accept, Accept-Language, Accept-Encoding, Connection, Upgrade-Insecure-Requests
Ví dụ về tiêu đề đúng cho máy tính để bàn:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Ví dụ cho thiết bị di động:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Làm việc với cookies và phiên
AliExpress thiết lập cookies khi truy cập lần đầu tiên: mã phiên, cài đặt ngôn ngữ và tiền tệ, mã thông báo theo dõi. Các trình phân tích không có cookies trông nghi ngờ - người dùng bình thường tích lũy chúng khi duyệt trang web.
Làm việc với cookies đúng cách:
- Trước khi phân tích, hãy mở trang chính và lưu tất cả cookies
- Sử dụng các cookies này cho tất cả các yêu cầu tiếp theo từ cùng một IP
- Khi thay đổi IP - bắt đầu một phiên mới với cookies mới
- Lưu cookies giữa các lần chạy của trình phân tích - điều này mô phỏng người dùng quay lại
- Cập nhật cookies mỗi 1-2 giờ (mở lại trang chính)
Browser fingerprint và TLS-fingerprint
Các hệ thống chống bot hiện đại thu thập dấu vân tay kỹ thuật số của trình duyệt - sự kết hợp của hàng chục tham số, xác định duy nhất thiết bị. Ngay cả từ các IP khác nhau, dấu vân tay giống nhau cũng cho thấy bot.
Các yếu tố trong dấu vân tay trình duyệt:
- Độ phân giải màn hình và độ sâu màu
- Múi giờ và ngôn ngữ hệ thống
- Danh sách các phông chữ đã cài đặt
- WebGL và Canvas fingerprint (cách duy nhất để kết xuất đồ họa)
- Bối cảnh âm thanh (AudioContext fingerprint)
- Danh sách các plugin của trình duyệt
- Hỗ trợ WebRTC, Battery API và các API hiện đại khác
Các thư viện HTTP đơn giản (requests, axios, curl) không có các tham số này - chúng hoạt động ở cấp độ giao thức mà không có kết xuất. Để phân tích nghiêm túc, cần các công cụ với trình duyệt đầy đủ.
Các giải pháp để mô phỏng trình duyệt:
- Selenium + undetected-chromedriver - khởi động Chrome thực tế với các sửa đổi để vượt qua phát hiện
- Puppeteer + puppeteer-extra-plugin-stealth - thư viện Node.js với các plugin để che giấu dấu hiệu tự động hóa
- Playwright - lựa chọn hiện đại cho Selenium với hiệu suất tốt hơn
- Trình duyệt chống phát hiện - Dolphin Anty, AdsPower, Multilogin (để làm việc qua giao diện)
Quan trọng: TLS-fingerprint (dấu vân tay của kết nối SSL) cũng được phân tích. Các phiên bản Python và Node.js cũ sử dụng các bộ mã hóa lỗi thời, dễ dàng bị phát hiện là bot. Hãy sử dụng các phiên bản hiện tại của các thư viện hoặc curl_cffi để mô phỏng các trình duyệt hiện đại.
Các công cụ sẵn có cho việc phân tích AliExpress
Việc viết trình phân tích từ đầu chỉ có ý nghĩa cho các nhiệm vụ cụ thể. Đối với việc thu thập dữ liệu tiêu chuẩn (sản phẩm, giá cả, đánh giá), có các giải pháp sẵn có tiết kiệm hàng tuần phát triển.
Các dịch vụ thương mại với API
1. ScraperAPI (scrape.do, scrapingbee.com)
Các dịch vụ đám mây, chịu trách nhiệm cho tất cả công việc với proxy và vượt qua bảo vệ. Bạn gửi cho họ URL của sản phẩm AliExpress, họ trả về HTML hoặc JSON với dữ liệu.
- Ưu điểm: không cần proxy riêng, tự động vượt qua captcha, các trình phân tích sẵn có cho các trang web phổ biến
- Nhược điểm: đắt khi khối lượng lớn (từ 50$ cho 100K yêu cầu), phụ thuộc vào dịch vụ bên ngoài
- Khi nào sử dụng: các nhiệm vụ một lần, tạo mẫu, khối lượng nhỏ (đến 10K sản phẩm mỗi tháng)
2. Bright Data (luminati.io)
Nhà cung cấp proxy lớn nhất với các công cụ riêng cho việc phân tích. Cung cấp không chỉ proxy mà còn cả các datasets sẵn có từ AliExpress (cơ sở dữ liệu sản phẩm được cập nhật).
- Ưu điểm: nhóm IP khổng lồ (72+ triệu cư trú), cơ sở hạ tầng cho khách hàng doanh nghiệp
- Nhược điểm: rất đắt (từ 500$ mỗi tháng), định giá phức tạp
- Khi nào sử dụng: doanh nghiệp lớn với ngân sách, phân tích thường xuyên khối lượng lớn
Giải pháp mã nguồn mở
1. Scrapy + scrapy-rotating-proxies
Khung phân tích phổ biến trên Python. Hỗ trợ yêu cầu bất đồng bộ, quay vòng proxy tự động, xuất ra CSV/JSON/cơ sở dữ liệu.
Ví dụ về cấu hình proxy trong Scrapy:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# Cài đặt để vượt qua cấm
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # thời gian cấm proxy tính bằng giây
2. Puppeteer + puppeteer-extra-plugin-stealth
Đối với các trang web có bảo vệ mạnh mẽ (như AliExpress), cần một trình duyệt đầy đủ. Puppeteer điều khiển Chrome qua DevTools Protocol, plugin stealth che giấu dấu hiệu tự động hóa.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// Xác thực proxy
await page.authenticate({
username: 'user',
password: 'pass'
});
// Thiết lập viewport thực tế
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// Phân tích sản phẩm
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
Ứng dụng máy tính để bàn cho người dùng không kỹ thuật
1. Octoparse
Trình phân tích trực quan không cần mã - bạn nhấp vào các phần tử trên trang, chương trình ghi nhớ cấu trúc và thu thập dữ liệu. Hỗ trợ tích hợp proxy và lập lịch tác vụ.
- Ưu điểm: không cần lập trình, làm việc với nội dung động, phiên bản đám mây cho công việc nền
- Nhược điểm: giới hạn trong phiên bản miễn phí (10K dòng mỗi tháng), đôi khi không xử lý được bảo vệ phức tạp
- Giá: từ 75$ mỗi tháng cho kế hoạch Standard
2. ParseHub
Tương tự như Octoparse với giao diện đơn giản hơn. Hoạt động tốt với AliExpress nhờ các mẫu tích hợp cho các trang web phổ biến.
- Ưu điểm: gói miễn phí cho 200 trang, cấu hình proxy đơn giản
- Nhược điểm: làm việc chậm trong phiên bản miễn phí, không có các chức năng nâng cao (API, webhooks)
Định vị địa lý: cách phân tích giá cho các quốc gia khác nhau
AliExpress hiển thị các giá khác nhau, danh mục và điều kiện giao hàng tùy thuộc vào quốc gia của người dùng. Nếu bạn làm việc với dropshipping quốc tế hoặc so sánh giá cho các thị trường khác nhau, cần proxy từ các khu vực cụ thể.
Cách AliExpress xác định quốc gia của người dùng
Nền tảng sử dụng một số nguồn dữ liệu:
- Địa chỉ IP - cách chính, xác định quốc gia qua định vị IP
- Cookies - lưu quốc gia đã chọn trong aep_usuc_f (có thể thay thế)
- Tiêu đề Accept-Language - ngôn ngữ của trình duyệt, nhưng không phải yếu tố xác định
- Tiền tệ trong URL - các tham số ?currency=USD hoặc các subdomain (ru.aliexpress.com)
Để phân tích giá của một quốc gia cụ thể một cách đáng tin cậy, cần sử dụng proxy từ khu vực đó. Chỉ thay thế cookies không phải lúc nào cũng hoạt động - AliExpress ưu tiên định vị IP.
Các khu vực phổ biến để phân tích và đặc điểm của chúng
| Quốc gia | Đặc điểm giá cả | Tại sao phân tích |
|---|---|---|
| Mỹ | Giá bằng USD, thường thấp hơn so với châu Âu | Dropshipping tại Mỹ, so sánh với Amazon |
| Nga | Giá bằng RUB, tính đến thuế và VAT | So sánh với Wildberries, Ozon |
| Đức | Giá bằng EUR, giao hàng nhanh từ kho EU | Dropshipping tại châu Âu, eBay.de |
| Brazil | Giá cao do thuế, nhưng nhu cầu lớn | Thương mại điện tử địa phương (Mercado Livre) |
Cài đặt định vị địa lý qua proxy
Hầu hết các nhà cung cấp proxy cư trú và di động cho phép chọn quốc gia (thậm chí cả thành phố) qua các tham số kết nối hoặc API.
Ví dụ về việc chọn quốc gia qua tên người dùng proxy:
# Định dạng: username-country-mã_quốc_gia
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# Phân tích giá cho Mỹ
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# Phân tích giá cho Đức
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
Thêm vào đó, hãy cấu hình tiêu đề theo khu vực:
- Accept-Language: en-US cho Mỹ, de-DE cho Đức, pt-BR cho Brazil
- Sử dụng subdomain tương ứng: ru.aliexpress.com cho Nga, de.aliexpress.com cho Đức
- Kiểm tra tiền tệ trong phản hồi - nếu thấy không đúng tiền tệ, có nghĩa là định vị địa lý không hoạt động
Những sai lầm phổ biến khi phân tích và cách tránh chúng
Ngay cả với proxy và cài đặt đúng, bạn có thể bị chặn do lỗi trong logic phân tích. Chúng ta sẽ phân tích các vấn đề thường gặp và giải pháp.
Lỗi 1: Phân tích quá hung hăng
Vấn đề: Trình phân tích thực hiện 100 yêu cầu mỗi phút từ một IP, cố gắng thu thập dữ liệu nhanh hơn. AliExpress phát hiện điều này như một cuộc tấn công DDoS và chặn IP.
Giải pháp: Thêm độ trễ và giới hạn số lượng yêu cầu. Đối với proxy cư trú, tốc độ an toàn là 10-20 yêu cầu mỗi phút từ một IP (1 yêu cầu trong 3-6 giây). Tốt hơn là phân tích lâu hơn là mất proxy.
Lỗi 2: Bỏ qua captcha và lỗi
Vấn đề: Trình phân tích nhận được trang với captcha, nhưng tiếp tục phân tích nó như nội dung bình thường. Kết quả - hàng ngàn bản ghi trống trong cơ sở dữ liệu.
Giải pháp: Kiểm tra phản hồi của máy chủ trước khi phân tích. Nếu trong HTML có từ "captcha", "Access Denied" hoặc mã phản hồi 403/429 - ngừng sử dụng IP này trong 1-2 giờ.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"Proxy {proxy} is blocked, switching...")
# Loại bỏ proxy khỏi nhóm trong 2 giờ
blocked_proxies[proxy] = time.time() + 7200
continue
Lỗi 3: Phân tích dữ liệu lỗi thời
Vấn đề: AliExpress lưu trữ các trang qua CDN (Cloudflare). Trình phân tích nhận được dữ liệu cũ 2-3 giờ thay vì giá cả hiện tại.
Giải pháp: Thêm tham số ngẫu nhiên vào URL để vượt qua bộ nhớ cache, hoặc sử dụng tiêu đề Cache-Control: no-cache.
import random
import time
# Thêm timestamp vào URL để vượt qua bộ nhớ cache
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# Hoặc sử dụng tiêu đề
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
Lỗi 4: Xử lý nội dung động không đúng cách
Vấn đề: Giá cả và đặc điểm của sản phẩm trên AliExpress được tải qua JavaScript sau khi trang được tải. Yêu cầu HTTP đơn giản nhận được mẫu HTML trống mà không có dữ liệu.
Giải pháp: Sử dụng trình duyệt headless (Selenium, Puppeteer, Playwright) thực hiện JavaScript và đợi nội dung tải hoàn toàn. Hoặc tìm endpoint API trả về dữ liệu trong JSON - thường có sẵn qua DevTools trong Network.
Lỗi 5: Thiếu ghi chép và giám sát
Vấn đề: Trình phân tích hoạt động trong một tuần, thu thập dữ liệu, nhưng không ai kiểm tra chất lượng. Hóa ra 30% bản ghi là trống do thay đổi trong cấu trúc trang web.
Giải pháp: Ghi lại tất cả các sự kiện quan trọng - yêu cầu thành công, lỗi, chặn proxy, thay đổi cấu trúc dữ liệu. Thiết lập cảnh báo khi số lượng lỗi tăng trên 10%.
Danh sách kiểm tra trước khi khởi động trình phân tích:
✅ Độ trễ giữa các yêu cầu đã được cấu hình (3-8 giây cho proxy cư trú)
✅ Quay vòng IP hoạt động (không quá 50-100 yêu cầu cho một IP)
✅ User-Agent hiện tại và thay đổi cùng với IP
✅ Cookies được lưu và sử dụng lại
✅ Có kiểm tra captcha và chặn
✅ Ghi chép và giám sát đã được thiết lập
✅ Khởi động thử nghiệm trên 100 sản phẩm đã thành công
Kết luận
Phân tích AliExpress yêu cầu một cách tiếp cận toàn diện: proxy đúng là chỉ một phần của giải pháp. Cần có quay vòng IP hợp lý, mô phỏng trình duyệt thực, làm việc với cookies và fingerprint, cũng như giám sát chất lượng dữ liệu liên tục. Phân tích quá hung hăng sẽ dẫn đến việc bị chặn ngay cả với các proxy đắt tiền, trong khi cấu hình đúng sẽ cho phép thu thập dữ liệu trong nhiều tháng mà không gặp vấn đề.
Đối với hầu hết các nhiệm vụ (theo dõi giá của đối thủ, thu thập danh mục cho dropshipping, phân tích xu hướng), lựa chọn tối ưu là proxy cư trú với quay vòng mỗi 50-100 yêu cầu. Chúng cung cấp sự cân bằng giữa tốc độ làm việc và mức độ tin cậy từ AliExpress. Nếu ngân sách hạn chế và cần tốc độ cao - hãy bắt đầu với proxy trung tâm dữ liệu, nhưng hãy chuẩn bị cho việc bị chặn thường xuyên hơn và cần quay vòng mạnh mẽ hơn.
Hãy nhớ: chất lượng proxy quan trọng hơn số lượng của chúng. 10 IP cư trú chất lượng với cấu hình đúng sẽ mang lại kết quả tốt hơn so với 100 proxy trung tâm dữ liệu rẻ tiền với tỷ lệ chặn cao. Đầu tư thời gian vào việc cấu hình mô phỏng trình duyệt, ghi chép và giám sát - điều này sẽ mang lại lợi ích cho việc hoạt động ổn định của trình phân tích mà không gặp phải các vấn đề thường xuyên với captcha và chặn.