Cách vượt qua chống bot Amazon: proxy và phương pháp để lấy dữ liệu

```html

Amazon là một trong những chợ trực tuyến được bảo vệ tốt nhất trên thế giới. Hệ thống chống bot của nó chặn 90% các nỗ lực thu thập dữ liệu tự động về giá cả, hàng tồn kho và vị trí sản phẩm. Đối với người bán và nhà tiếp thị, đây là một vấn đề nghiêm trọng: không có dữ liệu hiện tại về đối thủ, không thể điều chỉnh chiến lược định giá và duy trì lợi nhuận.

Trong hướng dẫn này, chúng ta sẽ phân tích các cơ chế bảo vệ của Amazon, trình bày các phương pháp đã được kiểm chứng để vượt qua hệ thống chống bot và thiết lập một hệ thống theo dõi giá hoạt động ổn định trong nhiều tháng mà không bị chặn.

Tại sao Amazon chặn việc lấy dữ liệu: cơ chế bảo vệ

Amazon mất hàng triệu đô la do việc lấy dữ liệu: các đối thủ sao chép dữ liệu về sản phẩm, giá cả, đánh giá, và những người bán không trung thực sử dụng tự động hóa để tăng vị trí. Do đó, công ty đầu tư một số tiền khổng lồ vào các hệ thống chống bot, hoạt động trên nhiều cấp độ cùng một lúc.

Các thành phần chính của bảo vệ Amazon:

AWS WAF (Tường lửa ứng dụng web) — phân tích lưu lượng truy cập đến và chặn các địa chỉ IP nghi ngờ ở cấp độ mạng. Theo dõi tần suất yêu cầu, địa lý, và uy tín của IP.
Cloudfront CDN — mạng phân phối nội dung phân tán với các thuật toán lọc bot riêng. Kiểm tra tiêu đề yêu cầu, cookies, và dấu vân tay TLS của trình duyệt.
Hệ thống quản lý bot — sử dụng học máy để phân tích hành vi của người dùng. Theo dõi chuyển động chuột, tốc độ cuộn, và các mẫu nhấp chuột.
CAPTCHA và trang thách thức — xuất hiện khi có hoạt động nghi ngờ. Yêu cầu giải quyết câu đố hoặc nhập CAPTCHA để tiếp tục.
Giới hạn tốc độ — hạn chế nghiêm ngặt số lượng yêu cầu từ một IP: thường là 10-20 yêu cầu mỗi phút cho người dùng chưa đăng nhập.

Tất cả các hệ thống này hoạt động liên kết và trao đổi dữ liệu. Nếu ít nhất một trong số chúng nghi ngờ bot — IP sẽ bị đưa vào danh sách đen trong 24-48 giờ, và đôi khi là mãi mãi.

Quan trọng: Amazon hiển thị các mức giá khác nhau cho các khu vực và loại người dùng khác nhau. Việc bị chặn không chỉ là không có quyền truy cập, mà còn là nhận được dữ liệu không chính xác, điều này rất nghiêm trọng cho việc theo dõi đối thủ.

Cách Amazon xác định bot: 7 tín hiệu chính

Hệ thống chống bot của Amazon phân tích hàng chục tham số của mỗi yêu cầu. Dưới đây là những tín hiệu chính mà nó sử dụng để nhận diện tự động hóa:

1. Uy tín của địa chỉ IP

Amazon duy trì một cơ sở dữ liệu về các địa chỉ IP của các trung tâm dữ liệu, dịch vụ VPN, và proxy công cộng. Các yêu cầu từ những địa chỉ này nhận được sự chú ý cao hơn hoặc bị chặn ngay lập tức. Hệ thống cũng theo dõi lịch sử hoạt động: nếu từ IP có quá nhiều yêu cầu đến các trang sản phẩm — điều này là đáng ngờ.

Các yếu tố được kiểm tra: thuộc về các trung tâm dữ liệu nổi tiếng (AWS, Google Cloud, DigitalOcean), có mặt trong cơ sở dữ liệu proxy công cộng, số lượng yêu cầu trong giờ qua, địa lý (yêu cầu từ các quốc gia không mong đợi).

2. User-Agent và tiêu đề HTTP

Nhiều trình lấy dữ liệu sử dụng các User-Agent tiêu chuẩn của thư viện: python-requests/2.28.0 hoặc thậm chí không gửi tiêu đề này. Amazon ngay lập tức nhận diện những yêu cầu như vậy.

Các dấu hiệu nghi ngờ: thiếu tiêu đề Accept-Language, Accept-Encoding; không phù hợp giữa User-Agent và các tiêu đề khác (ví dụ, User-Agent của Chrome nhưng các tiêu đề giống như Firefox); thiếu Referer khi chuyển trang; phiên bản trình duyệt cũ.

3. Dấu vân tay TLS/SSL

Khi thiết lập kết nối HTTPS, trình duyệt gửi một tập hợp các tham số mã hóa (cipher suites, extensions, phiên bản TLS). Tập hợp này là duy nhất cho mỗi trình duyệt. Các thư viện như requests hoặc curl có dấu vân tay khác với các trình duyệt thực — Amazon thấy điều này.

4. JavaScript và Canvas fingerprinting

Amazon tải mã JavaScript, thu thập thông tin về trình duyệt: độ phân giải màn hình, phông chữ đã cài đặt, các chức năng WebGL được hỗ trợ, các tham số Canvas. Các khách hàng HTTP đơn giản không thực thi JavaScript và ngay lập tức bị phát hiện.

5. Cookies và phiên

Amazon thiết lập nhiều cookies khi lần đầu truy cập: session-id, ubid-main, x-main và các cookies khác. Thiếu những cookies này hoặc giá trị không chính xác của chúng là dấu hiệu của bot. Hệ thống cũng theo dõi thời gian sống của phiên: người dùng thực không thực hiện 100 yêu cầu trong 30 giây.

6. Mẫu hành vi

Một người thực mở trang chính, tìm kiếm sản phẩm, chuyển qua các danh mục, đọc mô tả, quay lại. Bot ngay lập tức yêu cầu các URL sản phẩm cụ thể theo thứ tự hoàn hảo mà không có độ trễ.

Các mẫu nghi ngờ: yêu cầu chỉ đến các trang sản phẩm mà không ghé thăm trang chính; thứ tự URL hoàn hảo (product1, product2, product3...); không có yêu cầu đến tĩnh (hình ảnh, CSS, JS); khoảng thời gian giống nhau giữa các yêu cầu.

7. Tần suất yêu cầu

Ngay cả với việc mô phỏng trình duyệt hoàn hảo, tần suất yêu cầu quá cao sẽ phát hiện bot. Amazon theo dõi số lượng yêu cầu từ IP trong một phút, một giờ, một ngày. Việc vượt quá giới hạn (thường là 10-20 yêu cầu/phút cho khách) dẫn đến việc bị chặn.

Lựa chọn proxy để vượt qua hệ thống chống bot: proxy dân cư vs trung tâm dữ liệu

Lựa chọn đúng loại proxy là 70% thành công trong việc vượt qua bảo vệ của Amazon. Chúng ta sẽ phân tích ba loại chính và tính khả thi của chúng cho việc lấy dữ liệu từ chợ.

Loại proxy	Mức độ tin cậy của Amazon	Tốc độ	Ứng dụng
Proxy dân cư	Rất cao (IP thực của người dùng tại nhà)	Trung bình (50-150 ms)	Lấy dữ liệu chính, khối lượng lớn
Proxy di động	Tối đa (IP của nhà mạng di động)	Thấp (200-500 ms)	Vượt qua các chặn nghiêm ngặt, tài khoản
Trung tâm dữ liệu	Thấp (Amazon biết những IP này)	Rất cao (10-30 ms)	Kiểm tra, nhiệm vụ một lần

Proxy dân cư — lựa chọn tối ưu

Để lấy dữ liệu từ Amazon một cách ổn định, nên sử dụng proxy dân cư — chúng sử dụng địa chỉ IP của những người dùng thực tại nhà, mà Amazon không thể chặn hàng loạt mà không có nguy cơ chặn những khách hàng thực.

Các lợi ích của proxy dân cư cho Amazon:

IP thuộc về các nhà cung cấp dịch vụ Internet (Comcast, AT&T, Verizon ở Mỹ), không phải trung tâm dữ liệu
Tỷ lệ bị chặn thấp: dưới 2% khi cấu hình xoay vòng đúng cách
Có khả năng chọn địa lý: Mỹ, Anh, Đức và các quốc gia khác để nhận giá địa phương
Hỗ trợ phiên sticky: một IP có thể được sử dụng trong 10-30 phút để mô phỏng người dùng thực

Các tham số quan trọng khi chọn proxy dân cư:

Kích thước của pool IP: tối thiểu 1 triệu địa chỉ để xoay vòng hiệu quả
Địa lý: chọn quốc gia nơi Amazon hoạt động (Mỹ, Vương quốc Anh, Đức, Nhật Bản, v.v.)
Loại xoay vòng: hỗ trợ phiên sticky với thời gian sống 10-30 phút
Giao thức: HTTP/HTTPS và SOCKS5 để tương thích với các công cụ khác nhau

Khi nào nên sử dụng proxy di động

Proxy di động sử dụng IP của các nhà mạng di động (4G/5G). Amazon hầu như không bao giờ chặn những địa chỉ này, vì một IP có thể phục vụ hàng ngàn người dùng thực do công nghệ CGNAT.

Khi nào nên chọn proxy di động:

Hoạt động với tài khoản người bán Amazon (Seller Central) — độ ổn định của IP là rất quan trọng
Vượt qua các chặn nghiêm ngặt sau khi bị cấm IP dân cư
Lấy dữ liệu có xác thực (ví dụ, giá cho người đăng ký Prime)
Khối lượng dữ liệu nhỏ (dưới 1000 sản phẩm mỗi ngày) — proxy di động đắt hơn

Nhược điểm của proxy di động là chi phí cao và tốc độ thấp hơn do đặc điểm của mạng di động. Đối với việc lấy dữ liệu hàng loạt hàng ngàn sản phẩm, chúng không hiệu quả.

Tại sao trung tâm dữ liệu không phù hợp

Proxy trung tâm dữ liệu sử dụng IP của các máy chủ AWS, Google Cloud, DigitalOcean. Amazon ngay lập tức nhận diện những địa chỉ này — chúng nằm trong cơ sở dữ liệu ASN (hệ thống tự trị) của các trung tâm dữ liệu.

Các vấn đề khi sử dụng trung tâm dữ liệu: bị chặn sau 5-10 yêu cầu; CAPTCHA liên tục; hiển thị giá cũ hoặc trang trống; cấm IP mãi mãi sau vài lần thử.

Trường hợp duy nhất có thể sử dụng trung tâm dữ liệu là kiểm tra trình lấy dữ liệu trên một số lượng nhỏ sản phẩm (10-20 sản phẩm) trước khi khởi động trên proxy dân cư.

Chiến lược xoay vòng địa chỉ IP: tần suất và địa lý

Ngay cả với proxy dân cư, việc xoay vòng IP không đúng cách sẽ dẫn đến việc bị chặn. Amazon theo dõi hành vi của mỗi địa chỉ và cấm những địa chỉ thực hiện quá nhiều yêu cầu hoặc có hành vi đáng ngờ.

Tần suất xoay vòng tối ưu

Có hai cách tiếp cận cho việc xoay vòng: sau mỗi yêu cầu (proxy xoay vòng) và với thời gian sống cố định (phiên sticky). Đối với Amazon, cách thứ hai hiệu quả hơn.

Chiến lược phiên sticky được khuyến nghị:

Thời gian sống của IP: 10-15 phút — sự cân bằng tối ưu giữa việc mô phỏng người dùng thực và rủi ro bị chặn
Số lượng yêu cầu trên IP: không quá 15-20 yêu cầu trong thời gian sống của phiên
Độ trễ giữa các yêu cầu: 3-7 giây (ngẫu nhiên, không cố định!)
Mô phỏng hành vi: yêu cầu đầu tiên — trang chính hoặc danh mục, sau đó — các trang sản phẩm

Ví dụ kịch bản cho một IP: mở trang chính Amazon.com → chờ 5 giây → mở danh mục Điện tử → chờ 4 giây → mở sản phẩm 1 → chờ 6 giây → mở sản phẩm 2 → ... → sau 15 yêu cầu, thay đổi IP.

Mẹo cho tải cao:

Nếu cần lấy dữ liệu hàng ngàn sản phẩm trong một giờ, hãy sử dụng một pool từ 50-100 phiên đồng thời với các IP khác nhau. Mỗi phiên thực hiện 10-15 yêu cầu với độ trễ, sau đó thay đổi IP. Điều này cho phép 500-1500 yêu cầu mỗi giờ mà không bị chặn.

Phân bố địa lý

Amazon hiển thị các mức giá, danh mục và điều kiện giao hàng khác nhau tùy thuộc vào vị trí của người dùng. Để theo dõi chính xác, cần sử dụng proxy từ cùng một quốc gia với chợ mục tiêu.

Sự phù hợp giữa các chợ và địa lý của proxy:

Amazon.com (Mỹ): sử dụng proxy từ Mỹ, tốt nhất là từ các tiểu bang khác nhau để đa dạng hóa
Amazon.co.uk (Vương quốc Anh): proxy từ Vương quốc Anh
Amazon.de (Đức): proxy từ Đức
Amazon.co.jp (Nhật Bản): proxy từ Nhật Bản

Quan trọng: không sử dụng proxy từ các quốc gia khác để lấy dữ liệu từ một chợ cụ thể. Ví dụ, các yêu cầu đến Amazon.com từ IP của Ấn Độ hoặc Nga trông đáng ngờ và thường nhận được CAPTCHA.

Tránh tái sử dụng IP

Ngay cả khi IP không bị chặn, không sử dụng lại trong vòng 2-3 giờ. Amazon ghi nhớ lịch sử hoạt động của mỗi địa chỉ. Nếu cùng một IP xuất hiện mỗi 15 phút trong suốt cả ngày — đó là dấu hiệu rõ ràng của tự động hóa.

Quy tắc xoay vòng: pool tối thiểu để hoạt động ổn định — 500-1000 IP độc nhất. Điều này đảm bảo sự đa dạng đủ để mỗi địa chỉ không được sử dụng quá 1-2 lần mỗi ngày.

Mô phỏng trình duyệt thực: tiêu đề và dấu vân tay

Ngay cả với proxy dân cư và xoay vòng đúng cách, trình lấy dữ liệu sẽ bị chặn nếu nó không mô phỏng trình duyệt thực. Amazon kiểm tra hàng chục tham số của yêu cầu HTTP và môi trường JavaScript.

Tiêu đề HTTP chính xác

Các khách hàng HTTP đơn giản (requests, curl, wget) gửi một tập hợp tiêu đề tối thiểu, ngay lập tức phát hiện bot. Cần sao chép tiêu đề từ trình duyệt thực.

Các tiêu đề bắt buộc cho Amazon:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Cache-Control: max-age=0

Các điểm quan trọng:

User-Agent: sử dụng phiên bản mới nhất của Chrome hoặc Firefox (kiểm tra mỗi 2-3 tháng). Các phiên bản trình duyệt cũ là đáng ngờ.
Accept-Language: phải phù hợp với địa lý của proxy (en-US cho Mỹ, en-GB cho Vương quốc Anh, de-DE cho Đức)
Các tiêu đề Sec-Fetch-*: đã xuất hiện trong các trình duyệt hiện đại, sự thiếu vắng của chúng là dấu hiệu của khách hàng cũ
Referer: khi chuyển trang, luôn gửi Referer của trang trước đó

Dấu vân tay TLS và cách vượt qua

Amazon phân tích các tham số của kết nối TLS: phiên bản giao thức, tập hợp mã hóa, các mở rộng. Các thư viện tiêu chuẩn (OpenSSL trong Python requests) có dấu vân tay khác với các trình duyệt.

Giải pháp: sử dụng các công cụ mô phỏng TLS của trình duyệt:

curl-impersonate: phiên bản curl sao chép dấu vân tay TLS của Chrome và Firefox
tls-client (Python): thư viện hỗ trợ fingerprinting trình duyệt
Playwright/Puppeteer: trình duyệt thực trong chế độ headless — mô phỏng hoàn hảo, nhưng chậm hơn

JavaScript và cookies

Amazon thực thi mã JavaScript khi tải trang, thiết lập cookies và thu thập thông tin về trình duyệt. Nếu không thực thi mã này, bạn sẽ không nhận được dữ liệu đầy đủ và nhanh chóng bị chặn.

Các hành động bắt buộc:

Sử dụng các công cụ hỗ trợ JavaScript: Selenium, Playwright, Puppeteer
Lưu tất cả cookies giữa các yêu cầu trong cùng một phiên
Chờ cho trang tải hoàn toàn (sự kiện DOMContentLoaded) trước khi trích xuất dữ liệu
Mô phỏng hành động của người dùng: cuộn trang, các khoảng dừng ngẫu nhiên

Amazon thiết lập các cookies quan trọng: session-id, ubid-main, x-main. Nếu thiếu chúng, bạn sẽ nhận được CAPTCHA hoặc trang trống.

Giới hạn yêu cầu và độ trễ giữa chúng

Ngay cả với mô phỏng trình duyệt hoàn hảo, bạn cũng sẽ không thoát khỏi việc bị cấm nếu thực hiện quá nhiều yêu cầu. Amazon nghiêm ngặt giới hạn tần suất truy cập từ một IP.

Giới hạn được tài liệu hóa của Amazon

Không có dữ liệu chính thức về các giới hạn, nhưng dựa trên thử nghiệm của cộng đồng, các giá trị ước tính được biết đến:

Loại người dùng	Giới hạn yêu cầu/phút	Giới hạn yêu cầu/giờ
Người dùng chưa đăng nhập	10-15	200-300
Người mua đã đăng nhập	20-30	500-800
Amazon API (chính thức)	Không giới hạn	Phụ thuộc vào gói dịch vụ

Việc vượt quá giới hạn dẫn đến CAPTCHA, chặn tạm thời (1-24 giờ) hoặc cấm IP vĩnh viễn khi vi phạm thường xuyên.

Độ trễ tối ưu giữa các yêu cầu

Các khoảng thời gian cố định (ví dụ, chính xác 5 giây) sẽ phát hiện bot. Một người thực sẽ có những khoảng dừng với độ dài khác nhau: đọc mô tả sản phẩm, so sánh giá, bị phân tâm.

Chiến lược độ trễ được khuyến nghị:

Độ trễ cơ bản: 3-7 giây (giá trị ngẫu nhiên trong khoảng)
Yêu cầu đầu tiên trong phiên: 5-10 giây (mô phỏng việc tải trang chính)
Sau khi gặp lỗi hoặc CAPTCHA: 30-60 giây trước khi thử lại
Giữa các lần thay đổi IP: 2-3 giây để "kết nối lại"

Ví dụ về việc thực hiện độ trễ ngẫu nhiên: sleep(random.uniform(3, 7)) — mỗi khoảng dừng sẽ là duy nhất.

Phân bố tải theo thời gian

Không khởi động việc lấy dữ liệu hàng ngàn sản phẩm cùng một lúc vào lúc 00:00. Amazon theo dõi sự gia tăng hoạt động. Phân chia nhiệm vụ trong vài giờ hoặc cả ngày.

Ví dụ: cần lấy dữ liệu 5000 sản phẩm. Chia thành 10 gói mỗi gói 500 sản phẩm, khởi động mỗi gói với khoảng cách 1-2 giờ. Điều này trông giống như hoạt động tự nhiên của nhiều người dùng khác nhau.

Công cụ sẵn có để lấy dữ liệu từ Amazon

Việc viết trình lấy dữ liệu từ đầu là khó khăn và tốn thời gian. Có những giải pháp sẵn có đã thực hiện việc vượt qua hệ thống chống bot, xoay vòng proxy và mô phỏng trình duyệt.

1. Bright Data Web Scraper IDE

Công cụ đám mây với các mẫu sẵn có cho Amazon. Không yêu cầu lập trình — bạn thiết lập các bộ chọn dữ liệu qua giao diện trực quan. Proxy tích hợp và vượt qua CAPTCHA.

Ưu điểm: hoạt động ngay lập tức, xoay vòng IP tự động, hỗ trợ JavaScript. Nhược điểm: đắt ($500+ mỗi tháng), phụ thuộc vào dịch vụ bên ngoài.

2. Octoparse

Ứng dụng máy tính để bàn cho Windows với trình tạo trình lấy dữ liệu trực quan. Có phiên bản đám mây để chạy nhiệm vụ 24/7. Hỗ trợ tích hợp với proxy.

Cấu hình proxy trong Octoparse: Cài đặt → Cài đặt proxy → thêm danh sách proxy theo định dạng IP:PORT:USER:PASS → bật xoay vòng.

Ưu điểm: không cần mã, giao diện thân thiện, có gói miễn phí. Nhược điểm: giới hạn số lượng trang trong phiên bản miễn phí, khó khăn với CAPTCHA.

3. ScrapingBee API

Dịch vụ API để lấy dữ liệu với việc tự động vượt qua bảo vệ. Gửi URL, nhận HTML. Xoay vòng proxy tích hợp và thực thi JavaScript.

Ví dụ sử dụng:

curl "https://app.scrapingbee.com/api/v1/?api_key=YOUR_KEY&url=https://www.amazon.com/dp/B08N5WRWNW&render_js=true&premium_proxy=true&country_code=us"

Ưu điểm: tích hợp đơn giản, không cần proxy riêng. Nhược điểm: có phí (từ $49/tháng), giới hạn số lượng yêu cầu.

4. Playwright + proxy riêng (dành cho nhà phát triển)

Nếu bạn biết lập trình, lựa chọn tốt nhất là sử dụng Playwright (hoặc Puppeteer) với proxy dân cư. Kiểm soát hoàn toàn quá trình và chi phí tối thiểu.

Ví dụ cấu hình proxy trong Playwright (Python):

from playwright.sync_api import sync_playwright
import random
import time

proxy_list = [
    {"server": "http://proxy1.example.com:8080", "username": "user", "password": "pass"},
    {"server": "http://proxy2.example.com:8080", "username": "user", "password": "pass"},
]

with sync_playwright() as p:
    proxy = random.choice(proxy_list)
    browser = p.chromium.launch(proxy=proxy, headless=True)
    context = browser.new_context(
        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
        locale="en-US",
        timezone_id="America/New_York"
    )
    page = context.new_page()
    
    # Yêu cầu đầu tiên - trang chính
    page.goto("https://www.amazon.com")
    time.sleep(random.uniform(3, 5))
    
    # Yêu cầu sản phẩm
    page.goto("https://www.amazon.com/dp/B08N5WRWNW")
    page.wait_for_load_state("networkidle")
    
    # Trích xuất dữ liệu
    title = page.locator("#productTitle").inner_text()
    price = page.locator(".a-price-whole").first.inner_text()
    
    print(f"Title: {title}, Price: ${price}")
    
    browser.close()

Ưu điểm: kiểm soát hoàn toàn, rẻ hơn các dịch vụ đám mây, có thể mở rộng. Nhược điểm: yêu cầu kỹ năng lập trình, cần tự xử lý CAPTCHA.

Khuyến nghị về việc chọn công cụ

Tình huống của bạn	Công cụ được khuyến nghị
Không biết lập trình, cần 100-500 sản phẩm mỗi ngày	Octoparse + proxy dân cư
Cần nhanh chóng thử nghiệm ý tưởng, có ngân sách	ScrapingBee API
Biết lập trình, cần hàng ngàn sản phẩm	Playwright/Puppeteer + proxy dân cư
Ngân sách lớn, cần độ tin cậy tối đa	Bright Data Web Scraper

Phải làm gì khi bị chặn: chẩn đoán và giải pháp

Ngay cả khi tuân thủ tất cả các quy tắc, đôi khi vẫn xảy ra việc bị chặn. Quan trọng là hiểu nguyên nhân và nhanh chóng khắc phục vấn đề.

Các loại chặn và dấu hiệu của chúng

1. CAPTCHA (mã trạng thái 503 hoặc chuyển hướng đến /errors/validateCaptcha):

Nguyên nhân: hoạt động đáng ngờ từ IP, nhưng không bị chặn hoàn toàn
Giải pháp: thay đổi IP, tăng độ trễ giữa các yêu cầu, thêm mô phỏng hành động của người dùng
Tự động hóa: sử dụng dịch vụ giải CAPTCHA (2Captcha, Anti-Captcha) — nhưng điều này làm chậm quá trình lấy dữ liệu

2. Chặn IP (mã 403 hoặc trang trống):

Nguyên nhân: IP đã bị đưa vào danh sách đen do vượt quá giới hạn hoặc sử dụng trung tâm dữ liệu
Giải pháp: ngay lập tức thay đổi IP, kiểm tra loại proxy (có thể đang sử dụng trung tâm dữ liệu thay vì proxy dân cư)
Thời gian: thường là 24-48 giờ, đôi khi mãi mãi

3. "Để thảo luận về quyền truy cập tự động vào dữ liệu Amazon, vui lòng liên hệ với [email protected]":

Nguyên nhân: Amazon rõ ràng đã xác định tự động hóa và đề nghị sử dụng API chính thức
Giải pháp: cải thiện mô phỏng trình duyệt, kiểm tra dấu vân tay TLS, giảm tần suất yêu cầu xuống 2 lần

Danh sách kiểm tra chẩn đoán vấn đề

Nếu bạn nhận được các chặn, hãy kiểm tra theo thứ tự:

Loại proxy: đảm bảo rằng bạn đang sử dụng proxy dân cư, không phải trung tâm dữ liệu. Có thể kiểm tra trên whoer.net
Địa lý: IP phải đến từ cùng một quốc gia với chợ (Mỹ cho .com, Vương quốc Anh cho .co.uk)
User-Agent: phiên bản mới nhất của Chrome/Firefox (không cũ hơn 3-4 tháng)
Cookies: có được lưu giữa các yêu cầu trong cùng một phiên không
JavaScript: có được thực thi không (nếu bạn sử dụng Playwright/Puppeteer — phải được thực thi)
Tần suất yêu cầu: không quá 10-15 yêu cầu mỗi phút từ một IP
Độ trễ: ngẫu nhiên, không cố định
Xoay vòng IP: mỗi địa chỉ được sử dụng không thường xuyên hơn 1 lần trong 2-3 giờ

Biện pháp khẩn cấp khi bị chặn hàng loạt

Nếu phần lớn các yêu cầu bị chặn (hơn 30%):

Dừng việc lấy dữ liệu trong 2-3 giờ — cho phép Amazon "quên" về hoạt động của bạn
Thay đổi nhà cung cấp proxy — có thể pool IP đã bị lộ
Giảm tải xuống 3-5 lần — thay vì 100 yêu cầu mỗi giờ, hãy thực hiện 20-30
Chuyển sang proxy di động — chúng gần như không bị chặn, mặc dù đắt hơn
Thêm nhiều mô phỏng hành vi của con người: chuyển ngẫu nhiên giữa các danh mục, tìm kiếm sản phẩm qua thanh tìm kiếm, thay vì các URL trực tiếp

Chú ý: Nếu IP của bạn bị cấm vĩnh viễn (chặn kéo dài hơn 72 giờ), đừng cố gắng sử dụng lại. Amazon hiếm khi gỡ bỏ các lệnh cấm vĩnh viễn. Hãy chuyển sang một pool proxy mới.

Kết luận

Vượt qua hệ thống chống bot của Amazon là một nhiệm vụ phức tạp, đòi hỏi sự kết hợp giữa proxy đúng, mô phỏng trình duyệt chính xác và giới hạn yêu cầu hợp lý. Những điểm chính để lấy dữ liệu thành công: sử dụng proxy dân cư từ cùng một quốc gia với chợ; xoay vòng IP mỗi 10-15 phút với giới hạn 15-20 yêu cầu cho mỗi phiên; mô phỏng hoàn toàn trình duyệt hiện đại với các tiêu đề chính xác và thực thi JavaScript; độ trễ ngẫu nhiên từ 3-7 giây giữa các yêu cầu.

Khi tuân thủ những quy tắc này, tỷ lệ yêu cầu thành công đạt 95-98%, và việc bị chặn trở nên hiếm hoi. Điều quan trọng là không vội vàng và mô phỏng hành vi của người dùng thực, thay vì cố gắng lấy dữ liệu hàng ngàn sản phẩm trong vài phút.

Để hoạt động ổn định với Amazon, chúng tôi khuyên bạn nên sử dụng proxy dân cư...