Quay lại blog

Proxy cho việc thu thập đánh giá từ Amazon, Google Reviews và Yelp: hướng dẫn đầy đủ không bị chặn

Bạn muốn tự động thu thập đánh giá từ Amazon, Google Reviews và Yelp nhưng liên tục bị chặn? Bài viết này sẽ phân tích các loại proxy nên chọn và cách thiết lập thu thập dữ liệu mà không bị cấm.

📅16 tháng 5, 2026
```html

Bạn đang khởi động việc thu thập tự động các đánh giá từ Amazon hoặc Google — và chỉ sau 10-20 yêu cầu bạn đã nhận được captcha hoặc bị chặn IP. Có phải là một câu chuyện quen thuộc? Các thị trường và nền tảng đánh giá đang tích cực bảo vệ mình khỏi việc thu thập dữ liệu: phát hiện bot, chặn các dải IP từ các trung tâm dữ liệu và yêu cầu giải captcha. Nhưng với các proxy đúng, vấn đề này có thể được giải quyết một lần và mãi mãi.

Trong hướng dẫn này, chúng ta sẽ xem xét loại proxy nào phù hợp cho từng nền tảng, cách cấu hình xoay vòng IP, các công cụ nào có thể sử dụng mà không cần viết mã — và cuối cùng là cách thu thập hàng ngàn đánh giá mỗi ngày mà không bị chặn.

Tại sao Amazon, Google và Yelp chặn việc thu thập đánh giá

Trước khi chọn proxy, điều quan trọng là hiểu: tại sao lại xảy ra việc chặn? Không chỉ vì các nền tảng "không muốn chia sẻ dữ liệu". Họ có các cơ chế bảo vệ kỹ thuật cụ thể mà cần phải vượt qua một cách khéo léo.

Quá nhiều yêu cầu từ một IP. Khi một người bình thường duyệt qua các đánh giá trên Amazon, họ thực hiện 2-5 yêu cầu mỗi phút. Còn parser — hàng trăm yêu cầu. Hệ thống thấy hoạt động bất thường và chặn IP. Đây là lý do phổ biến nhất dẫn đến việc bị chặn khi thu thập dữ liệu.

Các địa chỉ IP của trung tâm dữ liệu nằm trong danh sách đen. Amazon, Google và Yelp đã từ lâu đưa vào danh sách đen các dải IP của các nhà cung cấp đám mây lớn: AWS, Google Cloud, DigitalOcean, Hetzner. Nếu bạn sử dụng các proxy trung tâm dữ liệu rẻ tiền với các địa chỉ "đã bị lộ" — bạn sẽ bị chặn ngay cả trước khi thực hiện yêu cầu đầu tiên.

Phân tích dấu vân tay của trình duyệt và tiêu đề. Các hệ thống bảo vệ hiện đại (Cloudflare, PerimeterX, DataDome) không chỉ phân tích IP mà còn cả các tiêu đề HTTP, User-Agent, hành vi chuột, chuỗi yêu cầu. Nếu các tiêu đề cho thấy đó là bot — việc chặn là không thể tránh khỏi.

Giới hạn địa lý. Một số đánh giá trên Amazon chỉ có sẵn cho người dùng từ các quốc gia nhất định. Ví dụ, các đánh giá trên amazon.de được hiển thị khác từ Đức so với từ Nga. Để thu thập dữ liệu chính xác, cần có proxy với địa lý phù hợp.

Captcha và thử thách JS. Google đặc biệt tích cực sử dụng reCAPTCHA. Yelp áp dụng các kiểm tra JS, mà không thể vượt qua bằng các yêu cầu HTTP đơn giản. Những cơ chế này yêu cầu hoặc sử dụng các công cụ trình duyệt, hoặc các dịch vụ đặc biệt để giải captcha.

Kết luận chính:

Việc chặn không phải là ngẫu nhiên, mà là một hệ thống. Để vượt qua nó chỉ có thể bằng cách tổng thể: loại proxy đúng + xoay vòng IP + tiêu đề yêu cầu hợp lý + công cụ phù hợp cho việc thu thập dữ liệu.

Các loại proxy tồn tại và cái nào phù hợp cho việc thu thập đánh giá

Không phải tất cả các proxy đều có ích như nhau cho việc thu thập đánh giá. Chúng ta sẽ xem xét ba loại chính và khả năng áp dụng của chúng cho nhiệm vụ này.

Proxy trung tâm dữ liệu (Datacenter Proxies)

Đây là các địa chỉ IP thuộc về các công ty máy chủ. Chúng nhanh, rẻ và phù hợp cho các nhiệm vụ mà tốc độ quan trọng hơn tính ẩn danh. Tuy nhiên, cho việc thu thập đánh giá trên Amazon hoặc Google, chúng hoạt động kém: hầu hết các IP như vậy đã nằm trong danh sách đen. Bạn có thể thu thập một vài trang, nhưng sẽ nhanh chóng bị chặn hoặc captcha.

Proxy trung tâm dữ liệu chỉ hợp lý cho việc thử nghiệm parser hoặc cho các nền tảng có bảo vệ tối thiểu — chẳng hạn như các trang web đánh giá nhỏ khu vực.

Proxy dân cư (Residential Proxies)

Đây là các địa chỉ IP của người dùng thực tế. Từ quan điểm của Amazon hoặc Google — đây là một người bình thường với internet tại nhà. Các proxy như vậy hầu như không bị đưa vào danh sách đen, vì IP của chúng liên tục thay đổi và thuộc về các thiết bị thực tế.

Proxy dân cư là lựa chọn tối ưu cho việc thu thập đánh giá trên Amazon, Yelp và hầu hết các nền tảng có bảo vệ vừa phải. Chúng cho phép thực hiện các yêu cầu với địa lý cần thiết (quốc gia, thành phố), điều này rất quan trọng để nhận được các đánh giá địa phương.

Proxy di động (Mobile Proxies)

Các địa chỉ IP của các nhà mạng di động (4G/5G). Đây là loại lưu lượng "đáng tin cậy" nhất cho bất kỳ nền tảng nào: các IP di động hiếm khi bị chặn, vì một IP có thể có hàng trăm người dùng thực tế (NAT của các nhà mạng di động). Google đặc biệt thân thiện với các địa chỉ di động.

Proxy di động là không thể thiếu cho việc thu thập Google Reviews và Yelp, nơi mà bảo vệ chống bot đặc biệt mạnh mẽ. Chúng đắt hơn proxy dân cư, nhưng mang lại tỷ lệ yêu cầu thành công cao nhất mà không cần captcha.

Thu thập đánh giá Amazon: đặc điểm và cấu hình proxy

Amazon là một trong những trang web khó thu thập nhất. Công ty sử dụng nhiều cấp độ bảo vệ cùng lúc: phân tích hành vi, kiểm tra tiêu đề, địa lý và hệ thống captcha mạnh mẽ. Tuy nhiên, hàng ngàn nhà tiếp thị và nhà phân tích thu thập đánh giá từ Amazon mỗi ngày — chỉ cần họ làm điều đó đúng cách.

Những gì cần thiết cho việc thu thập thành công Amazon Reviews

Dưới đây là bộ điều kiện tối thiểu mà trong đó việc thu thập sẽ hoạt động ổn định:

  • Proxy dân cư hoặc di động với địa lý của quốc gia cần thiết (Mỹ cho amazon.com, Đức cho amazon.de)
  • Xoay vòng IP — ít nhất mỗi 10-30 yêu cầu
  • User-Agent đúng — giả lập trình duyệt thực (Chrome, Firefox)
  • Độ trễ giữa các yêu cầu — 2-5 giây, để không trông giống như bot
  • Cookies-session — Amazon phản ứng tốt hơn với các yêu cầu có cookies đã lưu

Hướng dẫn từng bước cho Amazon

Bước 1. Chọn proxy dân cư với địa lý của quốc gia cần thiết. Đối với amazon.com — Mỹ, đối với amazon.co.uk — Vương quốc Anh. Điều này rất quan trọng: Amazon hiển thị các đánh giá khác nhau cho người dùng từ các quốc gia khác nhau.

Bước 2. Cấu hình xoay vòng. Nếu bạn sử dụng một parser có sẵn (ví dụ: Octoparse hoặc ParseHub), hãy chỉ định proxy trong cài đặt kết nối. Hầu hết các công cụ như vậy hỗ trợ danh sách proxy với xoay vòng tự động.

Bước 3. Thiết lập độ trễ giữa các yêu cầu. Trong Octoparse, điều này được thực hiện trong phần "Cài đặt độ trễ" — hãy đặt khoảng thời gian ngẫu nhiên từ 2 đến 6 giây.

Bước 4. Chạy thử nghiệm trên 50-100 trang. Nếu captcha xuất hiện thường xuyên hơn 5% — hãy tăng độ trễ hoặc thay đổi nhóm proxy.

Bước 5. Mở rộng quy mô. Sau khi thử nghiệm thành công, bạn có thể bắt đầu thu thập hàng ngàn đánh giá. Một nhóm proxy dân cư tốt cho phép thu thập 5000-10000 đánh giá mỗi ngày mà không bị chặn.

Điều quan trọng về Amazon:

Amazon thường xuyên cập nhật các thuật toán bảo vệ. Nếu parser của bạn hoạt động cách đây một tháng, nhưng bây giờ bắt đầu nhận được các chặn — có thể thuật toán kiểm tra đã thay đổi. Giải pháp: cập nhật User-Agent lên phiên bản Chrome mới nhất và kiểm tra xem proxy của bạn có bị đưa vào danh sách đen không.

Thu thập đánh giá Google Reviews: những điều quan trọng cần biết

Google Reviews — đánh giá trong Google Maps và Google Business Profile — là nguồn dữ liệu quý giá cho các nhà tiếp thị, chuyên gia SEO và nhà phân tích. Nhưng Google bảo vệ dữ liệu của mình một cách đặc biệt mạnh mẽ: reCAPTCHA v3, phân tích hành vi, kiểm tra dấu vân tay của trình duyệt.

Khó khăn chính: Google Reviews không được tải qua yêu cầu HTTP thông thường. Các đánh giá được tải động qua JavaScript. Điều này có nghĩa là parser HTTP đơn giản sẽ không hoạt động — cần một công cụ có khả năng render JavaScript (parser trình duyệt).

Cách thu thập Google Reviews đúng cách

Tuỳ chọn 1: Dịch vụ có sẵn. Các công cụ như Outscraper, Apify (diễn viên Google Maps Scraper) hoặc PhantomBuster có khả năng thu thập Google Reviews qua động cơ trình duyệt. Bạn chỉ cần chỉ định URL hoặc tên cơ sở và kết nối proxy.

Tuỳ chọn 2: Octoparse với chế độ trình duyệt. Octoparse hỗ trợ chế độ render trình duyệt. Trong cài đặt, hãy chỉ định proxy dân cư hoặc di động — và công cụ sẽ thu thập đánh giá như một người dùng thực sự.

Tuỳ chọn 3: Google Places API. Cách chính thức — sử dụng Google Places API. Nó cung cấp tới 5 đánh giá cho mỗi cơ sở miễn phí, nhưng để có khối lượng lớn hơn cần phải trả phí. Tuy nhiên, không có chặn nào và không cần proxy.

Tại sao cần proxy di động cho Google

Google — là người sáng tạo ra reCAPTCHA và là một trong những người dẫn đầu trong lĩnh vực phát hiện bot. Proxy dân cư hoạt động, nhưng IP di động mang lại kết quả tốt hơn nhiều. Lý do đơn giản: Google tự là một nền tảng di động và tin tưởng vào lưu lượng di động. Các yêu cầu từ IP di động ít khi kích hoạt captcha và ít bị phân tích hành vi.

Để thu thập quy mô lớn Google Reviews (hàng ngàn cơ sở mỗi ngày), nên sử dụng proxy di động xoay vòng với địa lý của thành phố hoặc khu vực cần thiết. Như vậy, các đánh giá sẽ phù hợp nhất với tìm kiếm địa phương.

Thu thập Yelp mà không bị chặn: hướng dẫn từng bước

Yelp là nền tảng đánh giá lớn nhất tại Mỹ. Đối với các nhà tiếp thị làm việc với thị trường Mỹ, đây là nguồn dữ liệu bắt buộc về đối thủ, tâm lý khách hàng và xu hướng trong ngách. Việc thu thập Yelp khó hơn so với vẻ bề ngoài: nền tảng sử dụng Cloudflare và hệ thống bảo vệ chống bot riêng.

Đặc điểm bảo vệ của Yelp

  • Quản lý bot Cloudflare — phân tích hành vi và dấu vân tay
  • Giới hạn yêu cầu: hơn 30-50 yêu cầu mỗi phút từ một IP — bị chặn
  • Kiểm tra JavaScript khi lần đầu truy cập
  • Một phần đánh giá bị ẩn ("đánh giá đã lọc") và chỉ có sẵn cho người dùng đã đăng nhập

Hướng dẫn từng bước cho Yelp

Bước 1. Chọn công cụ hỗ trợ Cloudflare. Các parser thông thường sẽ không vượt qua Cloudflare. Sử dụng Apify (diễn viên Yelp Scraper), Bright Data Scraping Browser hoặc PhantomBuster — chúng có khả năng vượt qua các kiểm tra JS.

Bước 2. Kết nối proxy dân cư với địa lý Mỹ. Yelp tập trung vào thị trường Mỹ. Proxy với các IP Mỹ sẽ cung cấp quyền truy cập tối đa vào dữ liệu và số lượng chặn tối thiểu.

Bước 3. Cấu hình xoay vòng mỗi 5-10 yêu cầu. Yelp rất nhạy cảm với tần suất yêu cầu. Xoay vòng IP mỗi 5-10 trang là điều kiện bắt buộc để hoạt động ổn định.

Bước 4. Thêm độ trễ 3-8 giây giữa các yêu cầu. Các độ trễ ngẫu nhiên mô phỏng hành vi của người dùng thực và giảm đáng kể nguy cơ bị chặn.

Bước 5. Sử dụng Yelp Fusion API cho một phần dữ liệu. Yelp cung cấp API chính thức với quyền truy cập vào dữ liệu cơ bản về doanh nghiệp và đánh giá. Đối với khối lượng nhỏ, đây là cách đơn giản nhất mà không có nguy cơ bị chặn.

Công cụ thu thập đánh giá mà không cần viết mã

Tin tốt: để thu thập đánh giá, bạn không cần phải là lập trình viên. Có các công cụ có sẵn với giao diện trực quan, hỗ trợ kết nối proxy và xoay vòng IP tự động. Chúng ta sẽ xem xét những công cụ phổ biến nhất trong số đó.

Công cụ Nền tảng Hỗ trợ proxy Độ khó
Octoparse Amazon, Yelp, bất kỳ trang web nào ✅ Danh sách proxy + xoay vòng Thấp (chế độ trực quan)
Apify Amazon, Google Maps, Yelp ✅ Proxy tích hợp + proxy riêng Thấp (các diễn viên có sẵn)
PhantomBuster Google Maps, Yelp ✅ Proxy dân cư Thấp (mẫu có sẵn)
ParseHub Amazon, Yelp, bất kỳ trang web nào ✅ Danh sách proxy Trung bình
Outscraper Google Reviews, Maps ✅ Tích hợp sẵn Rất thấp (SaaS)

Cách kết nối proxy trong Octoparse (từng bước)

Octoparse là một trong những công cụ phổ biến nhất trong số các nhà tiếp thị không có nền tảng kỹ thuật. Dưới đây là cách kết nối proxy:

  1. Mở Octoparse → đi đến Cài đặt → Cài đặt Proxy
  2. Chọn "Sử dụng proxy tùy chỉnh"
  3. Dán danh sách proxy theo định dạng ip:port:login:password
  4. Bật "Tự động xoay vòng proxy" — công cụ sẽ tự động thay đổi IP
  5. Nhấn "Kiểm tra proxy" — đảm bảo rằng tất cả các proxy đều hoạt động
  6. Chạy nhiệm vụ ở chế độ bình thường

Cách kết nối proxy trong Apify

  1. Truy cập apify.com → chọn diễn viên cần thiết (ví dụ: "Amazon Reviews Scraper")
  2. Trong phần "Input", tìm trường "Cấu hình Proxy"
  3. Chọn "Proxy tùy chỉnh" và dán dữ liệu proxy của bạn
  4. Chỉ định URL của các trang có đánh giá hoặc mã ASIN của sản phẩm (đối với Amazon)
  5. Nhấn "Bắt đầu" — kết quả sẽ có sẵn dưới định dạng JSON hoặc Excel

Xoay vòng proxy và quy tắc thu thập an toàn đánh giá

Ngay cả những proxy chất lượng nhất cũng không giúp ích gì nếu không tuân thủ các quy tắc thu thập an toàn. Các nền tảng phân tích các mẫu hành vi, và một mẫu yêu cầu sai có thể dẫn đến việc chặn toàn bộ nhóm IP.

Quy tắc 1: Xoay vòng IP thường xuyên

Đối với Amazon, nên thay đổi IP mỗi 10-20 yêu cầu. Đối với Google — mỗi 5-10. Đối với Yelp — mỗi 5-8. Nếu bạn sử dụng proxy phiên (sticky sessions), hãy đảm bảo rằng phiên không vượt quá 10-15 phút — sau đó hãy yêu cầu một IP mới.

Quy tắc 2: Giả lập hành vi thực tế

Người dùng thực không thực hiện các yêu cầu với khoảng thời gian hoàn hảo 2 giây. Hãy thêm các độ trễ ngẫu nhiên: từ 1 đến 8 giây. Đôi khi hãy nghỉ giữa chừng từ 30-60 giây — như thể một người đang đọc trang. Điều này giảm đáng kể khả năng bị phát hiện.

Quy tắc 3: Sử dụng User-Agent hiện tại

User-Agent phải tương ứng với trình duyệt thực. Các phiên bản cũ của Chrome hoặc Firefox ngay lập tức gây nghi ngờ. Hãy cập nhật User-Agent ít nhất một lần mỗi tháng. Các parser tốt (Octoparse, Apify) thực hiện điều này tự động.

Quy tắc 4: Không thu thập vào ban đêm (theo giờ địa phương của nền tảng)

Các hệ thống bảo vệ nhạy cảm hơn với lưu lượng nghi ngờ vào ban đêm. Nếu bạn thu thập Amazon Mỹ, tốt hơn hết là thực hiện vào ban ngày theo giờ Mỹ (EST/PST) — khi có nhiều người dùng thực trên nền tảng và các yêu cầu của bạn "chìm" trong lưu lượng chung.

Quy tắc 5: Theo dõi tỷ lệ yêu cầu thành công

Một chỉ số tốt là hơn 95% yêu cầu thành công mà không cần captcha. Nếu tỷ lệ giảm xuống dưới 85% — có điều gì đó không ổn. Hãy kiểm tra: proxy có bị lỗi không, thuật toán bảo vệ có thay đổi không, có cần cập nhật User-Agent hoặc tăng độ trễ không.

Danh sách kiểm tra thu thập an toàn đánh giá:

  • ✅ Proxy dân cư hoặc di động với địa lý cần thiết
  • ✅ Xoay vòng IP mỗi 5-20 yêu cầu (tùy thuộc vào nền tảng)
  • ✅ Độ trễ ngẫu nhiên 1-8 giây giữa các yêu cầu
  • ✅ User-Agent hiện tại (phiên bản mới nhất của Chrome)
  • ✅ Thu thập vào ban ngày theo giờ địa phương của nền tảng
  • ✅ Giám sát tỷ lệ yêu cầu thành công (mục tiêu: >95%)
  • ✅ Cập nhật nhóm proxy mỗi 1-2 tháng

So sánh các loại proxy cho các nền tảng đánh giá khác nhau

Dưới đây là bảng tổng hợp giúp bạn nhanh chóng chọn loại proxy phù hợp cho nhiệm vụ cụ thể. Hãy dựa vào nó khi cấu hình việc thu thập dữ liệu.

Nền tảng Datacenter Dân cư Di động Khuyến nghị
Đánh giá Amazon ❌ Bị chặn ✅ Tốt ✅ Xuất sắc Proxy dân cư (Mỹ)
Đánh giá Google ❌ Bị chặn ⚠️ Trung bình ✅ Xuất sắc Di động
Yelp ❌ Bị chặn ✅ Tốt ✅ Xuất sắc Proxy dân cư (Mỹ)
Trustpilot ⚠️ Một phần ✅ Tốt ✅ Xuất sắc Proxy dân cư
Wildberries / Ozon ⚠️ Hoạt động ✅ Xuất sắc ✅ Xuất sắc Proxy dân cư (Nga)
TripAdvisor ❌ Bị chặn ✅ Tốt ✅ Xuất sắc Proxy dân cư

Tại sao lại thu thập đánh giá: kịch bản sử dụng

Việc thu thập đánh giá tự động giải quyết ngay lập tức một số vấn đề kinh doanh:

  • Phân tích đối thủ. Thu thập đánh giá về sản phẩm của đối thủ trên Amazon → tìm ra điểm yếu → sử dụng trong chiến lược tiếp thị của bạn
  • Theo dõi danh tiếng. Tự động theo dõi các đánh giá mới về thương hiệu của bạn trên tất cả các nền tảng
  • Nghiên cứu đối tượng. Phân tích hàng ngàn đánh giá → phát hiện các mẫu → cải thiện sản phẩm
  • SEO và nội dung. Thu thập đánh giá cho phân tích ngữ nghĩa, phát hiện từ khóa mà khách hàng thực tế sử dụng
  • Các dịch vụ tổng hợp đánh giá. Tạo các dịch vụ tổng hợp đánh giá từ nhiều nền tảng cho doanh nghiệp

Thu thập đánh giá trên các thị trường Nga

Nếu doanh nghiệp của bạn hướng đến thị trường Nga, bạn cũng cần thu thập đánh giá từ Wildberries, Ozon và Yandex.Market. Những nền tảng này có bảo vệ nhẹ hơn so với Amazon, nhưng cũng chặn việc thu thập dữ liệu hàng loạt. Đối với chúng, chỉ cần proxy dân cư với các IP Nga — chúng cho phép thu thập dữ liệu ổn định mà không cần captcha và chặn.

Các công cụ phổ biến cho việc thu thập dữ liệu từ các thị trường Nga: Screaming Frog (với proxy), Octoparse, cũng như các dịch vụ chuyên biệt như Moneyplace hoặc MPStats, đã bao gồm proxy trong cơ sở hạ tầng của họ.

Kết luận: cách bắt đầu thu thập đánh giá mà không bị chặn ngay bây giờ

Việc thu thập tự động các đánh giá từ Amazon, Google Reviews và Yelp là một công cụ mạnh mẽ cho các nhà tiếp thị, nhà phân tích và chuyên gia thương mại điện tử. Rào cản chính — là việc bị chặn. Và giải pháp chính — là loại proxy đúng kết hợp với cấu hình xoay vòng và độ trễ hợp lý.

Tóm tắt điều chính: cho Amazon và Yelp, hãy sử dụng proxy dân cư với địa lý của quốc gia cần thiết. Đối với Google Reviews — hãy sử dụng proxy di động, chúng mang lại tỷ lệ yêu cầu thành công cao nhất. Proxy trung tâm dữ liệu cho những nhiệm vụ này gần như vô dụng — các IP của chúng đã nằm trong danh sách đen từ lâu.

Trong số các công cụ không cần mã, Octoparse và Apify là lựa chọn tốt nhất — cả hai đều hỗ trợ kết nối proxy bên ngoài và xoay vòng tự động. Đối với Google Reviews, cũng hãy xem xét Outscraper — đây là dịch vụ chuyên biệt đã được tối ưu hóa cho việc thu thập dữ liệu từ Google Maps.

Nếu bạn dự định thu thập đánh giá thường xuyên từ nhiều nền tảng, chúng tôi khuyên bạn nên bắt đầu với proxy dân cư — chúng cung cấp sự cân bằng tối ưu giữa tốc độ, tính ẩn danh và chi phí, và phù hợp cho hầu hết các nhiệm vụ theo dõi đánh giá. Đối với việc làm việc với Google Reviews, nơi mà bảo vệ đặc biệt mạnh mẽ, hãy xem xét proxy di động — chúng mang lại tỷ lệ yêu cầu thành công cao nhất mà không cần captcha.

```