Quay lại blog

Cách theo dõi giá cả động của đối thủ qua proxy mà không bị chặn

Hướng dẫn chi tiết về việc giám sát giá động của đối thủ thông qua proxy: các loại proxy nào phù hợp để thu thập dữ liệu từ Wildberries, Ozon, Avito, cách thiết lập luân phiên và tránh bị chặn.

📅28 tháng 1, 2026
```html

Giá động đã trở thành tiêu chuẩn trên các sàn thương mại điện tử — giá thay đổi từ 10-20 lần mỗi ngày tùy thuộc vào nhu cầu, tồn kho và hành động của đối thủ. Nếu bạn là người bán trên Wildberries, Ozon hoặc Avito, bạn biết rằng: ai biết trước về việc giảm giá của đối thủ — người đó giữ được vị trí trong kết quả tìm kiếm. Nhưng tất cả các sàn thương mại điện tử đều chặn chặt chẽ việc thu thập dữ liệu hàng loạt từ một IP. Trong bài viết này, chúng ta sẽ xem xét cách thiết lập theo dõi giá tự động qua proxy, để thu thập dữ liệu 24/7 mà không có rủi ro bị chặn tài khoản hoặc địa chỉ IP.

Tại sao các sàn thương mại điện tử chặn việc thu thập giá và cách thức hoạt động

Tất cả các sàn thương mại điện tử lớn đều sử dụng bảo vệ đa tầng chống lại việc thu thập dữ liệu tự động. Lý do rất đơn giản: việc thu thập dữ liệu hàng loạt tạo ra gánh nặng cho máy chủ và mang lại lợi thế cạnh tranh cho những ai biết cách thu thập dữ liệu. Wildberries, chẳng hạn, ghi nhận tới 300.000 thay đổi giá mỗi ngày — và không muốn những dữ liệu này đến tay đối thủ miễn phí.

Đây là cách mà một hệ thống bảo vệ chống lại việc thu thập dữ liệu hoạt động:

  • Theo dõi tần suất yêu cầu từ một IP — nếu bạn mở 50+ thẻ sản phẩm trong một phút, hệ thống sẽ hiểu rằng đây không phải là con người. Người mua thông thường xem 3-5 sản phẩm mỗi phút, trong khi trình thu thập dữ liệu — 100-500.
  • Phân tích User-Agent và tiêu đề — các yêu cầu không có tiêu đề trình duyệt chính xác ngay lập tức bị đưa vào danh sách đen. Nhiều người mới bắt đầu sử dụng các thư viện Python requests tiêu chuẩn mà không thiết lập tiêu đề — đây là điều đầu tiên mà các hệ thống bảo vệ phát hiện.
  • Kiểm tra JavaScript và cookies — các sàn thương mại điện tử hiện đại sử dụng Cloudflare, DataDome và các hệ thống chống bot riêng. Họ kiểm tra việc thực thi JavaScript, sự hiện diện của cookies phiên làm việc, hành vi chuột và cuộn trang.
  • Ràng buộc địa lý của IP — nếu bạn thu thập dữ liệu từ Ozon của Nga với IP từ Đức hoặc Mỹ, điều này trông rất đáng ngờ. Hệ thống có thể hiển thị cho bạn giá cũ hoặc thậm chí chặn quyền truy cập.
  • Chặn các trung tâm dữ liệu — hầu hết các sàn thương mại điện tử đều duy trì cơ sở dữ liệu các địa chỉ IP của các nhà cung cấp đám mây (AWS, Google Cloud, Hetzner) và tự động hạn chế các yêu cầu từ chúng.

Kết quả của việc bị chặn có thể khác nhau: từ hạn chế tạm thời về tốc độ (rate limit) đến việc cấm hoàn toàn IP trong vài tuần. Nếu bạn thu thập dữ liệu qua tài khoản người bán — bạn có nguy cơ bị chặn tài khoản cá nhân, điều này rất nghiêm trọng cho doanh nghiệp.

Trường hợp thực tế: Một người bán trên Wildberries đã thiết lập thu thập giá của đối thủ qua một máy chủ VPS thông thường. Trong 2 giờ, họ đã thu thập dữ liệu cho 500 sản phẩm. Sau một ngày, họ phát hiện rằng IP của họ đã bị chặn hoàn toàn — thậm chí không thể truy cập vào trang web như một người mua thông thường. Họ phải chờ 2 tuần cho đến khi việc chặn tự động được gỡ bỏ.

Các loại proxy nào phù hợp cho việc theo dõi giá: so sánh

Để theo dõi giá động, có ba loại proxy phù hợp, mỗi loại có ưu và nhược điểm riêng. Việc lựa chọn phụ thuộc vào ngân sách, khối lượng thu thập dữ liệu và yêu cầu về địa lý.

Loại proxy Ưu điểm Nhược điểm Dành cho những nhiệm vụ nào
Proxy dân cư IP thực từ người dùng gia đình, rủi ro bị chặn tối thiểu, hỗ trợ bất kỳ địa lý nào, vượt qua Cloudflare Đắt hơn các loại khác, tốc độ có thể thay đổi Thu thập dữ liệu từ Wildberries, Ozon, các trang web có bảo vệ chặt chẽ. Theo dõi giá theo vùng.
Proxy di động IP của các nhà mạng di động, một IP được sử dụng bởi hàng ngàn người dùng — gần như không thể bị chặn, điểm tin cậy cao Đắt nhất, địa lý hạn chế, IP có thể thay đổi định kỳ bởi nhà mạng Thu thập dữ liệu qua ứng dụng di động của các sàn thương mại điện tử, vượt qua bảo vệ chặt chẽ nhất
Proxy trung tâm dữ liệu Tốc độ cao, giá thấp, kết nối ổn định, băng thông không giới hạn Dễ bị phát hiện, nhiều sàn thương mại điện tử chặn các trung tâm dữ liệu một cách phòng ngừa Thu thập dữ liệu từ các trang web không có bảo vệ nghiêm ngặt, Avito, các cửa hàng trực tuyến nhỏ

Khuyến nghị thực tiễn về việc lựa chọn:

  • Đối với Wildberries và Ozon — chỉ sử dụng proxy dân cư hoặc di động. Các nền tảng này sử dụng Cloudflare và hệ thống chống bot riêng, trung tâm dữ liệu bị chặn trong 90% trường hợp.
  • Đối với Yandex.Market — proxy dân cư với địa lý Nga, hệ thống kiểm tra sự phù hợp giữa IP và khu vực tìm kiếm.
  • Đối với Avito — có thể sử dụng trung tâm dữ liệu, nhưng cần có quay vòng và độ trễ giữa các yêu cầu. Bảo vệ yếu hơn so với các sàn thương mại điện tử.
  • Đối với AliExpress và các nền tảng quốc tế — proxy dân cư của quốc gia cần thiết, nhiều nơi hiển thị giá khác nhau cho các khu vực khác nhau.

Nếu ngân sách hạn chế — bắt đầu với một nhóm 20-30 proxy dân cư với quay vòng. Điều này đủ để theo dõi 500-1000 sản phẩm mỗi ngày mà không bị chặn.

Đặc điểm bảo vệ của Wildberries, Ozon, Yandex.Market và Avito

Mỗi nền tảng sử dụng sự kết hợp riêng của các cơ chế bảo vệ. Hiểu rõ những đặc điểm này giúp bạn thiết lập trình thu thập dữ liệu đúng cách ngay từ lần đầu tiên.

Wildberries

Bảo vệ nghiêm ngặt nhất trong số các sàn thương mại điện tử của Nga. Họ sử dụng Cloudflare với chế độ "I'm Under Attack" được bật, kiểm tra thách thức JavaScript trước khi truy cập vào nội dung. Ngoài ra, họ theo dõi:

  • Dấu vân tay trình duyệt — canvas, WebGL, fonts, độ phân giải màn hình
  • Dấu vân tay TLS — phiên bản giao thức và bộ cipher suites
  • Các yếu tố hành vi — tốc độ cuộn, chuyển động chuột, thời gian trên trang
  • Lịch sử phiên làm việc — nếu bạn ngay lập tức bắt đầu mở các thẻ sản phẩm mà không xem trang chính và các danh mục, điều này rất đáng ngờ

Những gì hoạt động: Trình duyệt không giao diện (Headless) (Puppeteer, Playwright) với proxy dân cư, mô phỏng hành vi thực tế của người dùng, độ trễ 5-15 giây giữa các yêu cầu, quay vòng User-Agent và proxy sau mỗi 20-30 yêu cầu.

Ozon

Họ sử dụng hệ thống chống bot riêng cộng với DataDome. Đặc điểm: giá có thể khác nhau tùy thuộc vào thành phố giao hàng — hệ thống xác định khu vực theo IP và hiển thị giá tương ứng với logistics.

Ozon tích cực chặn các dải IP của các trung tâm dữ liệu nổi tiếng. Khi thu thập dữ liệu qua VPS thông thường, trong 80% trường hợp bạn sẽ nhận được captcha hoặc lỗi 403. Họ cũng theo dõi cookies — nếu bạn thực hiện các yêu cầu mà không lưu giữ phiên làm việc giữa các yêu cầu, điều này sẽ bị phát hiện.

Những gì hoạt động: Proxy dân cư với địa lý Nga, bắt buộc lưu giữ cookies giữa các yêu cầu, mô phỏng việc thêm sản phẩm vào danh sách yêu thích (điều này tạo ra "lịch sử" của người dùng), độ trễ 3-10 giây.

Yandex.Market

Mức độ bảo vệ trung bình. Đặc điểm chính — ràng buộc chặt chẽ theo khu vực. Nếu bạn thu thập giá cho Moscow với IP từ Vladivostok, hệ thống sẽ hiển thị giá cho Vladivostok hoặc thậm chí chặn quyền truy cập. Để theo dõi chính xác, bạn cần proxy từ khu vực mà bạn đang theo dõi giá.

Yandex cũng sử dụng hệ thống chống gian lận riêng, phân tích chuỗi hành động. Hành động đáng ngờ là: mở các thẻ sản phẩm qua các liên kết trực tiếp mà không tìm kiếm, khoảng thời gian giống nhau giữa các yêu cầu (ví dụ, chính xác mỗi 5 giây), không có yêu cầu đến các tĩnh (hình ảnh, kiểu dáng).

Những gì hoạt động: Proxy dân cư từ khu vực cần thiết, mô phỏng chu trình hoàn chỉnh: tìm kiếm → danh sách sản phẩm → thẻ sản phẩm, độ trễ ngẫu nhiên 4-12 giây, quay vòng proxy định kỳ.

Avito

Bảo vệ dễ chịu nhất trong số các nền tảng đã đề cập. Bảo vệ chính — giới hạn số lượng lượt xem quảng cáo từ một IP (khoảng 100-150 quảng cáo mỗi giờ). Sau khi vượt quá giới hạn, captcha hoặc chặn tạm thời sẽ xuất hiện trong 1-2 giờ.

Avito cũng kiểm tra sự hiện diện của cookies và các tiêu đề cơ bản, nhưng không sử dụng các thách thức JavaScript phức tạp. Các trung tâm dữ liệu vẫn hoạt động, nhưng với các hạn chế — cần có quay vòng và tần suất yêu cầu vừa phải.

Những gì hoạt động: Ngay cả các trung tâm dữ liệu với quay vòng, độ trễ 2-5 giây giữa các quảng cáo, tiêu đề trình duyệt chính xác, lưu giữ cookies. Đối với khối lượng lớn — proxy dân cư.

Thiết lập quay vòng proxy cho việc thu thập dữ liệu 24/7

Quay vòng proxy đúng cách là yếu tố chính cho việc thu thập dữ liệu ổn định mà không bị chặn. Có ba chiến lược quay vòng chính, mỗi chiến lược phù hợp với các kịch bản khác nhau.

Chiến lược 1: Quay vòng theo số lượng yêu cầu

Nội dung: thay đổi proxy sau một số lượng yêu cầu nhất định (ví dụ, sau mỗi 20-50 yêu cầu). Đây là phương pháp đơn giản và hiệu quả nhất cho hầu hết các nhiệm vụ.

Giá trị được khuyến nghị cho các nền tảng khác nhau:

  • Wildberries: 15-25 yêu cầu cho một proxy, sau đó thay đổi
  • Ozon: 20-30 yêu cầu
  • Yandex.Market: 30-50 yêu cầu
  • Avito: 50-100 yêu cầu

Một điểm quan trọng: hãy thêm sự ngẫu nhiên. Đừng thay đổi proxy một cách nghiêm ngặt sau 20 yêu cầu — hãy thực hiện điều này sau 18-23 yêu cầu một cách ngẫu nhiên. Điều này làm cho mẫu trở nên ít dự đoán hơn cho các hệ thống bảo vệ.

Chiến lược 2: Quay vòng theo thời gian

Thay đổi proxy mỗi N phút bất kể số lượng yêu cầu. Phù hợp cho các nhiệm vụ có tải không thể đoán trước — chẳng hạn như theo dõi giá theo thời gian thực, khi số lượng cập nhật có thể thay đổi đột ngột.

Khoảng thời gian được khuyến nghị: 5-15 phút cho các nền tảng nghiêm ngặt (Wildberries, Ozon), 15-30 phút cho các nền tảng dễ chịu hơn (Avito, các cửa hàng nhỏ).

Chiến lược 3: Phiên dính (Sticky sessions)

Sử dụng cùng một proxy cho tất cả các yêu cầu trong một "phiên người dùng". Ví dụ: bạn mô phỏng một người mua đã vào Ozon, tìm kiếm "máy tính xách tay", mở 5 thẻ sản phẩm, thêm một sản phẩm vào giỏ hàng. Tất cả các hành động này đi qua một proxy với việc lưu giữ cookies.

Sau khi kết thúc phiên (sau 3-10 phút) — thay đổi proxy và bắt đầu một phiên mới. Đây là mẫu "người thật" nhất, nhưng yêu cầu nhiều proxy hơn và khó thực hiện hơn.

Khi nào sử dụng: Thu thập dữ liệu từ các nền tảng có bảo vệ rất nghiêm ngặt, khi quay vòng đơn giản không hoạt động. Cũng phù hợp cho việc thu thập dữ liệu qua các tài khoản cá nhân của người bán.

Lời khuyên thực tiễn:

Kết hợp các chiến lược. Ví dụ: sử dụng các phiên dính cho 20-30 yêu cầu, và sau khi kết thúc phiên, thay đổi proxy. Thêm giới hạn thời gian — nếu phiên kéo dài hơn 10 phút, hãy thay đổi proxy một cách cưỡng bức. Phương pháp kết hợp này mang lại sự bảo vệ tối đa khỏi việc phát hiện.

Các công cụ sẵn có cho việc theo dõi giá với hỗ trợ proxy

Nếu bạn không muốn viết trình thu thập dữ liệu từ đầu, có các giải pháp sẵn có với hỗ trợ proxy tích hợp. Hãy xem xét những công cụ phổ biến nhất cho việc theo dõi giá trên các nền tảng Nga và quốc tế.

Đối với các sàn thương mại điện tử Nga

1. Mpstats (mpstats.io)
Dịch vụ chuyên biệt cho phân tích Wildberries và Ozon. Thu thập dữ liệu về doanh số, tồn kho, giá của đối thủ. Có API để tích hợp với các hệ thống riêng. Dịch vụ hoạt động qua hạ tầng proxy riêng, bạn không cần thiết lập gì thêm.

Nhược điểm: chi phí cao (từ 15.000 rub/tháng cho quyền truy cập đầy đủ), không thể sử dụng proxy của riêng bạn. Phù hợp cho những người bán lớn với doanh thu từ 1-2 triệu rub/tháng.

2. Sellego
Dịch vụ tương tự với trọng tâm vào tự động hóa giá cả. Theo dõi giá của đối thủ và tự động điều chỉnh giá của bạn theo các quy tắc đã định (ví dụ, "rẻ hơn 5% so với đối thủ"). Cũng hoạt động qua proxy riêng.

3. Parsehub
Trình tạo trình thu thập dữ liệu trực quan không cần mã. Bạn chỉ cần nhấp vào các phần tử trên trang mà bạn muốn thu thập, và dịch vụ sẽ tự động tạo trình thu thập dữ liệu. Hỗ trợ proxy — bạn có thể thêm danh sách của riêng mình trong cài đặt dự án. Phù hợp cho những ai không biết lập trình.

Chi phí: gói miễn phí — 200 trang mỗi tháng, gói trả phí — từ 149 USD/tháng cho 10.000 trang. Để theo dõi 100-200 sản phẩm, gói miễn phí là đủ.

Đối với việc phát triển tự chủ

Nếu bạn sẵn sàng thiết lập trình thu thập dữ liệu tự mình hoặc bạn có lập trình viên trong đội ngũ:

1. Scrapy (Python)
Khung mạnh mẽ cho việc thu thập dữ liệu với hỗ trợ tích hợp cho proxy, quay vòng, xử lý lỗi. Có middleware để tự động thay đổi proxy từ danh sách. Cần có kiến thức về Python, nhưng tài liệu rất tốt.

Phù hợp cho việc thu thập dữ liệu từ các trang web đơn giản không có JavaScript. Đối với Wildberries và Ozon cần kết hợp với Splash hoặc Selenium để xử lý JavaScript.

2. Puppeteer / Playwright (JavaScript)
Trình duyệt không giao diện, hoàn toàn mô phỏng người dùng thực — thực hiện JavaScript, lưu giữ cookies, có thể mô phỏng chuyển động chuột. Hoàn hảo cho các nền tảng có bảo vệ chặt chẽ.

Thiết lập proxy rất đơn giản — chỉ cần một tham số khi khởi động trình duyệt. Playwright được coi là hiện đại và ổn định hơn, nhưng Puppeteer có nhiều ví dụ và thư viện sẵn có hơn.

3. Octoparse
Ứng dụng desktop cho Windows với trình tạo trình thu thập dữ liệu trực quan. Không yêu cầu lập trình — bạn chỉ cần nhấp vào các phần tử mà bạn muốn thu thập. Hỗ trợ proxy tích hợp, lập lịch chạy, xuất ra Excel/CSV.

Chi phí: phiên bản miễn phí với giới hạn (10.000 bản ghi mỗi tháng), các gói trả phí từ 75 USD/tháng. Là lựa chọn tốt cho các doanh nghiệp nhỏ và vừa.

Hướng dẫn từng bước thiết lập trình thu thập giá với proxy trong 15 phút

Tôi sẽ chỉ cho bạn cách đơn giản nhất để thiết lập theo dõi giá bằng ví dụ Parsehub — công cụ không cần mã. Phương pháp này sẽ phù hợp ngay cả khi bạn chưa bao giờ làm việc với trình thu thập dữ liệu.

Bước 1: Đăng ký và cài đặt

  • Đăng ký tại parsehub.com (có gói miễn phí)
  • Tải xuống và cài đặt ứng dụng desktop cho Windows hoặc Mac
  • Khởi động ứng dụng và đăng nhập vào tài khoản

Bước 2: Tạo dự án và chọn các phần tử

  • Nhấn "New Project" và dán URL của trang sản phẩm (ví dụ, danh mục trên Ozon hoặc kết quả tìm kiếm)
  • Parsehub sẽ tải trang trong trình duyệt tích hợp
  • Nhấp vào tên sản phẩm đầu tiên — Parsehub sẽ tự động chọn tất cả các phần tử tương tự trên trang
  • Nhấn vào giá sản phẩm — nó sẽ được thêm vào danh sách dữ liệu thu thập
  • Thêm các trường cần thiết khác: liên kết đến sản phẩm, đánh giá, số lượng nhận xét

Bước 3: Thiết lập proxy

  • Mở cài đặt dự án (biểu tượng bánh răng)
  • Tìm phần "Proxy Settings"
  • Chọn "Use proxy" và dán thông tin proxy của bạn theo định dạng: IP:PORT:USERNAME:PASSWORD
  • Nếu bạn có danh sách proxy, hãy bật tùy chọn "Rotate proxies" — Parsehub sẽ tự động thay đổi proxy giữa các yêu cầu

Bước 4: Thiết lập lịch trình

  • Trong cài đặt dự án, tìm "Schedule"
  • Chọn tần suất chạy: mỗi giờ, mỗi 6 giờ, mỗi ngày, v.v.
  • Đối với giá động, tối ưu là — mỗi 2-4 giờ

Bước 5: Xuất dữ liệu

  • Sau lần chạy đầu tiên của trình thu thập dữ liệu, dữ liệu sẽ xuất hiện trong tab "Data"
  • Nhấn "Export" và chọn định dạng: CSV, Excel, JSON
  • Có thể thiết lập gửi dữ liệu tự động vào Google Sheets hoặc qua email sau mỗi lần chạy

Toàn bộ quá trình thiết lập mất 10-15 phút. Sau đó, trình thu thập dữ liệu sẽ hoạt động tự động theo lịch trình, thu thập giá của đối thủ và gửi cho bạn dữ liệu.

Quan trọng: Để thu thập dữ liệu từ Wildberries và Ozon qua Parsehub, hãy chắc chắn sử dụng proxy dân cư. Các trung tâm dữ liệu sẽ bị chặn, ngay cả với quay vòng. Một nhóm từ 10-20 proxy là đủ để theo dõi 200-500 sản phẩm.

5 lỗi dẫn đến việc bị chặn khi thu thập dữ liệu

Ngay cả với proxy đúng cách, bạn vẫn có thể bị chặn nếu mắc phải những lỗi điển hình. Dưới đây là những vấn đề thường gặp nhất từ thực tiễn.

Lỗi 1: Tốc độ yêu cầu quá cao

Nhiều người cố gắng thu thập dữ liệu càng nhanh càng tốt và thực hiện 10-20 yêu cầu mỗi giây. Điều này ngay lập tức bị phát hiện bởi các hệ thống bảo vệ. Một người thực sự không thể mở 20 thẻ sản phẩm trong một giây.

Giải pháp: Thêm độ trễ giữa các yêu cầu. Tối thiểu 2-3 giây cho các trang web đơn giản, 5-10 giây cho các sàn thương mại điện tử có bảo vệ. Hãy làm cho độ trễ trở nên ngẫu nhiên — không chỉ 5 giây, mà từ 4 đến 8 giây một cách ngẫu nhiên.

Lỗi 2: Sử dụng một proxy cho tất cả các yêu cầu

Ngay cả khi bạn đã mua proxy dân cư, việc sử dụng một IP cho hàng trăm yêu cầu mỗi ngày sẽ dẫn đến việc bị chặn. Các hệ thống bảo vệ theo dõi hoạt động của từng IP.

Giải pháp: Tối thiểu 10-20 proxy trong nhóm với quay vòng. Đối với khối lượng lớn (1000+ sản phẩm mỗi ngày) — 50-100 proxy.

Lỗi 3: Thiếu hoặc tiêu đề yêu cầu không chính xác

Các yêu cầu không có User-Agent hoặc với User-Agent mặc định của thư viện (ví dụ, "Python-requests/2.28.1") ngay lập tức bị phát hiện là bot.

Giải pháp: Luôn chỉ định User-Agent của trình duyệt thực. Thêm các tiêu đề Accept, Accept-Language, Accept-Encoding. Thay đổi User-Agent khi thay đổi proxy.

Lỗi 4: Bỏ qua cookies và phiên làm việc

Nhiều sàn thương mại điện tử sử dụng cookies để theo dõi phiên làm việc của người dùng. Nếu bạn thực hiện mỗi yêu cầu "từ đầu" mà không có cookies, điều này trông rất đáng ngờ.

Giải pháp: Lưu giữ cookies giữa các yêu cầu trong cùng một phiên. Khi thay đổi proxy — hãy xóa cookies và bắt đầu một phiên mới. Sử dụng các thư viện với quản lý cookies tự động (requests.Session trong Python, puppeteer trong JavaScript).

Lỗi 5: Chỉ thu thập thẻ sản phẩm mà không mô phỏng điều hướng

Nếu bạn ngay lập tức mở các liên kết trực tiếp đến thẻ sản phẩm, bỏ qua trang chính, tìm kiếm và các danh mục, điều này không giống như hành vi của một người thực.

Giải pháp: Đối với các nền tảng có bảo vệ chặt chẽ (Wildberries, Ozon), hãy mô phỏng toàn bộ hành trình của người dùng: trang chính → tìm kiếm hoặc danh mục → danh sách sản phẩm → thẻ sản phẩm. Điều này làm tăng thời gian thu thập dữ liệu, nhưng giảm nguy cơ bị chặn một cách đáng kể.

Kết luận

Theo dõi giá động là một nhiệm vụ cực kỳ quan trọng đối với bất kỳ người bán nào trên các sàn thương mại điện tử. Giá của đối thủ thay đổi nhiều lần trong ngày, và ai phản ứng đầu tiên với những thay đổi — người đó giữ được vị trí trong kết quả tìm kiếm và lợi nhuận. Nhưng tất cả các nền tảng lớn đều chặn chặt chẽ việc thu thập dữ liệu, vì vậy nếu không có proxy được thiết lập đúng cách, việc thu thập dữ liệu là không thể.

Những điểm chính từ bài viết: đối với Wildberries và Ozon, chỉ sử dụng proxy dân cư hoặc di động — các trung tâm dữ liệu bị chặn trong 90% trường hợp. Nhất định thiết lập quay vòng proxy — thay đổi IP sau mỗi 20-30 yêu cầu. Thêm độ trễ giữa các yêu cầu (5-10 giây) và làm cho chúng trở nên ngẫu nhiên. Sử dụng trình duyệt không giao diện cho các nền tảng có bảo vệ JavaScript. Mô phỏng hành vi của người dùng thực — không mở thẻ sản phẩm trực tiếp, mà mô phỏng toàn bộ hành trình qua tìm kiếm và danh mục.

Nếu bạn không muốn tìm hiểu các chi tiết kỹ thuật, hãy sử dụng các công cụ sẵn có như Parsehub hoặc Octoparse — chúng không yêu cầu lập trình và có hỗ trợ proxy tích hợp. Đối với khối lượng lớn và các nhiệm vụ đặc biệt, tốt hơn hết là phát triển trình thu thập dữ liệu riêng trên Scrapy hoặc Puppeteer.

Nếu bạn dự định thiết lập theo dõi giá tự động trên các sàn thương mại điện tử Nga, chúng tôi khuyên bạn nên bắt đầu với proxy dân cư — chúng đảm bảo quyền truy cập ổn định vào Wildberries, Ozon và các nền tảng khác với rủi ro bị chặn tối thiểu. Đối với các trường hợp đặc biệt hoặc làm việc với ứng dụng di động của các sàn thương mại điện tử, hãy sử dụng proxy di động với IP của các nhà mạng Nga.

```