Quay lại blog

Cách thu thập dữ liệu về sản phẩm xu hướng trên các sàn thương mại điện tử qua proxy mà không bị chặn

Hướng dẫn đầy đủ về cách thiết lập proxy để thu thập dữ liệu về sản phẩm xu hướng trên các chợ trực tuyến: loại proxy nào để chọn, cách tránh bị chặn và tự động hóa việc theo dõi đối thủ.

📅30 tháng 1, 2026
```html

Thành công trên các sàn thương mại điện tử phụ thuộc trực tiếp vào tốc độ phản ứng với các xu hướng. Trong khi bạn đang lướt qua các danh mục trên Wildberries và Ozon một cách thủ công, các đối thủ đã tự động hóa việc thu thập dữ liệu thông qua proxy và nhận được thông tin về các sản phẩm bán chạy trong thời gian thực. Nhưng các sàn thương mại điện tử đang tích cực chặn việc thu thập dữ liệu — nếu không cấu hình đúng proxy, bạn có nguy cơ mất quyền truy cập vào nền tảng hoặc nhận được dữ liệu không đầy đủ.

Trong hướng dẫn này, chúng ta sẽ xem xét cách thiết lập hệ thống thu thập dữ liệu tự động về các sản phẩm đang thịnh hành, loại proxy nào nên chọn cho các sàn thương mại điện tử khác nhau và cách tránh những sai lầm phổ biến dẫn đến việc bị chặn.

Tại sao các sàn thương mại điện tử chặn việc thu thập dữ liệu và cách proxy giải quyết vấn đề

Các sàn thương mại điện tử chi hàng triệu để bảo vệ chống lại việc thu thập dữ liệu tự động. Lý do rất đơn giản: việc thu thập dữ liệu tạo ra tải cho các máy chủ và cho phép các đối thủ nhận được thông tin thương mại. Wildberries, Ozon và các nền tảng khác sử dụng hệ thống bảo vệ đa tầng, theo dõi hoạt động đáng ngờ.

Hệ thống chống thu thập dữ liệu phân tích nhiều tham số cùng một lúc. Nếu từ một địa chỉ IP nhận được 100 yêu cầu trong một phút — đó là dấu hiệu rõ ràng của bot. Khách hàng thông thường chỉ xem 5-10 thẻ sản phẩm trong khoảng thời gian đó. Hệ thống cũng theo dõi User-Agent của trình duyệt, tần suất nhấp chuột, chuyển động chuột và thậm chí là thời gian dành trên trang.

Proxy giải quyết vấn đề chính — phân phối các yêu cầu giữa các địa chỉ IP khác nhau. Thay vì gửi 1000 yêu cầu từ địa chỉ IP thực của bạn, hệ thống gửi 10-20 yêu cầu từ mỗi 50-100 địa chỉ khác nhau. Đối với các sàn thương mại điện tử, điều này trông giống như hoạt động của những người dùng thông thường từ các thành phố khác nhau.

Quan trọng: Việc sử dụng proxy không đảm bảo bảo vệ hoàn toàn khỏi việc bị chặn. Bạn cũng cần thiết lập xoay vòng IP đúng cách, giữ khoảng cách giữa các yêu cầu và mô phỏng hành vi của người dùng thực. Chúng tôi sẽ nói chi tiết về điều này trong phần thiết lập.

Loại proxy nào nên chọn để thu thập dữ liệu về sản phẩm

Để thu thập dữ liệu trên các sàn thương mại điện tử, có ba loại proxy phù hợp, mỗi loại có những ưu điểm và hạn chế riêng. Việc lựa chọn phụ thuộc vào khối lượng dữ liệu, ngân sách và yêu cầu về tốc độ thu thập thông tin.

Loại proxy Tốc độ Độ tin cậy từ các nền tảng Giá Khuyến nghị
Proxy trung tâm dữ liệu Cao (100+ Mbit/s) Thấp (dễ bị phát hiện) Từ $1-3/IP Thu thập dữ liệu hàng loạt với xoay vòng cao
Proxy dân cư Trung bình (20-50 Mbit/s) Cao (IP thực của người dùng) Từ $5-15/GB dữ liệu Thu thập dữ liệu trên các sàn thương mại điện tử bảo vệ (Wildberries, Ozon)
Proxy di động Trung bình (10-30 Mbit/s) Tối đa (các nhà mạng di động) Từ $50-100/IP Thu thập dữ liệu với bảo vệ tối đa, phiên bản di động của các trang web

Proxy trung tâm dữ liệu: khi tốc độ quan trọng hơn tính ẩn danh

Nếu bạn cần nhanh chóng thu thập một khối lượng lớn dữ liệu từ các nền tảng ít được bảo vệ hơn (ví dụ: AliExpress hoặc Yandex.Market), proxy trung tâm dữ liệu là lựa chọn tối ưu. Chúng hoạt động trên các máy chủ của nhà cung cấp dịch vụ lưu trữ, vì vậy đảm bảo tốc độ tải trang cao.

Nhược điểm chính — các sàn thương mại điện tử dễ dàng xác định IP của trung tâm dữ liệu và có thể chặn chúng khi có hoạt động đáng ngờ. Giải pháp — sử dụng một nhóm IP lớn (từ 50-100 địa chỉ) và thiết lập xoay vòng nhanh: thay đổi IP sau mỗi 10-15 yêu cầu.

Proxy dân cư: sự cân bằng vàng cho hầu hết các nhiệm vụ

Proxy dân cư sử dụng địa chỉ IP của các nhà cung cấp internet thực, được cấp cho người dùng thông thường. Đối với Wildberries hoặc Ozon, lưu lượng này trông hoàn toàn hợp pháp — như thể sản phẩm đang được xem bởi một người mua từ Moscow, Saint Petersburg hoặc Kazan.

Loại proxy này phù hợp cho việc giám sát thường xuyên các xu hướng, khi bạn thu thập dữ liệu hàng ngày hoặc vài lần trong ngày. Chi phí được tính theo lưu lượng — để thu thập 10.000 thẻ sản phẩm sẽ cần khoảng 5-10 GB tùy thuộc vào khối lượng hình ảnh và mô tả.

Proxy di động: bảo vệ tối đa cho các nhiệm vụ quan trọng

Proxy di động sử dụng địa chỉ IP của các nhà mạng di động (MTS, Beeline, Megafon). Các sàn thương mại điện tử rất hiếm khi chặn những địa chỉ này, vì một IP có thể chứa hàng nghìn người dùng thực — các nhà mạng sử dụng công nghệ CGNAT (IP chung cho nhiều thuê bao).

Proxy di động có ý nghĩa sử dụng cho việc thu thập dữ liệu từ các phần được bảo vệ đặc biệt của các sàn thương mại điện tử hoặc khi bạn đã nhận được các chặn khi sử dụng các loại proxy khác. Chúng cũng không thể thiếu cho việc thu thập dữ liệu từ các ứng dụng di động của Wildberries và Ozon, nơi mà bảo vệ còn nghiêm ngặt hơn.

Đặc điểm của việc thu thập dữ liệu trên các sàn thương mại điện tử khác nhau: Wildberries, Ozon, AliExpress

Mỗi sàn thương mại điện tử sử dụng hệ thống bảo vệ riêng chống lại việc thu thập dữ liệu. Hiểu những đặc điểm này sẽ giúp bạn thiết lập proxy một cách hiệu quả nhất và tránh bị chặn.

Wildberries: bảo vệ nghiêm ngặt và ràng buộc địa lý

Wildberries sử dụng một trong những hệ thống bảo vệ tiên tiến nhất trong số các sàn thương mại điện tử của Nga. Nền tảng này không chỉ phân tích tần suất yêu cầu mà còn cả các yếu tố hành vi: thời gian trên trang, cuộn trang, nhấp chuột vào các phần tử. Để thu thập dữ liệu thành công, cần phải mô phỏng hành động của người dùng thực.

Một đặc điểm quan trọng — ràng buộc địa lý của giá cả và sự có mặt của sản phẩm. Wildberries hiển thị các sản phẩm khác nhau cho Moscow, các vùng và các khu vực xa xôi. Nếu bạn thu thập dữ liệu về xu hướng để bán trên toàn nước Nga, hãy sử dụng proxy từ các vùng khác nhau: Moscow, Saint Petersburg, Yekaterinburg, Novosibirsk, Krasnodar.

Mẹo thực tiễn: Để thu thập dữ liệu từ Wildberries, hãy sử dụng proxy dân cư với xoay vòng mỗi 50-100 yêu cầu. Nhất định phải thêm các độ trễ ngẫu nhiên từ 2-5 giây giữa các yêu cầu và thay đổi User-Agent của trình duyệt. Điều này sẽ giảm thiểu khả năng bị chặn đến mức tối thiểu.

Ozon: API cho đối tác và bảo vệ danh mục công khai

Ozon cung cấp API chính thức cho người bán, nhưng nó không cho phép truy cập vào dữ liệu của đối thủ. Để phân tích xu hướng, bạn vẫn phải thu thập dữ liệu từ danh mục công khai. Bảo vệ của Ozon ít nghiêm ngặt hơn so với Wildberries, nhưng nền tảng này sử dụng captcha một cách tích cực khi có hoạt động đáng ngờ.

Đặc điểm của Ozon — tải nội dung động qua JavaScript. Các yêu cầu HTTP đơn giản sẽ không hoạt động, cần một trình thu thập dữ liệu hỗ trợ JavaScript (Selenium, Puppeteer) hoặc trình duyệt headless. Điều này làm tăng tải cho proxy, vì vậy hãy chuẩn bị cho việc tiêu tốn nhiều dữ liệu hơn — lên đến 15-20 GB cho 10.000 thẻ sản phẩm.

AliExpress: thu thập dữ liệu hàng loạt với giới hạn theo khu vực

AliExpress hiển thị các mức giá và điều kiện giao hàng khác nhau tùy thuộc vào quốc gia của người dùng. Đối với các người bán Nga, việc sử dụng proxy với IP của Nga là cực kỳ quan trọng — nếu không, bạn sẽ nhận được dữ liệu cho một khu vực khác, điều này sẽ làm sai lệch phân tích xu hướng.

Bảo vệ của AliExpress tương đối thân thiện với việc thu thập dữ liệu — nền tảng này quan tâm đến lưu lượng. Bạn có thể sử dụng proxy trung tâm dữ liệu với xoay vòng vừa phải (mỗi 100-200 yêu cầu). Điều quan trọng là không vượt quá tốc độ 5-10 yêu cầu mỗi giây từ một IP.

Công cụ để tự động hóa việc thu thập dữ liệu về xu hướng

Có hai cách tiếp cận để thu thập dữ liệu từ các sàn thương mại điện tử: dịch vụ sẵn có và tự thiết lập các trình thu thập dữ liệu. Các giải pháp sẵn có thường đắt hơn, nhưng tiết kiệm thời gian. Trình thu thập dữ liệu tự tạo yêu cầu kiến thức kỹ thuật, nhưng cho phép bạn kiểm soát hoàn toàn quá trình.

Dịch vụ sẵn có cho việc thu thập dữ liệu từ các sàn thương mại điện tử

Đối với những ai không muốn tìm hiểu các chi tiết kỹ thuật, có các nền tảng sẵn có. Chúng đã được cấu hình cho các sàn thương mại điện tử cụ thể, có hệ thống proxy tích hợp và xoay vòng IP tự động.

  • Mpstats — chuyên về Wildberries và Ozon, thu thập dữ liệu về doanh số, tồn kho, vị trí trong kết quả tìm kiếm. Chi phí từ 3000 rúp mỗi tháng.
  • SellerFox — phân tích cho Wildberries với việc theo dõi xu hướng và ngách. Phù hợp để tìm kiếm sản phẩm có nhu cầu tăng.
  • Moneyplace — giám sát đối thủ trên Ozon và Wildberries, theo dõi sự thay đổi về giá cả và xếp hạng.
  • ParseHub — trình thu thập dữ liệu đa năng cho bất kỳ trang web nào, bao gồm cả các sàn thương mại điện tử. Cần cấu hình, nhưng hoạt động với bất kỳ nền tảng nào.

Nhược điểm chính của các dịch vụ sẵn có — bạn không chỉ trả tiền cho dữ liệu mà còn cho cơ sở hạ tầng proxy của họ. Khi thu thập dữ liệu lớn, điều này có thể tốn hàng chục nghìn rúp mỗi tháng.

Tự thiết lập trình thu thập dữ liệu: công cụ và thư viện

Nếu bạn có kỹ năng kỹ thuật cơ bản (hoặc trong đội ngũ có lập trình viên), bạn có thể thiết lập hệ thống thu thập dữ liệu của riêng mình. Điều này rẻ hơn khi mở rộng và cho phép bạn kiểm soát hoàn toàn quá trình.

Các công cụ phổ biến cho việc thu thập dữ liệu:

  • Selenium (Python) — tự động hóa trình duyệt, hỗ trợ JavaScript, tích hợp proxy dễ dàng. Phù hợp cho Wildberries và Ozon.
  • Puppeteer (Node.js) — trình duyệt headless dựa trên Chrome, nhanh hơn Selenium, tiêu thụ bộ nhớ ít hơn.
  • Scrapy (Python) — framework cho việc thu thập dữ liệu, phù hợp cho các trang web đơn giản không có JavaScript. Nhanh, nhưng không hoạt động với nội dung động.
  • Playwright (Python/Node.js) — lựa chọn hiện đại thay thế Selenium, hỗ trợ tất cả các trình duyệt, làm việc tích hợp với proxy.

Để thu thập dữ liệu từ các sàn thương mại điện tử, chúng tôi khuyên bạn nên sử dụng Selenium hoặc Playwright — chúng xử lý JavaScript một cách chính xác và cho phép mô phỏng hành động của người dùng thực (cuộn trang, nhấp chuột, độ trễ).

Hướng dẫn từng bước để thiết lập proxy cho trình thu thập dữ liệu sản phẩm

Cấu hình proxy đúng cách là yếu tố then chốt cho sự thành công. Ngay cả proxy dân cư tốt nhất cũng không thể cứu bạn khỏi việc bị chặn nếu bạn không cấu hình đúng cách xoay vòng hoặc vượt quá giới hạn yêu cầu. Chúng ta sẽ xem xét quy trình thiết lập bằng cách sử dụng các công cụ phổ biến.

Bước 1: Nhận dữ liệu proxy và kiểm tra tính khả dụng

Sau khi mua proxy, bạn sẽ nhận được danh sách theo định dạng: IP:PORT:LOGIN:PASSWORD. Trước khi thiết lập trình thu thập dữ liệu, hãy chắc chắn kiểm tra tính khả dụng của từng proxy.

Cách đơn giản nhất để kiểm tra — mở trình duyệt, thiết lập proxy trong cài đặt mạng và truy cập vào trang kiểm tra IP (ví dụ: 2ip.ru hoặc whoer.net). Đảm bảo rằng IP proxy được hiển thị chứ không phải địa chỉ thực của bạn. Cũng hãy kiểm tra tốc độ tải — nếu các trang mở lâu hơn 5 giây, proxy không đạt yêu cầu.

Bước 2: Thiết lập proxy trong trình thu thập dữ liệu (ví dụ: Selenium)

Nếu bạn sử dụng Selenium để thu thập dữ liệu, việc thiết lập proxy sẽ như sau. Tạo danh sách proxy trong một tệp riêng, sau đó trình thu thập dữ liệu sẽ chọn ngẫu nhiên proxy từ danh sách cho mỗi phiên.

Logic cơ bản hoạt động: trình thu thập dữ liệu khởi động trình duyệt với proxy đã thiết lập, thực hiện 50-100 yêu cầu (xem thẻ sản phẩm), sau đó đóng phiên và khởi động một phiên mới với proxy khác. Điều này mô phỏng hành vi của những người dùng khác nhau và giảm nguy cơ bị chặn.

Bước 3: Thiết lập xoay vòng địa chỉ IP

Xoay vòng proxy — là việc tự động thay đổi địa chỉ IP theo các khoảng thời gian nhất định. Có hai cách tiếp cận: xoay vòng theo thời gian (mỗi 5-10 phút) và xoay vòng theo số lượng yêu cầu (mỗi 50-100 yêu cầu).

Để thu thập dữ liệu từ các sàn thương mại điện tử, chúng tôi khuyên bạn nên sử dụng xoay vòng theo yêu cầu — nó dễ dự đoán hơn. Nếu bạn thu thập dữ liệu từ Wildberries, hãy thay đổi IP sau mỗi 50 yêu cầu. Đối với các nền tảng ít được bảo vệ hơn (AliExpress), bạn có thể tăng lên 200-300 yêu cầu cho mỗi IP.

Quan trọng: Một số nhà cung cấp proxy cung cấp xoay vòng tự động ở phía họ — bạn nhận được một endpoint (địa chỉ:cổng), và IP sẽ thay đổi tự động cho mỗi yêu cầu hoặc theo thời gian. Điều này đơn giản hóa việc thiết lập, nhưng cho phép ít kiểm soát hơn đối với quá trình.

Bước 4: Thiết lập độ trễ giữa các yêu cầu

Ngay cả với việc xoay vòng proxy, bạn cũng không thể gửi các yêu cầu liên tục. Người dùng thực dành thời gian để xem thẻ sản phẩm, đọc đánh giá, so sánh giá cả. Trình thu thập dữ liệu của bạn cần mô phỏng hành vi này.

Độ trễ tối ưu cho các sàn thương mại điện tử khác nhau:

  • Wildberries: 2-5 giây giữa các yêu cầu, biến đổi ngẫu nhiên ±1 giây
  • Ozon: 3-7 giây (do captcha khi có yêu cầu nhanh)
  • AliExpress: 1-3 giây (bảo vệ thân thiện hơn)

Sử dụng độ trễ ngẫu nhiên, không phải cố định. Nếu mỗi yêu cầu được thực hiện đúng sau 3 giây — đó cũng là dấu hiệu của bot. Thêm tính ngẫu nhiên: từ 2 đến 5 giây với phân phối đồng đều.

Xoay vòng IP và giới hạn yêu cầu: cách không bị chặn

Ngay cả với việc thiết lập proxy đúng cách, bạn vẫn có thể bị chặn nếu không tính đến những đặc điểm của hệ thống chống thu thập dữ liệu. Các sàn thương mại điện tử phân tích không chỉ tần suất yêu cầu mà còn cả các mẫu hành vi.

Giới hạn yêu cầu cho các loại proxy khác nhau

Mỗi loại proxy có giới hạn sử dụng an toàn riêng. Việc vượt quá những giới hạn này sẽ làm tăng đáng kể khả năng bị chặn.

Loại proxy Yêu cầu trên IP mỗi giờ Yêu cầu trên IP mỗi ngày Xoay vòng được khuyến nghị
Trung tâm dữ liệu 50-100 300-500 Mỗi 10-20 yêu cầu
Dân cư 100-200 1000-2000 Mỗi 50-100 yêu cầu
Di động 200-300 2000-3000 Mỗi 100-200 yêu cầu

Những con số này chỉ mang tính chất định hướng. Giới hạn thực tế phụ thuộc vào từng sàn thương mại điện tử và thời gian trong ngày. Trong giờ cao điểm (buổi tối, cuối tuần), bạn có thể tăng cường hoạt động, vì có nhiều người dùng thực hơn trên nền tảng.

Chiến lược xoay vòng cho các khối lượng thu thập dữ liệu khác nhau

Chiến lược xoay vòng phụ thuộc vào số lượng dữ liệu bạn cần thu thập. Đối với việc giám sát 100 sản phẩm hàng đầu trong danh mục, một sơ đồ đơn giản là đủ. Đối với việc thu thập toàn bộ danh mục (hàng chục nghìn sản phẩm), cần một hệ thống phức tạp hơn.

Khối lượng nhỏ (dưới 1000 sản phẩm mỗi ngày): Sử dụng 5-10 proxy dân cư với xoay vòng mỗi 100 yêu cầu. Điều này đủ để theo dõi xu hướng trong 2-3 danh mục.

Khối lượng trung bình (1000-10000 sản phẩm mỗi ngày): Nhóm từ 20-50 proxy dân cư, xoay vòng mỗi 50 yêu cầu. Thêm các khoảng dừng ngẫu nhiên từ 1-2 giờ giữa các phiên thu thập dữ liệu.

Khối lượng lớn (hơn 10000 sản phẩm mỗi ngày): Kết hợp giữa proxy dân cư (cho các yêu cầu quan trọng) và proxy trung tâm dữ liệu (cho việc thu thập dữ liệu hàng loạt). Sử dụng hơn 100 proxy với xoay vòng mạnh mẽ và phân phối tải theo thời gian.

Dữ liệu nào nên thu thập để phân tích xu hướng

Thu thập dữ liệu chỉ để thu thập dữ liệu không có ý nghĩa. Quan trọng là phải thu thập các chỉ số đúng, giúp phát hiện các sản phẩm đang thịnh hành trước khi ngách thị trường trở nên đông đúc với các đối thủ.

Các chỉ số chính để xác định xu hướng

Đối với mỗi thẻ sản phẩm, hãy thu thập các dữ liệu sau:

  • Tên và mã sản phẩm — để xác định và theo dõi sự thay đổi
  • Giá (hiện tại và giá giảm) — các xu hướng thường bắt đầu với sự giảm giá mạnh
  • Số lượng đánh giá — sự tăng trưởng đánh giá trong một tuần cho thấy doanh số tăng lên
  • Xếp hạng trung bình — các sản phẩm có xếp hạng 4.5+ trở nên thịnh hành nhanh hơn
  • Số lượng đơn hàng (nếu có) — chỉ số trực tiếp về nhu cầu
  • Tồn kho — sự giảm mạnh trong tồn kho = tăng nhu cầu
  • Vị trí trong kết quả tìm kiếm theo các từ khóa chính — các sản phẩm trong top 10 nhận được 80% số nhấp chuột
  • Ngày xuất hiện của sản phẩm — các sản phẩm mới với doanh số tăng nhanh = xu hướng tiềm năng

Hãy thu thập những dữ liệu này hàng ngày và lưu trữ trong cơ sở dữ liệu (PostgreSQL, MySQL) hoặc Google Sheets cho các dự án đơn giản. Phân tích sự thay đổi trong 7-14 ngày sẽ cho thấy các sản phẩm có nhu cầu tăng.

Cách phát hiện xu hướng ở giai đoạn đầu

Các người bán thành công kiếm tiền từ các xu hướng chính xác vì họ tham gia vào ngách thị trường trước các đối thủ. Khi xu hướng đã được đề cập trong các kênh Telegram, thì đã quá muộn để kiếm tiền từ nó — biên lợi nhuận giảm do sự cạnh tranh.

Dấu hiệu của một xu hướng đang hình thành:

  • Sự tăng trưởng số lượng đánh giá từ 50-100% trong một tuần với cơ sở nhỏ (10-50 đánh giá)
  • Sự xuất hiện của 5-10 người bán mới trong ngách trong 2 tuần qua
  • Sự giảm mạnh trong tồn kho của các sản phẩm hàng đầu (từ 1000+ xuống 100-200 sản phẩm)
  • Sự tăng trưởng vị trí trong kết quả tìm kiếm: sản phẩm đã tăng từ vị trí 50 lên vị trí 10 trong một tuần
  • Sự đề cập đến sản phẩm trên các mạng xã hội (TikTok, Instagram) — dấu hiệu gián tiếp

Hãy thiết lập thông báo tự động (bot Telegram, email) khi phát hiện những tín hiệu như vậy. Điều này sẽ cho bạn lợi thế 1-2 tuần trước phần lớn các đối thủ.

Những sai lầm phổ biến khi thu thập dữ liệu và cách tránh chúng

Hầu hết các trường hợp bị chặn khi thu thập dữ liệu xảy ra do những sai lầm giống nhau. Chúng ta sẽ xem xét những vấn đề thường gặp nhất và cách giải quyết chúng.

Sai lầm 1: Sử dụng một IP cho tất cả các yêu cầu

Những người mới thường mua 1-2 proxy và cố gắng thu thập dữ liệu từ toàn bộ danh mục thông qua chúng. Kết quả là dễ đoán — bị chặn trong vòng một giờ. Các sàn thương mại điện tử dễ dàng xác định bot qua hoạt động bất thường từ một IP.

Giải pháp: Sử dụng ít nhất 10-20 proxy ngay cả cho các dự án nhỏ. Phân phối tải đều — không quá 100-200 yêu cầu trên một IP mỗi giờ.

Sai lầm 2: Thu thập dữ liệu vào ban đêm

Nhiều người khởi động trình thu thập dữ liệu vào ban đêm để có dữ liệu mới vào buổi sáng. Vấn đề là vào ban đêm (từ 2 đến 6 giờ sáng theo giờ Moscow), lưu lượng trên các sàn thương mại điện tử là tối thiểu. Hoạt động của bạn trở nên dễ nhận thấy hơn trong bối cảnh tải thấp chung.

Giải pháp: Khởi động việc thu thập dữ liệu trong giờ cao điểm — từ 18:00 đến 23:00, khi có tối đa người dùng thực trên nền tảng. Các yêu cầu của bạn sẽ hòa vào dòng lưu lượng chung.

Sai lầm 3: Bỏ qua User-Agent và các tiêu đề khác

Các trình thu thập dữ liệu mặc định gửi yêu cầu với User-Agent như "Python-requests/2.28" hoặc "Selenium WebDriver". Đây là dấu hiệu rõ ràng của bot. Các sàn thương mại điện tử tự động chặn những yêu cầu như vậy.

Giải pháp: Sử dụng User-Agent thực tế của các trình duyệt hiện đại. Thay đổi User-Agent mỗi khi xoay vòng proxy. Cũng hãy thêm các tiêu đề Accept-Language, Referer và các tiêu đề khác đặc trưng cho các trình duyệt thực.

Sai lầm 4: Chỉ thu thập dữ liệu từ trang đầu tiên của kết quả tìm kiếm

Nhiều người chỉ thu thập dữ liệu về 50 sản phẩm hàng đầu trong danh mục. Đây là một sai lầm — các xu hướng thường hình thành từ trang 3-5 của kết quả tìm kiếm, nơi mà sự cạnh tranh thấp hơn và các sản phẩm chỉ mới bắt đầu nổi tiếng.

Giải pháp: Thu thập dữ liệu ít nhất từ 5-10 trang đầu tiên của kết quả tìm kiếm (200-500 sản phẩm trong danh mục). Theo dõi các sản phẩm nhanh chóng từ trang 5 lên trang 1-2 — đó chính là các xu hướng đang hình thành.

Sai lầm 5: Thiếu xử lý captcha và các chặn

Ngay cả với việc thiết lập proxy đúng cách, đôi khi captcha hoặc chặn tạm thời xuất hiện. Nếu trình thu thập dữ liệu không biết cách xử lý những tình huống như vậy, nó sẽ chỉ đơn giản là gặp lỗi và bạn sẽ mất dữ liệu.

Giải pháp: Thêm xử lý lỗi vào trình thu thập dữ liệu. Khi gặp captcha — chuyển sang proxy khác và lặp lại yêu cầu sau 5-10 phút. Lưu trữ các kết quả trung gian để không mất dữ liệu khi có sự cố.

Kết luận

Việc thu thập dữ liệu về các sản phẩm đang thịnh hành thông qua proxy không chỉ là một quy trình kỹ thuật, mà còn là một lợi thế cạnh tranh cho các người bán trên các sàn thương mại điện tử. Trong khi một số người theo dõi đối thủ một cách thủ công, bạn nhận được dữ liệu có cấu trúc về hàng chục nghìn sản phẩm mỗi ngày và phát hiện các xu hướng ở giai đoạn đầu.

Những điểm chính cần nhớ: chọn loại proxy tùy thuộc vào mức độ bảo vệ của sàn thương mại điện tử (proxy dân cư cho Wildberries và Ozon, proxy trung tâm dữ liệu cho các nền tảng ít bảo vệ hơn), thiết lập xoay vòng IP đúng cách với các giới hạn yêu cầu, thêm độ trễ ngẫu nhiên giữa các yêu cầu và mô phỏng hành vi của người dùng thực, thu thập dữ liệu trong giờ cao điểm, khi hoạt động của bạn ít bị chú ý trong bối cảnh lưu lượng chung.

Bắt đầu từ những điều nhỏ — thiết lập việc thu thập dữ liệu cho 1-2 danh mục sản phẩm với 10-20 proxy. Thực hành quy trình, đảm bảo rằng không có chặn nào xảy ra, và dần dần mở rộng hệ thống. Việc tự động hóa thu thập dữ liệu sẽ được hoàn vốn ngay trong tháng đầu tiên nhờ vào việc nhanh chóng tham gia vào các ngách thị trường đang thịnh hành.

Nếu bạn có kế hoạch thu thập dữ liệu thường xuyên từ Wildberries, Ozon hoặc các sàn thương mại điện tử bảo vệ khác, chúng tôi khuyên bạn nên sử dụng proxy dân cư — chúng đảm bảo mức độ tin cậy cao từ các nền tảng và rủi ro bị chặn tối thiểu. Đối với việc thu thập dữ liệu hàng loạt từ các trang web ít bảo vệ hơn, hãy sử dụng proxy trung tâm dữ liệu với cấu hình xoay vòng đúng cách.

```