Giám sát tự động tồn kho sản phẩm (stock availability) là nhiệm vụ cực kỳ quan trọng đối với người bán và nhà bán lẻ. Theo dõi hàng tồn kho của đối thủ trên Wildberries, Ozon, Amazon cho phép điều chỉnh giá cả và mua hàng một cách kịp thời. Nhưng các marketplace chặn nghiêm ngặt các yêu cầu hàng loạt từ một IP - không có proxy, parser của bạn sẽ bị chặn sau 10-50 yêu cầu.
Trong hướng dẫn này, chúng tôi sẽ phân tích cách thiết lập giám sát stock availability ổn định qua proxy: chọn loại proxy nào, cách thiết lập xoay vòng IP, sử dụng tham số yêu cầu nào và cách tránh bị chặn trên các marketplace phổ biến.
Tại sao marketplace chặn giám sát tồn kho sản phẩm
Các marketplace bảo vệ cơ sở hạ tầng của họ khỏi parsing bằng nhiều lớp bảo vệ. Khi bạn chạy giám sát tự động tồn kho sản phẩm, script của bạn thực hiện hàng trăm hoặc hàng nghìn yêu cầu đến API hoặc trang web của marketplace. Đối với nền tảng, điều này trông giống như một cuộc tấn công hoặc thu thập dữ liệu không trung thực.
Các phương pháp phát hiện parser chính:
- Tần suất yêu cầu từ một IP — nếu từ một địa chỉ có 100+ yêu cầu mỗi phút, đây là dấu hiệu rõ ràng của bot. Người dùng bình thường không thể mở 2-3 trang sản phẩm mỗi giây.
- Thiếu cookies và lịch sử phiên — parser thường thực hiện yêu cầu mà không truy cập trang chủ trước, điều này tiết lộ tự động hóa.
- User-Agent giống nhau — nếu tất cả yêu cầu đều có cùng header trình duyệt, điều này đáng ngờ.
- Mẫu hành vi — duyệt tuần tự sản phẩm theo ID, không có khoảng dừng ngẫu nhiên, tính đều đặn hoàn hảo của yêu cầu.
Việc chặn xảy ra ở cấp độ địa chỉ IP. Đầu tiên, marketplace có thể hiển thị captcha, sau đó tạm thời hạn chế truy cập (rate limiting), và khi vi phạm có hệ thống — chặn hoàn toàn IP trong vài giờ hoặc vài ngày.
Trường hợp thực tế: Người bán trên Wildberries thiết lập giám sát 500 sản phẩm của đối thủ với kiểm tra mỗi 10 phút. Không có proxy, IP của họ bị chặn sau 2 giờ hoạt động. Sau khi chuyển sang proxy residential với xoay vòng mỗi 5 phút, parser hoạt động ổn định đã 6 tháng mà không bị chặn lần nào.
Chọn loại proxy nào cho parsing stock availability
Việc chọn loại proxy ảnh hưởng trực tiếp đến tính ổn định của giám sát và khả năng bị chặn. Các marketplace khác nhau phản ứng khác nhau với các loại địa chỉ IP khác nhau. Hãy xem xét ba tùy chọn chính và ứng dụng của chúng cho parsing tồn kho sản phẩm.
| Loại proxy | Tốc độ | Rủi ro bị chặn | Khi nào sử dụng |
|---|---|---|---|
| Proxy datacenter | Cao (50-200 ms) | Trung bình | Parsing hàng loạt marketplace đơn giản, kiểm tra nhanh khối lượng lớn |
| Proxy residential | Trung bình (200-800 ms) | Thấp | Wildberries, Ozon, Amazon — nền tảng có bảo vệ nghiêm ngặt |
| Proxy mobile | Trung bình (300-1000 ms) | Rất thấp | Kiểm tra cực kỳ quan trọng, khi cần độ tin cậy tối đa |
Proxy residential — lựa chọn tối ưu cho hầu hết các nhiệm vụ giám sát stock availability. Chúng sử dụng địa chỉ IP của người dùng gia đình thực tế, do đó marketplace coi các yêu cầu là hợp pháp. Đối với Wildberries và Ozon, đây gần như là yêu cầu bắt buộc — các nền tảng này chặn datacenter một cách tích cực.
Proxy datacenter phù hợp cho các nền tảng ít được bảo vệ hơn hoặc khi cần tốc độ parsing tối đa. Ví dụ, để giám sát marketplace khu vực hoặc cửa hàng trực tuyến nhỏ. Ưu điểm chính — tốc độ cao và kết nối ổn định. Nhưng trên các nền tảng lớn, chúng bị chặn thường xuyên hơn.
Proxy mobile — tùy chọn đáng tin cậy nhất nhưng cũng đắt nhất. Sử dụng chúng cho các sản phẩm cực kỳ quan trọng hoặc khi proxy residential bắt đầu bị chặn. IP mobile gần như không thể chặn, vì đằng sau một địa chỉ có thể có hàng nghìn người dùng thực của nhà mạng.
Khuyến nghị lựa chọn:
- Wildberries, Ozon — chỉ proxy residential hoặc mobile
- Amazon, eBay — proxy residential với xoay vòng
- Yandex.Market — có thể sử dụng datacenter với tần suất yêu cầu vừa phải
- Avito — proxy residential với gắn kết với thành phố cần thiết
- Nền tảng khu vực — datacenter thường hoạt động bình thường
Thiết lập xoay vòng IP: tần suất thay đổi địa chỉ
Xoay vòng IP — tham số chính để ngăn chặn việc bị chặn. Thiết lập đúng tần suất thay đổi địa chỉ cho phép phân phối tải sao cho từ mỗi IP có số lượng yêu cầu tối thiểu, mô phỏng hành vi của người dùng bình thường.
Hai phương pháp xoay vòng chính:
1. Xoay vòng theo thời gian (Time-based rotation)
Địa chỉ IP thay đổi sau khoảng thời gian đã định, bất kể số lượng yêu cầu. Đây là phương pháp đơn giản và dự đoán được, phù hợp cho giám sát thường xuyên với tần suất kiểm tra không đổi.
- Mỗi 5-10 phút — cho giám sát thường xuyên các sản phẩm cực kỳ quan trọng (vị trí hàng đầu, sản phẩm cạnh tranh cao)
- Mỗi 15-30 phút — chế độ tiêu chuẩn cho hầu hết các nhiệm vụ giám sát stock availability
- Mỗi giờ — cho giám sát nền danh mục lớn, khi không cần tần suất cập nhật cao
2. Xoay vòng theo yêu cầu (Request-based rotation)
IP thay đổi sau một số lượng yêu cầu đã thực hiện nhất định. Phương pháp này cho phép kiểm soát chính xác hơn tải trên mỗi địa chỉ.
- Mỗi 10-20 yêu cầu — cho Wildberries và Ozon (bảo vệ nghiêm ngặt)
- Mỗi 50-100 yêu cầu — cho Amazon, eBay (bảo vệ vừa phải)
- Mỗi 200-500 yêu cầu — cho các nền tảng ít được bảo vệ hơn
Quan trọng: Không sử dụng xoay vòng quá thường xuyên (mỗi 1-2 phút hoặc mỗi yêu cầu) — điều này có thể trông đáng ngờ. Người dùng bình thường không thay đổi địa chỉ IP mỗi phút. Sự cân bằng tối ưu — 5-15 phút hoặc 20-100 yêu cầu trên một IP.
Phương pháp kết hợp (khuyến nghị):
Đặt xoay vòng theo thời gian làm phương pháp chính, nhưng thêm giới hạn yêu cầu làm bảo vệ bổ sung. Ví dụ: IP thay đổi mỗi 10 phút HOẶC sau 50 yêu cầu — điều nào đến trước. Điều này bảo vệ khỏi các đợt hoạt động đột ngột ngẫu nhiên.
| Marketplace | Xoay vòng khuyến nghị | Tối đa yêu cầu/IP |
|---|---|---|
| Wildberries | 5-10 phút | 15-30 yêu cầu |
| Ozon | 7-12 phút | 20-40 yêu cầu |
| Amazon | 10-15 phút | 50-100 yêu cầu |
| Yandex.Market | 15-20 phút | 100-200 yêu cầu |
| Avito | 10-15 phút | 30-60 yêu cầu |
Đặc điểm giám sát trên các marketplace khác nhau
Mỗi marketplace có đặc điểm bảo vệ riêng khỏi parsing và yêu cầu phương pháp riêng để thiết lập giám sát stock availability. Hãy xem xét đặc thù làm việc với các nền tảng Nga và quốc tế phổ biến.
Wildberries
Wildberries có một trong những hệ thống bảo vệ chống parsing tích cực nhất trong số các marketplace Nga. Nền tảng sử dụng kiểm tra yêu cầu nhiều cấp, bao gồm phân tích header, cookies, tần suất truy cập và mẫu hành vi.
Đặc điểm chính:
- Bắt buộc sử dụng proxy residential — datacenter bị chặn gần như ngay lập tức
- Cần truyền bộ header trình duyệt đầy đủ, bao gồm Referer và Accept-Language
- API Wildberries yêu cầu token đặc biệt cho một số yêu cầu
- Thay đổi IP thường xuyên (mỗi 5-10 phút) cực kỳ quan trọng
- Thêm độ trễ ngẫu nhiên giữa các yêu cầu: 2-5 giây
Để giám sát tồn kho sản phẩm trên Wildberries, sử dụng API công khai hoặc parsing trang sản phẩm. API ổn định hơn nhưng có giới hạn nghiêm ngặt. Khi parsing HTML, nhất định phải mô phỏng hành vi của trình duyệt thực: tải hình ảnh, thực thi JavaScript, lưu cookies giữa các yêu cầu.
Ozon
Ozon sử dụng bảo vệ ít tích cực hơn so với Wildberries, nhưng cũng yêu cầu phương pháp cẩn thận. Nền tảng tích cực sử dụng Cloudflare để bảo vệ khỏi bot, điều này thêm một lớp phức tạp bổ sung.
- Proxy residential được khuyến nghị, nhưng datacenter chất lượng có thể hoạt động với tần suất yêu cầu thấp
- Cloudflare challenge yêu cầu thực thi JavaScript — sử dụng headless-browser hoặc thư viện đặc biệt
- Xoay vòng IP mỗi 10-15 phút thường đủ
- Độ trễ giữa các yêu cầu: 3-7 giây
- Bắt buộc lưu cookies sau khi vượt qua Cloudflare
Amazon
Amazon có hệ thống bảo vệ phức tạp phân tích nhiều tham số yêu cầu. Nền tảng đặc biệt nhạy cảm với tần suất truy cập và vị trí địa lý của địa chỉ IP.
- Sử dụng proxy residential từ cùng quốc gia với marketplace mục tiêu (amazon.com — Mỹ, amazon.de — Đức)
- Amazon thường hiển thị captcha khi có hoạt động đáng ngờ — chuẩn bị hệ thống giải quyết
- Xoay vòng IP mỗi 15-20 phút hoặc mỗi 50-100 yêu cầu
- Độ trễ giữa các yêu cầu: 5-10 giây (Amazon rất nhạy cảm với tốc độ)
- Bắt buộc sử dụng User-Agent cập nhật của các trình duyệt phổ biến
Avito
Avito có đặc điểm cụ thể — gắn kết địa lý của quảng cáo. Để giám sát chính xác tồn kho sản phẩm ở một thành phố cụ thể, cần proxy chính xác từ khu vực đó.
- Sử dụng proxy residential với geolocation ở thành phố cần thiết
- Avito hiển thị kết quả khác nhau cho các khu vực khác nhau — một IP chỉ có thể thấy một phần quảng cáo
- Xoay vòng mỗi 10-15 phút là đủ
- Độ trễ giữa các yêu cầu: 3-5 giây
- Nền tảng sử dụng cookies để theo dõi phiên — bắt buộc lưu chúng
Khuyến nghị chung cho tất cả marketplace:
- Luôn thêm độ trễ ngẫu nhiên — không sử dụng khoảng thời gian cố định
- Mô phỏng hành vi người dùng thực: chuyển từ trang chủ, xem danh mục
- Xoay vòng User-Agent cùng với địa chỉ IP
- Lưu cookies và session storage giữa các yêu cầu
- Giám sát mã phản hồi: 429 (Too Many Requests) — tín hiệu giảm tần suất
Giới hạn yêu cầu và độ trễ giữa các lần kiểm tra
Thiết lập đúng tần suất yêu cầu — sự cân bằng giữa tính cập nhật của dữ liệu và rủi ro bị chặn. Kiểm tra quá thường xuyên sẽ dẫn đến ban, quá hiếm — mất lợi thế cạnh tranh. Hãy phân tích cách tìm tần suất tối ưu cho các kịch bản khác nhau.
Độ trễ khuyến nghị giữa các yêu cầu đến một sản phẩm:
| Kịch bản | Tần suất kiểm tra | Ứng dụng |
|---|---|---|
| Sản phẩm quan trọng | Mỗi 5-10 phút | Vị trí hàng đầu, sản phẩm cạnh tranh cao, ưu đãi khuyến mãi |
| Giám sát tiêu chuẩn | Mỗi 30-60 phút | Danh mục chính, giám sát đối thủ thường xuyên |
| Giám sát nền | Mỗi 2-6 giờ | Catalog lớn sản phẩm, phân tích thị trường tổng quát |
| Giám sát lưu trữ | 1-2 lần mỗi ngày | Dữ liệu lịch sử, phân tích dài hạn |
Độ trễ giữa các yêu cầu liên tiếp (khi parsing nhiều sản phẩm liên tiếp):
- Độ trễ tối thiểu: 2-3 giây — mức tối thiểu tuyệt đối để mô phỏng hành vi con người. Người dùng thực không thể mở trang sản phẩm nhanh hơn.
- Độ trễ tối ưu: 4-7 giây — khuyến nghị cho hầu hết các nhiệm vụ. Thêm tính ngẫu nhiên: random(4000, 7000) mili giây.
- Độ trễ an toàn: 8-15 giây — sử dụng cho các nền tảng được bảo vệ đặc biệt hoặc sau khi nhận cảnh báo về vượt quá giới hạn.
Nguyên tắc quan trọng — tính ngẫu nhiên: Không bao giờ sử dụng khoảng thời gian cố định. Thay vì độ trễ chính xác 5 giây, hãy làm ngẫu nhiên từ 4 đến 6 giây. Điều này cực kỳ quan trọng để mô phỏng hành vi con người. Người dùng thực không click với tính đều đặn hoàn hảo.
Lời khuyên thực tế: Bắt đầu với cài đặt bảo thủ (độ trễ lớn, xoay vòng hiếm), sau đó dần dần tăng tần suất yêu cầu, theo dõi mã phản hồi. Nếu bắt đầu nhận 429 (Too Many Requests) hoặc 403 (Forbidden) — ngay lập tức giảm tải và tăng độ trễ.
Phân phối tải theo thời gian trong ngày:
Marketplace có giờ cao điểm tải (thường là tối 18:00-22:00), khi hệ thống bảo vệ đặc biệt nhạy cảm. Khuyến nghị giảm tần suất yêu cầu trong các giai đoạn này hoặc tạm dừng giám sát hoàn toàn nếu dữ liệu không quan trọng.
Công cụ có sẵn để giám sát qua proxy
Để giám sát stock availability không nhất thiết phải viết parser từ đầu. Có nhiều giải pháp có sẵn hỗ trợ làm việc qua proxy và có cơ chế bảo vệ tích hợp khỏi bị chặn. Hãy xem xét các công cụ phổ biến cho các cấp độ chuẩn bị kỹ thuật khác nhau.
Dịch vụ SaaS có sẵn (không cần lập trình)
1. Keepa (cho Amazon)
Dịch vụ chuyên biệt để giám sát Amazon. Theo dõi giá, tồn kho sản phẩm, đánh giá. Có hệ thống proxy tích hợp, không yêu cầu kiến thức kỹ thuật. Nhược điểm — chỉ hoạt động với Amazon.
2. Parsehub
Parser trực quan cho phép thiết lập thu thập dữ liệu qua giao diện đồ họa. Hỗ trợ thiết lập proxy, xoay vòng IP, độ trễ giữa các yêu cầu. Phù hợp cho người dùng không có kỹ năng lập trình.
3. Octoparse
Tương tự Parsehub với khả năng tự động hóa nâng cao hơn. Có template tích hợp cho marketplace phổ biến, bao gồm Amazon, eBay. Hỗ trợ thực thi tác vụ đám mây và xoay vòng proxy tự động.
Giải pháp phần mềm (yêu cầu thiết lập)
1. Scrapy (Python)
Framework mạnh mẽ cho parsing trên Python. Có hỗ trợ proxy tích hợp, middleware cho xoay vòng, xử lý lỗi. Yêu cầu kỹ năng lập trình nhưng cho linh hoạt thiết lập tối đa.
Ví dụ thiết lập proxy trong Scrapy nằm trong file settings.py — thêm middleware cho xoay vòng và danh sách proxy-server. Framework tự động phân phối yêu cầu giữa các IP có sẵn.
2. Puppeteer / Playwright (JavaScript)
Headless-browser để tự động hóa Chrome/Firefox. Lý tưởng cho parsing trang web với JavaScript và bảo vệ phức tạp. Hỗ trợ thiết lập proxy ở cấp trình duyệt, mô phỏng hành vi người dùng thực.
3. Selenium
Công cụ tự động hóa trình duyệt cổ điển. Hoạt động chậm hơn Puppeteer nhưng có nhiều giải pháp và ví dụ có sẵn hơn. Phù hợp cho nhà phát triển mới bắt đầu.
Giải pháp chuyên biệt cho marketplace
1. МойСклад (tích hợp với Wildberries, Ozon)
Hệ thống kế toán với tích hợp sẵn với marketplace Nga. Tự động đồng bộ tồn kho, nhưng chỉ hoạt động qua API chính thức — không phù hợp để giám sát đối thủ.
2. Mpstats
Dịch vụ phân tích cho Wildberries và Ozon. Thu thập dữ liệu về sản phẩm, giá, tồn kho. Có cơ sở hạ tầng proxy riêng, không yêu cầu thiết lập bổ sung. Trả phí nhưng ổn định.
3. SellerFox
Giải pháp toàn diện cho người bán trên marketplace Nga. Bao gồm giám sát đối thủ, phân tích, tự động hóa giá. Hoạt động qua proxy riêng.
Cách chọn công cụ:
- Không có kỹ năng lập trình — sử dụng dịch vụ SaaS (Parsehub, Octoparse) hoặc giải pháp chuyên biệt (Mpstats)
- Có kỹ năng code cơ bản — Scrapy hoặc Puppeteer cho nhiều kiểm soát hơn và chi phí thấp hơn
- Cần linh hoạt tối đa — viết giải pháp riêng trên Python hoặc Node.js
- Chỉ một marketplace — tìm công cụ chuyên biệt (Keepa cho Amazon, Mpstats cho Wildberries)
Hướng dẫn từng bước thiết lập proxy cho parser
Hãy phân tích thiết lập thực tế proxy để giám sát stock availability trên ví dụ kịch bản điển hình: giám sát 100 sản phẩm trên Wildberries với kiểm tra mỗi 30 phút. Hướng dẫn phù hợp cho hầu hết parser có sẵn và giải pháp tự viết.
Bước 1: Chọn và mua proxy
Cho Wildberries cần proxy residential. Tính toán số lượng cần thiết:
- 100 sản phẩm × 2 kiểm tra mỗi giờ = 200 yêu cầu/giờ
- Giới hạn an toàn cho Wildberries: 20 yêu cầu trên IP
- Cần thiết: 200 ÷ 20 = 10 địa chỉ IP tối thiểu
Khuyến nghị lấy dự phòng: 15-20 IP cho hoạt động ổn định. Khi mua proxy, đảm bảo nhà cung cấp hỗ trợ xoay vòng theo thời gian hoặc theo yêu cầu.
Bước 2: Nhận dữ liệu để kết nối
Sau khi mua, bạn sẽ nhận dữ liệu ở định dạng:
Host: proxy.example.com
Port: 8080
Login: user123
Password: pass456
Type: HTTP/HTTPS hoặc SOCKS5
Một số nhà cung cấp cung cấp URL cho xoay vòng tự động:
http://user123:[email protected]:8080
URL này có thể sử dụng trực tiếp trong hầu hết parser — proxy-server tự thay đổi IP theo cài đặt.
Bước 3: Thiết lập trong công cụ có sẵn (Octoparse)
1. Mở cài đặt tác vụ parsing
Trong Octoparse, đi đến phần "Advanced Options" → "Proxy Settings"
2. Nhập dữ liệu proxy:
- Proxy Type: chọn HTTP hoặc SOCKS5 (tùy thuộc vào proxy của bạn)
- Server: proxy.example.com
- Port: 8080
- Username: user123
- Password: pass456
3. Thiết lập xoay vòng:
Nếu nhà cung cấp của bạn hỗ trợ xoay vòng tự động — chỉ cần bật tùy chọn "Use rotating proxy". Nếu không — thêm danh sách IP thủ công và bật "Rotate IP addresses" với khoảng thời gian 10 phút.
4. Thiết lập độ trễ:
Trong phần "Speed Settings", đặt độ trễ giữa các yêu cầu: 4-7 giây (Random delay between 4000 and 7000 ms).
Bước 4: Kiểm tra cài đặt
Trước khi chạy giám sát đầy đủ, nhất định phải kiểm tra cài đặt:
- Kiểm tra kết nối đến proxy — hầu hết công cụ có nút "Test connection"
- Chạy parsing 5-10 sản phẩm — đảm bảo dữ liệu được thu thập chính xác
- Kiểm tra log lỗi — mã 403, 429, 503 cho biết vấn đề với proxy hoặc tần suất quá cao
- Đảm bảo IP thay đổi — trong log phải xuất hiện các địa chỉ khác nhau theo cài đặt xoay vòng
Quan trọng: Vài giờ đầu hoạt động, theo dõi cẩn thận log của parser. Nếu thấy lỗi thường xuyên hoặc bị chặn — tăng độ trễ giữa các yêu cầu và tần suất xoay vòng IP. Tốt hơn là nhận dữ liệu chậm hơn nhưng ổn định, hơn là nhanh nhưng bị ban.
Bước 5: Giám sát và tối ưu hóa
Sau khi chạy, thường xuyên kiểm tra:
- Success rate — tỷ lệ yêu cầu thành công phải trên 95%
- Mã phản hồi — nếu xuất hiện 429 hoặc 503 thường xuyên hơn 5% — giảm tải
- Tốc độ hoạt động proxy — nếu độ trễ vượt quá 2-3 giây, có thể nên đổi nhà cung cấp
- Tính cập nhật của dữ liệu — so sánh dữ liệu nhận được với thực tế trên trang marketplace
Dần dần tối ưu hóa cài đặt: nếu mọi thứ hoạt động ổn định một tuần, có thể tăng nhẹ tần suất kiểm tra hoặc giảm độ trễ. Nhưng làm điều này từ từ, từng bước một.
Lỗi thường gặp và cách tránh
Ngay cả khi thiết lập proxy đúng, người mới thường mắc lỗi dẫn đến bị chặn hoặc parser hoạt động không ổn định. Hãy phân tích các vấn đề phổ biến nhất và cách giải quyết.
Lỗi 1: Sử dụng một User-Agent cho tất cả yêu cầu
Vấn đề: Parser gửi tất cả yêu cầu với cùng header User-Agent, ngay cả khi thay đổi IP. Điều này trông đáng ngờ — cùng một "trình duyệt" xuất hiện từ các địa chỉ khác nhau.
Giải pháp: Xoay vòng User-Agent cùng với địa chỉ IP. Tạo danh sách các trình duyệt phổ biến (Chrome, Firefox, Safari các phiên bản khác nhau) và chọn ngẫu nhiên từ đó khi mỗi lần thay đổi proxy. Hầu hết thư viện cho parsing có hỗ trợ xoay vòng User-Agent tích hợp.
Lỗi 2: Xoay vòng IP quá thường xuyên
Vấn đề: Một số thiết lập thay đổi IP sau mỗi yêu cầu, nghĩ rằng đây là an toàn nhất. Thực tế điều này trông không tự nhiên — người dùng thực không thay đổi IP mỗi giây.
Giải pháp: Sử dụng khoảng thời gian xoay vòng hợp lý: 5-15 phút hoặc 20-100 yêu cầu trên một IP. Điều này mô phỏng hành vi người dùng thực, người ngồi từ một thiết bị một thời gian, sau đó chuyển đổi.
Lỗi 3: Bỏ qua cookies
Vấn đề: Parser thực hiện yêu cầu mà không lưu cookies giữa chúng. Marketplace sử dụng cookies để theo dõi phiên — nếu bạn không lưu chúng, mỗi yêu cầu trông như phiên mới.
Giải pháp: Luôn lưu cookies sau yêu cầu đầu tiên và truyền chúng trong các yêu cầu tiếp theo. Khi thay đổi IP, tạo phiên mới với cookies mới — điều này mô phỏng người dùng mới.
Lỗi 4: Độ trễ cố định giữa các yêu cầu
Vấn đề: Đặt độ trễ chính xác 5 giây giữa tất cả yêu cầu. Điều này tạo mẫu hoàn hảo, dễ dàng bị phát hiện bởi hệ thống anti-bot.
Giải pháp: Sử dụng độ trễ ngẫu nhiên trong phạm vi. Thay vì 5 giây, làm random(4, 7) giây. Thêm đôi khi các khoảng dừng dài hơn (10-20 giây), mô phỏng sự phân tâm của người dùng.
Lỗi 5: Sử dụng proxy công khai rẻ
Vấn đề: Cố gắng tiết kiệm proxy, sử dụng danh sách công khai miễn phí hoặc rất rẻ. Các IP này đã bị chặn trên hầu hết marketplace, vì được sử dụng bởi hàng nghìn parser khác.
Giải pháp: Đầu tư vào proxy residential chất lượng từ nhà cung cấp đáng tin cậy. Đây là nền tảng của hoạt động ổn định. Tiết kiệm proxy sẽ dẫn đến mất thời gian chống lại việc bị chặn và mất dữ liệu tiềm năng.
Lỗi 6: Thiếu xử lý lỗi
Vấn đề: Parser không xử lý lỗi và tiếp tục gửi yêu cầu đến server ngay cả sau khi nhận 429 (Too Many Requests) hoặc 503 (Service Unavailable).
Giải pháp: Triển khai xử lý lỗi thông minh:
- Khi nhận 429 — tăng độ trễ gấp 2 lần và thay đổi IP
- Khi nhận 503 — tạm dừng 5-10 phút
- Khi nhận 403 — ngay lập tức thay đổi IP và kiểm tra cài đặt
- Sử dụng exponential backoff: khi lỗi lặp lại, tăng khoảng dừng theo cấp số nhân
Checklist trước khi chạy giám sát:
- ✅ Sử dụng proxy residential chất lượng
- ✅ Thiết lập xoay vòng IP mỗi 5-15 phút
- ✅ Bật xoay vòng User-Agent
- ✅ Lưu cookies giữa các yêu cầu
- ✅ Độ trễ ngẫu nhiên 4-7 giây được thiết lập
- ✅ Xử lý lỗi được triển khai
- ✅ Kiểm tra trên 5-10 sản phẩm đã hoàn thành thành công
Kết luận
Giám sát tồn kho sản phẩm qua proxy là nhiệm vụ kỹ thuật đòi hỏi cách tiếp cận cẩn thận và hiểu biết về cơ chế bảo vệ marketplace. Thành công phụ thuộc vào ba yếu tố chính: chọn đúng loại proxy, thiết lập chính xác xoay vòng IP và mô phỏng hành vi người dùng thực.
Các điểm chính cần nhớ:
- Cho Wildberries và Ozon — chỉ proxy residential hoặc mobile
- Xoay vòng IP mỗi 5-15 phút hoặc sau 20-100 yêu cầu
- Luôn sử dụng độ trễ ngẫu nhiên giữa các yêu cầu
- Lưu cookies và xoay vòng User-Agent
- Bắt đầu với cài đặt bảo thủ, sau đó tối ưu hóa dần dần
- Giám sát log và phản ứng nhanh với lỗi
Đầu tư vào proxy chất lượng và thiết lập đúng sẽ trả lại nhiều lần dưới dạng dữ liệu ổn định và lợi thế cạnh tranh. Giám sát tồn kho đối thủ cho phép phản ứng nhanh với thay đổi thị trường, tối ưu hóa giá và tăng doanh số.
Nếu bạn mới bắt đầu với parsing — sử dụng các giải pháp có sẵn như Octoparse hoặc Mpstats. Khi có kinh nghiệm và nhu cầu cụ thể — chuyển sang giải pháp tự viết trên Scrapy hoặc Puppeteer. Điều chính — không cố gắng tiết kiệm proxy và luôn tuân thủ giới hạn hợp lý để tránh bị chặn.