Nếu bạn bán hàng trên eBay, bạn sẽ biết: thành công phụ thuộc vào việc định giá đúng. Nhưng eBay tích cực chặn việc thu thập dữ liệu tự động - khi cố gắng kiểm tra giá cả của đối thủ một cách hàng loạt, bạn sẽ nhận được captcha hoặc bị cấm IP tạm thời. Trong hướng dẫn này, chúng ta sẽ xem xét cách cấu hình proxy để giám sát đối thủ một cách an toàn và tự động hóa việc thu thập dữ liệu mà không có rủi ro bị chặn.
Tại sao eBay chặn việc thu thập dữ liệu và cách nó hoạt động
eBay sử dụng hệ thống bảo vệ đa tầng chống lại việc thu thập dữ liệu tự động. Nền tảng này muốn người dùng tương tác với trang web như những người mua sắm thực sự, chứ không phải như những con bot thu thập thông tin cho phân tích cạnh tranh.
Các phương pháp phát hiện việc thu thập dữ liệu trên eBay:
- Theo dõi địa chỉ IP: nếu từ một IP nhận được quá nhiều yêu cầu trong thời gian ngắn (thường là hơn 50-100 lượt xem sản phẩm trong một giờ), hệ thống sẽ đánh dấu nó là đáng ngờ
- Phân tích hành vi: các bot mở trang quá nhanh (dưới 2-3 giây mỗi trang), không di chuyển chuột, không cuộn trang
- Kiểm tra User-Agent: các tiêu đề trình duyệt lỗi thời hoặc đáng ngờ sẽ gây ra kiểm tra bổ sung
- Fingerprinting trình duyệt: eBay thu thập dữ liệu về độ phân giải màn hình, các phông chữ đã cài đặt, múi giờ - sự không khớp chỉ ra việc sử dụng bot
- Captcha và challenge: khi có nghi ngờ, hệ thống sẽ hiển thị captcha hoặc yêu cầu xác nhận rằng bạn không phải là robot
Quan trọng: eBay theo dõi không chỉ tần suất yêu cầu mà còn cả các mẫu hành vi. Ngay cả khi bạn sử dụng proxy, nhưng mở các trang sản phẩm theo cùng một thứ tự mỗi ngày, hệ thống có thể nhận ra việc tự động hóa.
Hậu quả của việc phát hiện thu thập dữ liệu:
- Chặn tạm thời địa chỉ IP (từ vài giờ đến một ngày)
- Hiển thị captcha trên mỗi trang
- Giới hạn quyền truy cập vào kết quả tìm kiếm (chỉ hiển thị 10-20 sản phẩm đầu tiên)
- Trong những trường hợp nghiêm trọng - chặn tài khoản người bán, nếu việc thu thập dữ liệu được thực hiện từ tài khoản đã xác thực
Chính vì vậy, để giám sát đối thủ thường xuyên, việc sử dụng proxy là cực kỳ quan trọng - chúng cho phép phân phối các yêu cầu giữa nhiều địa chỉ IP, giả lập hành vi của nhiều người dùng từ các vị trí khác nhau.
Loại proxy nào nên chọn để giám sát eBay
Việc chọn loại proxy phụ thuộc vào quy mô giám sát, ngân sách và yêu cầu về tốc độ thu thập dữ liệu. Chúng ta sẽ xem xét ba tùy chọn chính và ứng dụng của chúng khi làm việc với eBay.
| Loại proxy | Tốc độ | Độ tin cậy của eBay | Tốt nhất cho |
|---|---|---|---|
| Data Center | Rất cao (50-200 ms) | Thấp (thường bị chặn) | Kiểm tra, thu thập một lần |
| Residential | Trung bình (300-1500 ms) | Cao (IP thực) | Giám sát thường xuyên, khối lượng lớn |
| Mobile | Trung bình (400-2000 ms) | Rất cao | Làm việc với các tài khoản bảo mật |
Proxy Data Center: nhanh, nhưng rủi ro
Data Center là lựa chọn nhanh nhất và rẻ nhất, nhưng eBay biết rõ các dải IP của các nhà cung cấp hosting phổ biến. Những địa chỉ này thường đã nằm trong danh sách đen hoặc gây sự chú ý từ các hệ thống chống gian lận.
Khi nào có thể sử dụng:
- Thu thập dữ liệu một lần cho danh sách sản phẩm nhỏ (tối đa 100-200 mục)
- Kiểm tra parser trước khi chạy trên proxy residential
- Giám sát danh sách của riêng bạn (không phải của đối thủ)
- Làm việc với eBay API (nếu bạn có quyền truy cập chính thức)
Đối với việc giám sát thường xuyên đối thủ, Data Center không phù hợp - bạn sẽ nhanh chóng cạn kiệt nguồn IP "sạch" và bắt đầu nhận được các lệnh cấm.
Proxy Residential: lựa chọn tối ưu cho giám sát
Proxy residential sử dụng các địa chỉ IP của các nhà cung cấp internet thực (Comcast, AT&T, Verizon và những người khác). Đối với eBay, những yêu cầu này trông giống như người dùng bình thường đang duyệt sản phẩm từ nhà.
Lợi ích cho việc thu thập dữ liệu trên eBay:
- Rủi ro bị chặn tối thiểu: IP residential hiếm khi bị đưa vào danh sách đen, vì đây là địa chỉ của người dùng bình thường
- Độ chính xác địa lý: có thể chọn proxy từ một thành phố hoặc tiểu bang cụ thể - điều này quan trọng nếu bạn bán hàng địa phương
- Nguồn địa chỉ lớn: các nhà cung cấp chất lượng cung cấp hàng triệu IP, cho phép mở rộng giám sát
- Xoay vòng tự động: có thể cấu hình thay đổi IP sau mỗi yêu cầu hoặc theo thời gian
Cấu hình tối ưu cho eBay:
- Xoay vòng IP: sau mỗi 20-30 yêu cầu hoặc mỗi 5-10 phút
- Địa lý: Mỹ (thị trường chính của eBay) hoặc quốc gia của đối tượng mục tiêu của bạn
- Phiên sticky: 5-15 phút (để khi chuyển đổi giữa các trang sản phẩm, IP không thay đổi)
- Độ trễ giữa các yêu cầu: 3-8 giây (giả lập người dùng thực)
Mẹo: Để giám sát 500-1000 sản phẩm của đối thủ, một nguồn proxy residential với xoay vòng là đủ. Điều này sẽ cho phép thu thập dữ liệu 2-3 lần mỗi ngày mà không có rủi ro bị chặn, trong khi chi phí sẽ thấp hơn nhiều so với proxy di động.
Proxy di động: độ tin cậy tối đa, nhưng đắt
Proxy di động sử dụng IP của các nhà mạng di động (4G/5G). Đối với eBay, đây là loại lưu lượng được tin cậy nhất, vì phần lớn người mua truy cập nền tảng này từ điện thoại thông minh.
Khi nào nên sử dụng proxy di động:
- IP chính của bạn hoặc proxy residential đã bị đưa vào danh sách chặn của eBay
- Bạn đang giám sát đối thủ từ tài khoản người bán đã xác thực (cần độ bảo mật tối đa)
- Cần thu thập dữ liệu từ phiên bản di động của eBay (đôi khi nó hiển thị giá cả và khuyến mãi khác)
- Làm việc với các danh mục hàng hóa rất bảo mật (điện tử, thương hiệu cao cấp)
Nhược điểm của proxy di động là giá cao (gấp 3-5 lần so với proxy residential) và tốc độ thấp hơn. Đối với hầu hết các nhiệm vụ giám sát đối thủ trên eBay, chúng là thừa thãi.
Những gì có thể theo dõi: giá cả, tồn kho, đánh giá của người bán
Giám sát đối thủ trên eBay không chỉ là theo dõi giá cả. Để đưa ra quyết định kinh doanh đúng đắn, bạn cần thu thập dữ liệu toàn diện về thị trường. Chúng ta sẽ xem xét những chỉ số nào nên theo dõi và cách sử dụng chúng.
1. Giám sát giá cả và động thái thay đổi
Đây là nhiệm vụ chính cho hầu hết các người bán. Bạn cần biết đối thủ đang bán các sản phẩm tương tự với giá bao nhiêu để duy trì tính cạnh tranh.
Những gì cần theo dõi:
- Giá hiện tại Buy It Now: giá hiện tại của sản phẩm tại thời điểm kiểm tra
- Giá đấu giá: giá khởi điểm và giá hiện tại (nếu sản phẩm được bán qua đấu giá)
- Chi phí vận chuyển: nhiều người bán hạ giá sản phẩm nhưng tăng giá vận chuyển - cần tính tổng chi phí
- Giảm giá và khuyến mãi: các chương trình khuyến mãi tạm thời như "giảm 10%" hoặc "Mua 2 tặng 1 miễn phí"
- Lịch sử thay đổi: đối thủ thay đổi giá bao nhiêu lần (hàng ngày, hàng tuần)
Cách sử dụng dữ liệu: Nếu bạn thấy rằng đối thủ đã giảm giá 15% vào tối thứ Sáu, điều này có thể là chuẩn bị cho một đợt giảm giá vào cuối tuần. Bạn có thể phản ứng trước và cũng khởi động một chương trình khuyến mãi để không mất doanh thu.
2. Theo dõi tình trạng hàng hóa và tốc độ bán
eBay hiển thị số lượng đơn vị hàng hóa có sẵn và số lượng đã bán. Những dữ liệu này giúp hiểu sản phẩm bán chạy như thế nào ở đối thủ.
Những gì cần thu thập:
- Số lượng có sẵn: bao nhiêu đơn vị hàng hóa còn lại trong kho
- Số lượng đã bán: bao nhiêu đơn vị đã được bán (eBay hiển thị điều này cho các danh sách phổ biến)
- Người theo dõi: bao nhiêu người dùng đã thêm sản phẩm vào danh sách yêu thích (chỉ số quan tâm)
- Ngày đăng danh sách: sản phẩm đã được đưa ra bán từ bao lâu
Ví dụ sử dụng: Bạn theo dõi danh sách của đối thủ và thấy rằng trong 3 ngày qua, họ đã bán được 50 đơn vị sản phẩm với giá $29.99. Điều này có nghĩa là nhu cầu về sản phẩm cao, và bạn có thể tăng cường nhập hàng. Nếu số lượng đã bán không thay đổi trong nhiều tuần, đó là tín hiệu về nhu cầu thấp hoặc định vị không đúng.
3. Phân tích đánh giá và phản hồi của người bán
Đánh giá của người bán ảnh hưởng trực tiếp đến tỷ lệ chuyển đổi. Người mua thích những người bán có điểm đánh giá cao và trạng thái Top Rated Seller.
Các chỉ số cần theo dõi:
- Điểm phản hồi: tổng số lượng phản hồi tích cực
- Tỷ lệ phản hồi tích cực: tỷ lệ phản hồi tích cực (chuẩn - 98%+)
- Đánh giá chi tiết của người bán: đánh giá theo các danh mục (tốc độ giao hàng, độ chính xác mô tả, giao tiếp)
- Huy hiệu Top Rated Seller: có huy hiệu người bán hàng đầu hay không
- Số lượng phản hồi trong 12 tháng qua: cho thấy hoạt động của người bán
Tại sao điều này quan trọng: Nếu đối thủ chính của bạn có trạng thái Top Rated và hơn 5000 phản hồi, trong khi bạn chỉ có 200, thì ngay cả khi giá cả giống nhau, người mua sẽ chọn họ. Bạn cần hoặc là giảm giá để bù đắp sự khác biệt về độ tin cậy, hoặc tích cực làm việc để tích lũy phản hồi.
4. Giám sát vị trí trong tìm kiếm và danh mục
Vị trí của sản phẩm trong kết quả tìm kiếm eBay là rất quan trọng cho doanh số bán hàng. Các sản phẩm trên trang đầu tiên nhận được 80% số lần nhấp chuột.
Những gì cần theo dõi:
- Vị trí của đối thủ trong tìm kiếm theo các từ khóa chính (ví dụ: "tai nghe không dây bluetooth")
- Sự hiện diện trong các sản phẩm được đề xuất (Featured items)
- Vị trí trong danh mục (ví dụ: Điện tử → Tai nghe → In-Ear)
- Sử dụng Promoted Listings (quảng cáo trả phí)
Để theo dõi vị trí, cần thu thập kết quả tìm kiếm theo các từ khóa và ghi lại vị trí của từng đối thủ. Điều này cho phép hiểu ai đang đầu tư vào SEO và quảng cáo, và ai chỉ dựa vào lưu lượng truy cập tự nhiên.
Cấu hình proxy cho việc thu thập dữ liệu: hướng dẫn từng bước
Chúng ta sẽ xem xét cách cấu hình proxy thực tế để giám sát eBay. Bất kể bạn sử dụng parser có sẵn hay viết script của riêng mình, các nguyên tắc hoạt động đều giống nhau.
Bước 1: Chọn và mua proxy
Để giám sát eBay, chúng tôi khuyên bạn nên sử dụng proxy residential với địa lý ở Mỹ (vì đây là thị trường chính của nền tảng). Khi chọn nhà cung cấp, hãy chú ý đến:
- Kích thước của bể IP: tối thiểu 1-2 triệu địa chỉ để có thể xoay vòng thoải mái
- Hỗ trợ sticky sessions: khả năng giữ một IP trong 5-15 phút
- Độ chính xác địa lý: khả năng chọn thành phố hoặc tiểu bang (quan trọng cho hàng hóa địa phương)
- Định dạng xác thực: dễ dàng làm việc với username:password hơn là với IP whitelist
Sau khi mua, bạn sẽ nhận được thông tin kết nối theo định dạng:
Host: proxy.example.com
Port: 12321
Username: user_abc123
Password: pass_xyz789
Bước 2: Cấu hình proxy trong parser hoặc script
Hầu hết các parser có sẵn (Octoparse, ParseHub, Apify) đều có hỗ trợ proxy tích hợp. Bạn chỉ cần nhập thông tin vào cài đặt.
Ví dụ cấu hình trong các công cụ phổ biến:
Octoparse (parser trực quan không cần mã):
- Mở cài đặt nhiệm vụ (Task Settings)
- Đi tới phần "Proxy Settings"
- Chọn "Use proxy server"
- Nhập: Server (host:port), Username, Password
- Chọn loại: HTTP hoặc SOCKS5 (cả hai đều phù hợp cho eBay)
- Nhấn "Test" để kiểm tra kết nối
ParseHub (parser đám mây):
- Trong cài đặt dự án, tìm "Advanced Options"
- Bật "Use Proxy"
- Định dạng nhập:
http://username:password@host:port - Để xoay vòng proxy, sử dụng chức năng "Rotating Proxy" (nếu nhà cung cấp hỗ trợ)
Nếu bạn sử dụng script của riêng mình, việc kết nối proxy phụ thuộc vào ngôn ngữ lập trình. Đối với hầu hết các nhiệm vụ giám sát eBay, Python (thư viện requests, Selenium) hoặc Node.js (Puppeteer, Playwright) được sử dụng.
Bước 3: Cấu hình User-Agent và tiêu đề
Việc sử dụng proxy chỉ là một nửa công việc. eBay cũng phân tích các tiêu đề HTTP của các yêu cầu. Nếu bạn sử dụng User-Agent lỗi thời hoặc gửi yêu cầu mà không có các tiêu đề tiêu chuẩn, điều này sẽ gây nghi ngờ.
Các tiêu đề bắt buộc cho việc thu thập dữ liệu trên eBay:
- User-Agent: sử dụng phiên bản Chrome hoặc Firefox hiện tại (cập nhật mỗi 2-3 tháng)
- Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
- Accept-Language: en-US,en;q=0.9 (cho Mỹ) hoặc ru-RU,ru;q=0.9 (cho Nga)
- Accept-Encoding: gzip, deflate, br
- Referer: https://www.ebay.com/ (cho các yêu cầu tiếp theo)
Mẹo: Sử dụng xoay vòng User-Agent - thay đổi nó sau mỗi 50-100 yêu cầu. Điều này giả lập nhiều người dùng với các trình duyệt khác nhau.
Bước 4: Kiểm tra cài đặt
Trước khi khởi động giám sát quy mô lớn, hãy chắc chắn kiểm tra cài đặt trên một mẫu nhỏ các sản phẩm (10-20 mục).
Danh sách kiểm tra kiểm tra:
- Kiểm tra địa chỉ IP: mở trang https://api.ipify.org/ trong parser - nó sẽ hiển thị IP hiện tại. Đảm bảo rằng đây là IP của proxy, không phải IP thực của bạn
- Kiểm tra địa lý: mở https://www.ebay.com/ và kiểm tra quốc gia nào được xác định (nên trùng với địa lý của proxy)
- Thu thập dữ liệu cho 20 sản phẩm: khởi động parser và kiểm tra xem tất cả dữ liệu có được thu thập chính xác không (giá cả, tình trạng, đánh giá)
- Kiểm tra sự hiện diện của captcha: nếu trong lần chạy thử nghiệm xuất hiện captcha, có nghĩa là cài đặt chưa đủ an toàn
- Đo tốc độ: ghi lại thời gian thu thập dữ liệu cho 100 sản phẩm - điều này sẽ giúp lập kế hoạch tần suất giám sát
Quan trọng: Nếu trong quá trình kiểm tra bạn nhận được captcha hoặc bị chặn, đừng cố gắng ngay lập tức khởi động giám sát toàn diện. Trước tiên, hãy tăng độ trễ giữa các yêu cầu (lên đến 10-15 giây) và giảm tần suất xoay vòng IP (thay đổi IP ít thường xuyên hơn, ví dụ, mỗi 50 yêu cầu thay vì 20).
Công cụ tự động hóa giám sát đối thủ
Để giám sát đối thủ thường xuyên trên eBay, không nhất thiết phải viết mã từ đầu. Có nhiều công cụ có sẵn giúp đơn giản hóa việc thu thập dữ liệu và tích hợp với proxy.
Các parser trực quan (giải pháp không cần mã)
Những công cụ này cho phép bạn thiết lập việc thu thập dữ liệu qua giao diện đồ họa - bạn chỉ cần nhấp vào các phần tử trên trang mà bạn muốn thu thập.
| Công cụ | Tính năng | Giá |
|---|---|---|
| Octoparse | Hỗ trợ proxy, khởi động đám mây, mẫu cho eBay | Từ $75/tháng |
| ParseHub | Kế hoạch miễn phí (tối đa 200 trang), giao diện đơn giản | Từ $149/tháng |
| Apify | Công cụ sẵn có cho eBay, API cho tích hợp | Từ $49/tháng |
| WebHarvy | Ứng dụng máy tính để bàn, mua một lần | $139 (một lần) |
Khuyến nghị: Đối với người mới bắt đầu, Octoparse là lựa chọn tốt nhất - nó có các mẫu sẵn có cho việc thu thập dữ liệu trên eBay, và việc thiết lập mất 15-20 phút. Đối với người dùng có kinh nghiệm hơn, Apify cung cấp nhiều tính linh hoạt và khả năng tùy chỉnh qua JavaScript.
Các dịch vụ chuyên biệt cho giám sát giá
Nếu bạn chỉ cần giám sát giá (không thu thập dữ liệu khác), có các giải pháp SaaS sẵn có:
- Keepa: ban đầu dành cho Amazon, nhưng hỗ trợ eBay. Theo dõi lịch sử giá, hiển thị đồ thị thay đổi
- PriceYak: tự động điều chỉnh giá dựa trên giá của đối thủ. Tích hợp với eBay API
- Algopix: phân tích thị trường cho người bán, hiển thị giá của đối thủ, nhu cầu, lợi nhuận
Những dịch vụ này đã có cơ sở hạ tầng proxy tích hợp sẵn, vì vậy bạn không cần phải cấu hình chúng một cách độc lập. Nhược điểm - tùy chỉnh hạn chế và giá cao hơn.
Cấu hình lịch trình giám sát
Tần suất giám sát phụ thuộc vào danh mục sản phẩm và động thái của thị trường:
- Ngách cạnh tranh cao (điện tử, quần áo): 2-3 lần mỗi ngày (sáng, trưa, tối)
- Cạnh tranh trung bình (sản phẩm cho nhà, thể thao): 1 lần mỗi ngày
- Cạnh tranh thấp (sản phẩm sưu tầm, phụ tùng hiếm): 2-3 lần mỗi tuần
Hầu hết các parser đám mây (Octoparse, ParseHub, Apify) cho phép thiết lập khởi động tự động theo lịch trình. Dữ liệu có thể được xuất sang Google Sheets, Excel hoặc gửi qua email.
Chiến lược xoay vòng IP và giới hạn yêu cầu an toàn
Việc xoay vòng IP đúng cách là chìa khóa cho việc giám sát lâu dài mà không bị chặn. Chúng ta sẽ xem xét cách thiết lập xoay vòng và những giới hạn nào cần tuân thủ.
Các loại xoay vòng proxy
Có hai cách tiếp cận chính cho việc xoay vòng IP khi thu thập dữ liệu trên eBay:
1. Xoay vòng sau mỗi yêu cầu (Rotating Proxies)
Mỗi yêu cầu đến eBay được thực hiện từ một địa chỉ IP mới. Đây là lựa chọn an toàn nhất, nhưng yêu cầu một nguồn proxy lớn và có thể chậm hơn do việc kết nối lại liên tục.
Khi nào sử dụng: cho việc thu thập dữ liệu lớn (hơn 1000 sản phẩm mỗi ngày), khi tốc độ không phải là yếu tố quyết định.
2. Sticky Sessions (proxy phiên)
Địa chỉ IP được giữ trong một khoảng thời gian nhất định (5-30 phút) hoặc một số lượng yêu cầu nhất định (20-50). Điều này giả lập một người dùng thực đang duyệt qua nhiều trang liên tiếp.
Khi nào sử dụng: cho việc giám sát khối lượng trung bình (100-500 sản phẩm), khi cần sự ổn định trong kết nối.
Khuyến nghị cho eBay: Sử dụng sticky sessions với thời gian 10-15 phút. Đây là sự cân bằng tối ưu giữa an toàn và tốc độ. Trong 15 phút, một người dùng thực có thể xem 20-30 sản phẩm - chính xác là mẫu hành vi cần được giả lập.
Giới hạn yêu cầu an toàn
eBay không công bố giới hạn chính thức cho việc thu thập dữ liệu, nhưng dựa trên kinh nghiệm của các người bán, có thể xác định các giới hạn an toàn:
| Tham số | Giới hạn an toàn | Rủi ro bị chặn |
|---|---|---|
| Yêu cầu từ một IP trong một giờ | 30-50 trang | Thấp |
| Yêu cầu từ một IP trong một giờ | 100+ trang | Cao |
| Độ trễ giữa các yêu cầu | 5-10 giây | Thấp |
| Độ trễ giữa các yêu cầu | 1-2 giây | Trung bình-cao |
| Tổng khối lượng trong một ngày (tất cả IP) | Tối đa 10,000 trang | Thấp (với xoay vòng đúng cách) |
Công thức tính số lượng IP cho việc xoay vòng:
Số lượng IP = (Sản phẩm cần giám sát × Tần suất kiểm tra trong ngày) / 40
Ví dụ: Bạn giám sát 500 sản phẩm 3 lần mỗi ngày = 1500 yêu cầu. Chia cho 40 (giới hạn an toàn trên IP) = cần tối thiểu 38 IP độc nhất trong một ngày. Cộng với dự phòng - 50-60 IP.
Thêm yếu tố ngẫu nhiên để giả lập con người
Các bot hoạt động quá dễ đoán. Để việc thu thập dữ liệu trông giống như hành động của một người dùng thực, hãy thêm các yếu tố ngẫu nhiên:
- Độ trễ ngẫu nhiên: thay vì cố định 5 giây, hãy tạo độ trễ từ 4 đến 9 giây (ngẫu nhiên)
- Thứ tự sản phẩm khác nhau: không thu thập sản phẩm theo cùng một thứ tự mỗi lần
- Giả lập nhấp chuột: nếu bạn sử dụng Selenium/Puppeteer, đôi khi hãy nhấp vào các phần tử ngẫu nhiên (danh mục, bộ lọc)
- Cuộn trang: cuộn trang xuống trước khi thu thập dữ liệu (eBay theo dõi các sự kiện cuộn)
Những điều nhỏ nhặt này sẽ giảm đáng kể khả năng phát hiện việc tự động hóa.
Những sai lầm phổ biến khi thu thập dữ liệu trên eBay và cách tránh chúng
Ngay cả khi đã cấu hình proxy đúng cách, bạn vẫn có thể bị chặn nếu mắc phải những sai lầm phổ biến. Chúng ta sẽ xem xét những vấn đề thường gặp nhất.
Sai lầm 1: Sử dụng cùng một User-Agent
Nhiều người mới bắt đầu cấu hình proxy nhưng quên việc xoay vòng User-Agent. Kết quả là hàng nghìn yêu cầu từ các IP khác nhau đều sử dụng cùng một tiêu đề trình duyệt - đây là tín hiệu đỏ cho eBay.
Giải pháp: Tạo danh sách từ 20-30 User-Agent hiện tại (Chrome, Firefox, Safari trên Windows và macOS) và xoay vòng chúng một cách ngẫu nhiên. Cập nhật danh sách mỗi 2-3 tháng khi có các phiên bản trình duyệt mới.
Sai lầm 2: Thu thập dữ liệu quá nhanh
Mong muốn thu thập dữ liệu càng nhanh càng tốt dẫn đến việc bị chặn. Người dùng thực không thể mở 10 trang sản phẩm trong một giây.
Giải pháp: Đặt độ trễ tối thiểu là 4-5 giây giữa các yêu cầu. Đúng, điều này chậm hơn, nhưng an toàn hơn. Nếu cần tốc độ - hãy sử dụng thu thập dữ liệu song song với nhiều IP (khởi động nhiều yêu cầu cùng một lúc).