Ozon - một trong những chợ trực tuyến được bảo vệ tốt nhất của RuNet: hệ thống chống bot, captcha, giới hạn yêu cầu và chặn theo IP khiến việc thu thập dữ liệu tự động trở thành một thử thách thực sự. Nếu bạn đang theo dõi giá cả của đối thủ, phân tích danh mục sản phẩm hoặc thu thập đánh giá cho phân tích - mà không có proxy được cấu hình hợp lý, trình phân tích của bạn sẽ bị chặn chỉ sau vài phút. Trong hướng dẫn này, chúng ta sẽ xem xét những proxy nào phù hợp cho Ozon, cách cấu hình chúng đúng cách và những sai lầm nào có thể giết chết các dự án thu thập dữ liệu.
Tại sao Ozon chặn việc phân tích: cách bảo vệ hoạt động
Trước khi cấu hình proxy, quan trọng là hiểu rõ những gì bạn sẽ gặp phải. Ozon sử dụng hệ thống bảo vệ đa cấp chống lại các yêu cầu tự động, và mỗi yếu tố của nó cần được xem xét khi xây dựng trình phân tích.
Giới hạn tỷ lệ - giới hạn tần suất yêu cầu
Nếu từ một địa chỉ IP nhận được hơn 30–50 yêu cầu mỗi phút, Ozon bắt đầu trả về lỗi 429 (Quá nhiều yêu cầu) hoặc hoàn toàn chặn IP. Đối với người dùng thông thường, không có tần suất yêu cầu như vậy - điều đó có nghĩa là đây là bot. Chính vì vậy, một máy chủ proxy là không đủ: cần một nhóm từ hàng chục hoặc hàng trăm địa chỉ IP với xoay vòng.
Phân tích User-Agent và tiêu đề HTTP
Hệ thống Ozon kiểm tra tiêu đề của mỗi yêu cầu. Nếu User-Agent trông giống như một kịch bản (ví dụ, python-requests/2.28), yêu cầu sẽ bị chặn ngay lập tức. Cần phải giả lập các tiêu đề của trình duyệt thực: User-Agent đúng, Accept-Language, Accept-Encoding, Referer.
Nhận diện dấu vân tay trình duyệt
Trên các trang Ozon, JavaScript hoạt động, thu thập dấu vân tay của trình duyệt: độ phân giải màn hình, phông chữ đã cài đặt, WebGL, Canvas. Nếu bạn phân tích qua trình duyệt headless (Puppeteer, Playwright) mà không có sự che giấu - hệ thống sẽ phát hiện ra điều này. Do đó, quan trọng là sử dụng các công cụ với chế độ stealth hoặc phân tích qua API mà không cần render JS.
Chặn địa lý và kiểm tra danh tiếng IP
Ozon là một chợ trực tuyến của Nga, và họ mong đợi các yêu cầu từ các IP của Nga. Nếu bạn kết nối qua proxy của trung tâm dữ liệu từ Đức hoặc Mỹ, điều này ngay lập tức gây nghi ngờ. Hơn nữa, các địa chỉ IP của trung tâm dữ liệu thường bị đưa vào danh sách đen của các hệ thống chống bot (Cloudflare, DataDome) - chính vì vậy, Ozon cần các IP cư trú hoặc di động của Nga.
Kết luận: điều gì chặn Ozon
- IP của trung tâm dữ liệu và máy chủ VPN (đã bị đưa vào danh sách đen)
- Tần suất yêu cầu quá cao từ một IP
- Tiêu đề HTTP không thực tế (User-Agent của kịch bản)
- Địa chỉ IP nước ngoài cho chợ trực tuyến của Nga
- Thiếu cookies và dữ liệu phiên
Proxy nào phù hợp cho Ozon: so sánh các loại
Không phải tất cả các proxy đều hoạt động tốt với bảo vệ của Ozon. Chúng ta sẽ xem xét ba loại chính và khả năng áp dụng của chúng cho các nhiệm vụ trên chợ trực tuyến này.
| Loại proxy | Trông như thế nào đối với Ozon | Tốc độ | Rủi ro bị chặn | Phù hợp cho Ozon? |
|---|---|---|---|---|
| Trung tâm dữ liệu | IP của dịch vụ lưu trữ/đám mây | Rất cao | Cao | ⚠️ Chỉ cho các nhiệm vụ nhẹ |
| Cư trú | IP của người dùng tại nhà | Trung bình | Thấp | ✅ Tuyệt vời |
| Di động | IP của nhà mạng di động | Trung bình | Tối thiểu | ✅ Hoàn hảo |
Proxy cư trú - ngựa làm việc cho Ozon
Proxy cư trú sử dụng các địa chỉ IP của người dùng thực. Đối với Ozon, yêu cầu như vậy trông giống như một người bình thường đã truy cập vào trang web qua internet tại nhà. Hệ thống chống bot không thấy dấu hiệu tự động hóa ở cấp độ IP. Điều này làm cho proxy cư trú trở thành lựa chọn chính cho việc phân tích quy mô lớn: theo dõi giá cả của hàng ngàn SKU, thu thập thẻ sản phẩm, phân tích danh mục sản phẩm của đối thủ.
Lợi thế chính - một nhóm lớn các địa chỉ IP với khả năng chọn vị trí địa lý của Nga. Ozon mong đợi các yêu cầu từ các địa chỉ của Nga, và proxy cư trú với nhắm mục tiêu địa lý vào Nga cung cấp mức độ nghi ngờ tối thiểu.
Proxy di động - độ tin cậy tối đa
Proxy di động hoạt động qua IP của các nhà mạng di động (MTS, Beeline, MegaFon, Tele2). Đây là loại lưu lượng "sạch" nhất từ góc độ hệ thống chống bot: IP di động gần như không bao giờ bị đưa vào danh sách đen, và một IP có thể được sử dụng bởi hàng ngàn người dùng thực đồng thời. Nếu IP cư trú bị chặn - điều đó có thể gây nghi ngờ. Nếu IP di động bị chặn - Ozon có nguy cơ cắt đứt hàng ngàn khách hàng thực, điều này là không có lợi cho họ.
Proxy di động đặc biệt tốt cho các nhiệm vụ cần độ tin cậy cao: thu thập đánh giá, theo dõi khuyến mãi và giảm giá trong thời gian thực.
Proxy trung tâm dữ liệu - chỉ cho các nhiệm vụ đơn giản
Proxy trung tâm dữ liệu hoạt động nhanh chóng và có giá rẻ hơn, nhưng việc áp dụng chúng cho Ozon là hạn chế. Hầu hết các IP như vậy đã bị đưa vào danh sách đen của các hệ thống chống bot. Chúng có thể phù hợp cho các nhiệm vụ đơn lẻ với tần suất yêu cầu thấp - ví dụ, kiểm tra sự có mặt của một sản phẩm cụ thể mỗi giờ. Đối với việc theo dõi quy mô lớn thường xuyên, chúng không phù hợp.
Kịch bản sử dụng: giá cả, sản phẩm, đánh giá
Các nhiệm vụ thu thập dữ liệu từ Ozon rất đa dạng, và mỗi nhiệm vụ cần một chiến lược riêng. Chúng ta sẽ xem xét ba kịch bản chính.
📊 Theo dõi giá cả của đối thủ
Đây là kịch bản phổ biến nhất trong số các người bán. Nhiệm vụ: theo dõi giá cả của hàng trăm hoặc hàng ngàn sản phẩm của đối thủ, để điều chỉnh giá cả của mình kịp thời. Ozon thường xuyên thay đổi giá vài lần trong ngày - đặc biệt trong thời gian khuyến mãi.
Yêu cầu đối với proxy: cần một nhóm từ 50–200 IP cư trú với vị trí địa lý của Nga. Các yêu cầu cần được thực hiện với độ trễ từ 2–5 giây giữa mỗi yêu cầu, và IP cần thay đổi sau mỗi 5–10 yêu cầu. Với chế độ này, trình phân tích có thể xử lý từ 500–1000 thẻ sản phẩm mỗi giờ mà không bị chặn.
Những gì cần thu thập: giá hiện tại, giá trước khi giảm giá, sự có mặt trong kho, xếp hạng của người bán, số lượng đánh giá, trạng thái tham gia vào khuyến mãi Ozon.
🛍️ Thu thập dữ liệu về sản phẩm và danh mục
Các nhà phân tích và tiếp thị thu thập dữ liệu về danh mục: những loại nào đang phát triển, sản phẩm nào đang lên top tìm kiếm, số lượng người bán trong ngách đang thay đổi như thế nào. Đây là những nhiệm vụ lớn hơn - cần phải duyệt qua hàng ngàn trang danh mục.
Yêu cầu đối với proxy: nhóm từ 200 IP với xoay vòng. Quan trọng là sử dụng các phiên sticky (khi một IP "gắn liền" với một phiên trong vài phút), để duyệt qua phân trang một cách chính xác - nếu không, khi thay đổi IP trên trang tiếp theo của danh mục, bạn có thể nhận được kết quả khác.
Những gì cần thu thập: tên sản phẩm, mã sản phẩm (SKU), danh mục, thương hiệu, mô tả, thông số kỹ thuật, hình ảnh, số lượng người bán, vị trí trong tìm kiếm.
⭐ Phân tích đánh giá và xếp hạng
Đánh giá là nguồn dữ liệu quý giá cho việc phân tích sở thích của người tiêu dùng, tìm kiếm điểm yếu của đối thủ và cải thiện sản phẩm của chính mình. Các trang đánh giá trên Ozon được bảo vệ rất tốt: để tải chúng, cần có JavaScript, và dữ liệu thường được tải qua các yêu cầu AJAX.
Yêu cầu đối với proxy: để phân tích đánh giá, proxy di động với các IP của Nga là tốt nhất. Bởi vì mỗi trang đánh giá yêu cầu một số yêu cầu (trang chính + AJAX để tải nội dung), các IP di động đảm bảo tính ổn định của phiên.
Những gì cần thu thập: văn bản đánh giá, điểm số (1–5 sao), ngày công bố, tính hữu ích của đánh giá (thích), phản hồi của người bán, hình ảnh trong đánh giá, mua hàng đã xác minh.
Xoay vòng IP và quản lý phiên: cách không bị chặn
Ngay cả với proxy tốt, bạn cũng có thể bị chặn nếu quản lý phiên và xoay vòng không đúng cách. Đây là một trong những khía cạnh kỹ thuật quan trọng của việc phân tích Ozon.
Hai chế độ xoay vòng: rotating vs sticky
Rotating (xoay vòng ngẫu nhiên) - mỗi yêu cầu đến từ một IP mới. Điều này tốt cho các yêu cầu độc lập: ví dụ, khi bạn kiểm tra giá của một sản phẩm riêng lẻ. Ozon không thấy mối liên hệ giữa các yêu cầu.
Sticky sessions (phiên cố định) - một IP được sử dụng cho nhiều yêu cầu liên tiếp trong một "phiên" (thường từ 1–30 phút). Điều này cần thiết khi bạn duyệt qua phân trang của danh mục, thu thập nhiều trang đánh giá của một sản phẩm hoặc làm việc với giỏ hàng/xác thực. Việc thay đổi IP đột ngột giữa phiên sẽ trông đáng ngờ.
Quy tắc về độ trễ giữa các yêu cầu
| Loại nhiệm vụ | Độ trễ giữa các yêu cầu | Thay đổi IP |
|---|---|---|
| Theo dõi giá (1000+ SKU) | 2–4 giây | Mỗi 5–10 yêu cầu |
| Duyệt danh mục (phân trang) | 3–6 giây | Mỗi 20–30 trang |
| Thu thập đánh giá | 4–8 giây | Mỗi sản phẩm - IP mới |
| Kiểm tra sự có mặt một lần | 1–2 giây | Mỗi yêu cầu |
Quản lý cookies và dữ liệu phiên
Ozon theo dõi cookies: nếu mỗi yêu cầu đến mà không có cookies hoặc với cookies mới, đó là dấu hiệu của bot. Khuyến nghị là khi lần đầu tiên truy cập từ một IP mới, hãy "làm nóng" phiên - trước tiên tải trang chính, sau đó chuyển đến danh mục, và chỉ sau đó yêu cầu dữ liệu cần thiết. Điều này giả lập hành vi của người dùng thực và giảm nguy cơ bị chặn từ 3–5 lần.
Cấu hình proxy cho việc phân tích Ozon: hướng dẫn từng bước
Chúng ta sẽ xem xét cấu hình thực tế với ví dụ từ các công cụ phổ biến. Bắt đầu với cấu hình cơ bản, phù hợp với hầu hết các kịch bản.
Bước 1. Nhận dữ liệu proxy
Sau khi kết nối với các proxy cư trú hoặc di động, bạn sẽ nhận được dữ liệu kết nối ở định dạng:
host: proxy.example.com port: 8080 username: your_username password: your_password protocol: HTTP / HTTPS / SOCKS5
Đối với Ozon, khuyến nghị sử dụng giao thức HTTPS hoặc SOCKS5. SOCKS5 được ưu tiên hơn nếu công cụ của bạn hỗ trợ - nó truyền ít tiêu đề nhận diện hơn.
Bước 2. Cấu hình nhắm mục tiêu địa lý vào Nga
Trong cài đặt của dịch vụ proxy, hãy chọn quốc gia: Nga (RU). Đối với một số nhiệm vụ, thành phố cụ thể là quan trọng - ví dụ, nếu bạn muốn thấy giá cả bao gồm cả giao hàng đến Moscow hoặc St. Petersburg. Trong trường hợp này, hãy chọn nhắm mục tiêu địa lý ở cấp thành phố.
Nếu dịch vụ cung cấp endpoint với tham số địa lý trong URL, nó sẽ trông như thế này:
proxy.example.com:8080?country=ru&city=moscow&session=random
Bước 3. Cấu hình các tiêu đề HTTP đúng cách
Đây là bước cực kỳ quan trọng. Yêu cầu đến Ozon phải trông giống như một yêu cầu từ trình duyệt thực Chrome trên Windows. Bộ tiêu đề tối thiểu:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Bước 4. Cấu hình xoay vòng và độ trễ
Trong hầu hết các trình phân tích sẵn có và các công cụ không cần mã, có cài đặt độ trễ và xoay vòng. Thiết lập:
- Độ trễ giữa các yêu cầu: 3–5 giây (có thể thêm ngẫu nhiên: từ 2 đến 7 giây)
- Xoay vòng IP: mỗi 5–10 yêu cầu cho việc theo dõi giá, mỗi yêu cầu cho các kiểm tra đơn lẻ
- Thời gian chờ yêu cầu: 15–30 giây (Ozon đôi khi trả lời chậm)
- Thử lại khi có lỗi: 3 lần thử với IP mới khi nhận được 403/429/503
Bước 5. Kiểm tra hoạt động trước khi khởi động
Trước khi khởi động việc phân tích đầy đủ, hãy thực hiện một bài kiểm tra: thực hiện 20–30 yêu cầu đến các trang khác nhau của Ozon với khoảng cách 5 giây. Nếu tất cả các yêu cầu trả về trạng thái 200 và HTML chính xác - cấu hình đã được thực hiện đúng. Nếu bạn thấy 403 hoặc chuyển hướng đến captcha - cần điều chỉnh các tiêu đề hoặc thay đổi loại proxy.
Công cụ cho việc phân tích Ozon không cần mã
Hầu hết các người bán và nhà phân tích không viết trình phân tích từ đầu. Có những công cụ sẵn có hỗ trợ kết nối proxy và không yêu cầu kỹ năng lập trình.
Octoparse - trình phân tích trực quan hỗ trợ proxy
Octoparse - một trong những công cụ không cần mã phổ biến cho việc phân tích. Bạn chỉ định trực quan các phần tử trên trang cần thu thập, và công cụ sẽ tự động tạo trình phân tích. Hỗ trợ kết nối proxy qua cài đặt nhiệm vụ: chỉ định địa chỉ, cổng, tên đăng nhập và mật khẩu - và công cụ sẽ tự động xoay vòng IP.
Cách kết nối proxy trong Octoparse: mở nhiệm vụ → Cài đặt → Cài đặt Proxy → Thêm Proxy → nhập dữ liệu kết nối → chọn chế độ xoay vòng. Đối với Ozon, khuyến nghị chế độ "Xoay IP cho mỗi N yêu cầu" với giá trị 5–10.
ParseHub - trình phân tích đám mây cho các trang web phức tạp
ParseHub hoạt động tốt với các trang mà dữ liệu được tải qua JavaScript (điều này rất phù hợp với Ozon). Hỗ trợ làm việc qua proxy trong các gói trả phí. Công cụ có trình duyệt tích hợp, có thể render JS - điều này giúp thu thập dữ liệu mà không thể truy cập qua yêu cầu HTTP thông thường.
Các dịch vụ chuyên biệt theo dõi giá cả
Đối với nhiệm vụ theo dõi giá cả trên Ozon, có các giải pháp SaaS chuyên biệt: Priceva, Metacommerce, Price2Spy. Chúng đã chứa logic tích hợp để vượt qua bảo vệ của Ozon và hoạt động theo hình thức đăng ký. Nếu nhiệm vụ của bạn chỉ là theo dõi giá mà không cần dữ liệu tùy chỉnh, những dịch vụ này có thể tiện lợi hơn so với việc tự cấu hình trình phân tích với proxy.
n8n / Make (Integromat) - tự động hóa với các yêu cầu HTTP
Đối với các nhiệm vụ không phức tạp - ví dụ, kiểm tra giá của một sản phẩm cụ thể mỗi giờ - bạn có thể sử dụng các nền tảng tự động hóa n8n hoặc Make. Chúng gửi các yêu cầu HTTP đến Ozon và phân tích phản hồi theo mẫu đã định. Proxy được kết nối trong cài đặt nút HTTP: chỉ định địa chỉ proxy trong trường Proxy URL. Đây không phải là cách mạnh mẽ nhất, nhưng là cách đơn giản nhất để tự động hóa mà không cần mã.
💡 Mẹo: sử dụng Ozon API khi có thể
Ozon cung cấp API Người Bán chính thức cho các người bán. Nếu bạn là người bán đã đăng ký, một phần dữ liệu (đơn hàng, tồn kho, phân tích bán hàng) có thể được lấy qua API mà không cần proxy và rủi ro bị chặn. Phân tích qua proxy cần thiết cho các dữ liệu mà API không cung cấp: giá cả của đối thủ, đánh giá của họ, vị trí trong tìm kiếm.
Top-7 sai lầm khi phân tích Ozon và cách tránh chúng
Hầu hết các vấn đề với việc bị chặn phát sinh từ những sai lầm giống nhau. Dưới đây là danh sách những gì chắc chắn không nên làm - và cách khắc phục chúng.
❌ Sai lầm 1: Sử dụng một IP cho tất cả các yêu cầu
Ngay cả IP "sạch" nhất cũng sẽ bị chặn nếu từ đó gửi 500 yêu cầu mỗi giờ. Giải pháp: một nhóm ít nhất 50 IP với xoay vòng.
❌ Sai lầm 2: Phân tích mà không có độ trễ
Các yêu cầu không có độ trễ - dấu hiệu rõ ràng nhất của bot. Ngay cả 1 giây giữa các yêu cầu cũng giảm đáng kể nguy cơ bị chặn. Tối ưu: 3–5 giây với sự ngẫu nhiên.
❌ Sai lầm 3: Sử dụng User-Agent mặc định của thư viện
python-requests/2.28.0 - đây là lý do bị chặn ngay lập tức. Luôn thay thế User-Agent bằng phiên bản Chrome hiện tại.
❌ Sai lầm 4: Sử dụng IP nước ngoài cho Ozon
Ozon là dịch vụ của Nga. Các yêu cầu từ các IP của Đức hoặc Mỹ gây nghi ngờ. Luôn chọn nhắm mục tiêu địa lý vào Nga.
❌ Sai lầm 5: Bỏ qua lỗi 429 và tiếp tục gửi yêu cầu
Nhận được 429 - ngay lập tức dừng yêu cầu từ IP này, đợi 5–10 phút, thay đổi IP. Tiếp tục gửi yêu cầu khi có 429 sẽ làm tăng tốc độ chặn vĩnh viễn IP.
❌ Sai lầm 6: Không xử lý chuyển hướng đến captcha
Ozon đôi khi chuyển hướng đến trang captcha thay vì chặn. Trình phân tích cần kiểm tra rằng HTML nhận được chứa dữ liệu cần thiết, chứ không phải trang captcha - và trong trường hợp captcha, cần thay đổi IP.
❌ Sai lầm 7: Phân tích vào giờ cao điểm
Trong giờ cao điểm (buổi tối, cuối tuần), Ozon lọc lưu lượng một cách quyết liệt hơn. Đối với các nhiệm vụ lớn, hãy lên kế hoạch phân tích vào ban đêm hoặc sáng sớm - tải trên máy chủ thấp hơn và hệ thống chống bot ít nghiêm ngặt hơn.
Kết luận: cách xây dựng việc thu thập dữ liệu ổn định từ Ozon
Phân tích Ozon không phải là một cấu hình một lần, mà là một công việc liên tục với cơ sở hạ tầng. Chợ trực tuyến thường xuyên cập nhật bảo vệ, thay đổi cấu trúc trang và thắt chặt các bộ lọc chống bot. Việc theo dõi thành công dựa trên ba trụ cột: loại proxy đúng, xoay vòng IP hợp lý và giả lập hành vi của người dùng thực một cách chính xác.
Nếu tóm tắt ngắn gọn tất cả những gì chúng ta đã phân tích:
- Đối với việc theo dõi giá cả và danh mục - sử dụng proxy cư trú với vị trí địa lý của Nga và nhóm từ 50 IP
- Đối với việc thu thập đánh giá và các nhiệm vụ yêu cầu độ tin cậy cao - proxy di động của các nhà mạng Nga
- Luôn cấu hình độ trễ, xoay vòng và các tiêu đề HTTP đúng cách
- Sử dụng các phiên sticky khi duyệt qua phân trang
- Lên kế hoạch cho các nhiệm vụ lớn vào ban đêm
Nếu bạn mới bắt đầu xây dựng hệ thống theo dõi Ozon, chúng tôi khuyên bạn nên bắt đầu với proxy cư trú với các IP của Nga - chúng cung cấp sự cân bằng giữa chi phí, tốc độ và độ tin cậy cho hầu hết các nhiệm vụ thu thập dữ liệu từ các chợ trực tuyến. Đối với các nhiệm vụ quan trọng, nơi mỗi yêu cầu phải được thực hiện mà không gặp sự cố, hãy xem xét proxy di động - chúng đắt hơn, nhưng gần như không bị chặn ngay cả khi sử dụng cường độ cao.