Avito là một trong những thị trường trực tuyến được bảo vệ tốt nhất tại Nga: hệ thống chống bot hoạt động rất nghiêm ngặt, và nếu không có proxy, một IP đơn lẻ có thể bị cấm chỉ sau vài phút thu thập dữ liệu tích cực. Nếu bạn đang theo dõi giá bất động sản, theo dõi quảng cáo ô tô hoặc phân tích đối thủ cạnh tranh - bài viết này sẽ chỉ cho bạn cách thiết lập thu thập dữ liệu ổn định mà không bị chặn liên tục.
Tại sao Avito chặn các trình thu thập dữ liệu và cách bảo vệ hoạt động
Avito đang tích cực chống lại việc thu thập dữ liệu tự động - và có lý do thương mại cho điều này. Nền tảng bán quyền truy cập vào dữ liệu của mình thông qua API chính thức, và việc thu thập dữ liệu hàng loạt làm giảm tải cho các máy chủ và "đánh cắp" dữ liệu mà công ty đang kiếm tiền. Do đó, hệ thống chống bot ở đây rất đa tầng.
Đây là cách Avito xác định các yêu cầu tự động:
- Tần suất yêu cầu. Nếu từ một IP có hơn 30-50 yêu cầu mỗi phút - hệ thống sẽ nhận thấy và đưa ra captcha hoặc cấm tạm thời.
- Thiếu tiêu đề trình duyệt. Trình thu thập dữ liệu thông thường không gửi User-Agent, Referer, Accept-Language và các tiêu đề khác đặc trưng cho trình duyệt thực tế.
- Mô hình hành vi. Người dùng thực tế cuộn trang với các khoảng dừng, nhấp chuột ngẫu nhiên. Trình thu thập dữ liệu gửi yêu cầu với các khoảng thời gian giống nhau - đây là một sự bất thường.
- Danh tiếng của địa chỉ IP. IP từ trung tâm dữ liệu (Amazon AWS, DigitalOcean, Hetzner) ngay lập tức gây nghi ngờ - những người bình thường không ngồi trên Avito từ những địa chỉ như vậy.
- Fingerprint trình duyệt. Avito sử dụng các script JavaScript, thu thập dữ liệu về môi trường: độ phân giải màn hình, phông chữ, plugin. Trình duyệt headless không có che giấu dễ dàng bị phát hiện.
- Địa điểm địa lý. Nếu IP nằm ở một quốc gia hoặc khu vực khác, đó cũng là tín hiệu cho hệ thống bảo vệ.
Quan trọng là phải hiểu: Avito không chặn vĩnh viễn từ yêu cầu đầu tiên. Đầu tiên là cấm nhẹ (captcha hoặc khoảng dừng), sau đó - cấm tạm thời IP trong vài giờ, và chỉ khi có vi phạm hệ thống - cấm vĩnh viễn địa chỉ. Điều này có nghĩa là với cấu hình đúng cho proxy và công cụ, bạn có thể thu thập dữ liệu một cách ổn định và lâu dài.
Điều quan trọng cần biết
Avito thường xuyên cập nhật các thuật toán bảo vệ - đặc biệt là sau các vụ rò rỉ dữ liệu hàng loạt qua các trình thu thập dữ liệu. Những gì hoạt động cách đây nửa năm có thể không còn hiệu quả hôm nay. Do đó, quan trọng là sử dụng các proxy hiện tại với IP thực và các công cụ hiện đại.
Những gì thường được thu thập trên Avito: bất động sản, ô tô, giá cả
Trước khi chọn công cụ, bạn cần hiểu: bạn muốn thu thập cái gì và tại sao. Điều này sẽ ảnh hưởng đến chiến lược thu thập dữ liệu - tần suất yêu cầu, các khu vực cần thiết, độ sâu thu thập dữ liệu.
Bất động sản
Đây là một trong những phân khúc phổ biến nhất để thu thập dữ liệu. Các công ty môi giới, các trang tổng hợp bất động sản và các dịch vụ phân tích thu thập quảng cáo về việc bán và cho thuê căn hộ, nhà ở, bất động sản thương mại. Các nhiệm vụ điển hình: theo dõi sự xuất hiện của các quảng cáo mới trong một khu vực cụ thể, theo dõi sự thay đổi giá theo mét vuông, phân tích đối thủ cạnh tranh theo số lượng quảng cáo và chính sách giá. Đặc điểm của phân khúc này là khối lượng dữ liệu lớn và cần thu thập từ nhiều khu vực cùng một lúc, điều này đòi hỏi một nhóm proxy với các IP khác nhau của Nga.
Ô tô
Thị trường ô tô trên Avito là đối tượng thu thập dữ liệu phổ biến thứ hai. Các đại lý ô tô, các trang tổng hợp ô tô đã qua sử dụng và các nhà buôn tư nhân sử dụng việc thu thập dữ liệu để tìm kiếm các lô hàng có lợi, theo dõi giá thị trường cho các mẫu cụ thể, phân tích nhu cầu theo khu vực. Tại đây, tốc độ là rất quan trọng: các quảng cáo tốt thường biến mất nhanh chóng, vì vậy cần theo dõi thường xuyên - đôi khi cứ 5-10 phút một lần. Điều này làm tăng tải cho proxy và yêu cầu luân phiên IP.
Giá cả và phân tích cạnh tranh
Các nhà bán hàng trên Avito - cho dù là cửa hàng điện tử, quần áo hay vật liệu xây dựng - thường xuyên theo dõi giá của đối thủ. Nhiệm vụ: thu thập giá cho các danh mục hàng hóa cụ thể, theo dõi các chương trình khuyến mãi và giảm giá, phân tích cách giá trung bình thay đổi trên thị trường. Loại thu thập dữ liệu này thường ít cường độ hơn về tần suất, nhưng yêu cầu phạm vi địa lý rộng - cần proxy từ các thành phố khác nhau của Nga.
Thông tin liên lạc và tạo khách hàng tiềm năng
Một số công ty thu thập dữ liệu từ Avito để lấy thông tin liên lạc của khách hàng tiềm năng: số điện thoại từ các quảng cáo về bất động sản hoặc ô tô. Đây là loại thu thập dữ liệu rủi ro nhất về mặt chặn, vì nó yêu cầu mở từng quảng cáo và nhấp vào nút "Hiện số điện thoại" - điều này dễ dàng bị phát hiện như hành vi bất thường.
Các loại proxy nào phù hợp với Avito
Không phải tất cả các proxy đều hoạt động tốt với Avito. Chúng ta sẽ xem xét ba loại chính và khả năng áp dụng của chúng cho nhiệm vụ này.
| Loại proxy | Cách hoạt động | Có phù hợp với Avito không? | Rủi ro bị chặn |
|---|---|---|---|
| Trung tâm dữ liệu | IP từ các nhà cung cấp máy chủ (AWS, Hetzner) | ⚠️ Hạn chế | Cao |
| Dân cư | IP của người dùng thực tế | ✅ Tốt | Thấp |
| Di động | IP của các nhà mạng di động (MTS, Beeline, MegaFon) | ✅ Tuyệt vời | Tối thiểu |
Proxy trung tâm dữ liệu: nhanh nhưng rủi ro
Proxy trung tâm dữ liệu là nhanh nhất và rẻ nhất. Chúng rất phù hợp cho các nhiệm vụ không cần che giấu cao: thu thập dữ liệu từ các trang web mở không có bảo vệ, làm việc với API, thử nghiệm. Nhưng với Avito, chúng hoạt động không ổn định. Vấn đề là các dải IP của trung tâm dữ liệu rất nổi tiếng - Avito và các nền tảng lớn khác đã từ lâu lập danh sách các địa chỉ như vậy và chặn chúng một cách phòng ngừa hoặc khi có dấu hiệu hoạt động tự động. Nếu bạn thu thập dữ liệu không thường xuyên (một lần mỗi giờ hoặc ít hơn) và không mở thông tin liên lạc, proxy trung tâm dữ liệu vẫn có thể hoạt động. Đối với việc thu thập dữ liệu cường độ cao - chúng không phù hợp.
Proxy dân cư vs proxy di động: chọn cái nào cho Avito
Đối với việc thu thập dữ liệu nghiêm túc từ Avito, sự lựa chọn thực sự nằm giữa proxy dân cư và proxy di động. Cả hai loại đều sử dụng IP "sống", nhưng hoạt động khác nhau.
Proxy dân cư
Proxy dân cư là các địa chỉ IP của người dùng thực tế trên internet. Khi yêu cầu của bạn đi qua một proxy như vậy, Avito thấy một người bình thường đang ngồi ở nhà trước máy tính. Điều này gần nhất với người dùng thực tế, vì vậy hệ thống chống bot cho phép các yêu cầu như vậy mà không nghi ngờ.
Các lợi thế chính cho việc thu thập dữ liệu từ Avito:
- Nhóm IP lớn - hàng ngàn địa chỉ từ các thành phố khác nhau của Nga
- Có thể chọn khu vực: Moscow, Saint Petersburg, Yekaterinburg và các khu vực khác
- Luân phiên IP cho mỗi yêu cầu hoặc theo khoảng thời gian nhất định
- Tỷ lệ bị chặn thấp khi tần suất yêu cầu vừa phải
Proxy dân cư là lựa chọn tối ưu cho hầu hết các nhiệm vụ thu thập dữ liệu từ Avito: theo dõi giá, thu thập quảng cáo về bất động sản và ô tô, phân tích cạnh tranh.
Proxy di động
Proxy di động sử dụng IP của các nhà mạng di động - MTS, Beeline, MegaFon, Tele2. Đây là loại lưu lượng "sạch" nhất từ góc độ hệ thống chống bot, vì một IP di động thường được sử dụng bởi hàng trăm người dùng thực (đây là đặc điểm của NAT ở các nhà mạng). Avito không thể chặn một IP như vậy mà không có rủi ro cắt đứt hàng ngàn người bình thường - vì vậy IP di động hiếm khi bị chặn.
Proxy di động đặc biệt phù hợp nếu:
- Bạn thu thập dữ liệu thường xuyên - mỗi 5-15 phút
- Cần mở thông tin liên lạc của người bán
- Làm việc với tài khoản Avito (chứ không chỉ như khách)
- Các proxy trước đó đã bị chặn
Nhược điểm của proxy di động là giá cả: chúng đắt hơn proxy dân cư. Nhưng nếu sự ổn định là rất quan trọng, đây là một khoản đầu tư hợp lý.
Lời khuyên thực tế
Đối với hầu hết các nhiệm vụ - theo dõi giá, thu thập quảng cáo mỗi 15-30 phút - proxy dân cư là đủ. Hãy sử dụng proxy di động nếu cần làm việc với tài khoản hoặc thu thập dữ liệu rất thường xuyên. Điều này sẽ giúp tiết kiệm ngân sách mà không hy sinh sự ổn định.
Công cụ thu thập dữ liệu từ Avito không cần mã
Hầu hết những người thu thập dữ liệu từ Avito không phải là lập trình viên. Họ sử dụng các dịch vụ và công cụ có sẵn không yêu cầu viết mã. Đây là những lựa chọn chính.
Octoparse
Một trong những trình thu thập dữ liệu trực quan phổ biến nhất. Hoạt động theo nguyên tắc "chỉ vào phần tử - nhận dữ liệu". Có hỗ trợ proxy tích hợp: bạn chỉ cần chèn danh sách địa chỉ vào cài đặt nhiệm vụ, và Octoparse tự động luân phiên chúng khi duyệt các trang. Hỗ trợ lịch trình khởi động - có thể thiết lập thu thập dữ liệu mỗi giờ hoặc mỗi ngày mà không cần bạn tham gia. Hoạt động tốt với Avito khi được cấu hình đúng thời gian chờ giữa các yêu cầu.
ParseHub
Trình thu thập dữ liệu trực quan hỗ trợ các trang web JavaScript. Avito sử dụng JS để tải nội dung, vì vậy các công cụ không có động cơ JS sẽ không thể lấy được dữ liệu. ParseHub render các trang như một trình duyệt thực, điều này giúp vượt qua một phần bảo vệ. Proxy được kết nối qua cài đặt dự án.
Trình duyệt thu thập dữ liệu Bright Data / các tương tự
Môi trường trình duyệt chuyên dụng cho việc thu thập dữ liệu, nơi proxy đã được tích hợp vào cơ sở hạ tầng. Phù hợp cho người dùng có kinh nghiệm hơn, nhưng không yêu cầu viết mã - quản lý qua giao diện trực quan.
Các trình thu thập dữ liệu chuyên dụng cho Avito
Có các dịch vụ SaaS đã được tối ưu hóa cho Avito: chúng đã biết cách vượt qua captcha, giả lập hành vi người dùng, thu thập các trường cụ thể (giá, mô tả, điện thoại, ngày đăng). Ví dụ: Avito Parser, các bot Telegram khác nhau để theo dõi quảng cáo. Các dịch vụ như vậy cũng cần kết nối với các proxy bên ngoài nếu không đủ proxy tích hợp.
Google Sheets + các tiện ích mở rộng
Đối với các nhiệm vụ đơn giản - theo dõi vài chục quảng cáo - bạn có thể sử dụng các tiện ích mở rộng cho trình duyệt như Instant Data Scraper hoặc các tương tự. Đây là lựa chọn đơn giản nhất, nhưng không có proxy, nó sẽ nhanh chóng gặp phải các chặn khi sử dụng thường xuyên.
Cách cấu hình proxy cho việc thu thập dữ liệu từ Avito: hướng dẫn từng bước
Hãy xem xét thuật toán kết nối proxy với các công cụ thu thập dữ liệu. Nguyên tắc là giống nhau cho hầu hết các dịch vụ.
Bước 1. Nhận dữ liệu proxy
Sau khi mua proxy, bạn sẽ nhận được dữ liệu theo định dạng: IP:cổng:tên đăng nhập:mật khẩu. Ví dụ: 185.XXX.XXX.XXX:8080:user123:pass456. Đối với Avito, hãy sử dụng giao thức HTTP hoặc SOCKS5 - cả hai đều hoạt động, nhưng SOCKS5 thì đa năng hơn.
Bước 2. Chọn IP của Nga
Avito là dịch vụ của Nga. Nếu proxy của bạn có IP của Đức hoặc Mỹ, điều này sẽ ngay lập tức gây nghi ngờ. Khi mua, hãy chọn vị trí địa lý là Nga. Nếu cần khu vực cụ thể - chẳng hạn như quảng cáo ở Moscow - hãy chọn IP từ Moscow. Điều này tăng cường độ tin cậy từ hệ thống chống bot và cung cấp dữ liệu khu vực chính xác.
Bước 3. Cấu hình luân phiên IP
Luân phiên là việc tự động thay đổi IP sau mỗi yêu cầu thứ N hoặc theo khoảng thời gian nhất định. Đối với Avito, các cài đặt được khuyến nghị:
- Thay đổi IP sau mỗi 10-20 yêu cầu (hoặc mỗi 2-5 phút)
- Thời gian chờ giữa các yêu cầu: 3-8 giây (giả lập người dùng)
- Khoảng thời gian chờ ngẫu nhiên (không cố định!): ví dụ, từ 3 đến 7 giây
Bước 4. Kết nối proxy trong Octoparse (ví dụ)
Mở Octoparse → vào cài đặt nhiệm vụ → tìm phần "Cài đặt Proxy" → chọn "Proxy tùy chỉnh" → dán danh sách proxy theo định dạng IP:cổng:tên đăng nhập:mật khẩu (mỗi proxy trên một dòng mới) → chọn chế độ luân phiên "Ngẫu nhiên" hoặc "Tuần tự" → lưu cài đặt và khởi động nhiệm vụ.
Bước 5. Cấu hình User-Agent và tiêu đề
Proxy thay đổi IP, nhưng không làm cho trình thu thập dữ liệu của bạn giống như một trình duyệt. Cần cấu hình thêm User-Agent thực tế - chuỗi mà trình duyệt gửi đến máy chủ. Ví dụ về User-Agent hiện tại cho Chrome trên Windows: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36. Hầu hết các trình thu thập dữ liệu trực quan cho phép bạn đặt User-Agent trong cài đặt.
Bước 6. Thử nghiệm với khối lượng nhỏ
Trước khi khởi động việc thu thập dữ liệu đầy đủ, hãy thực hiện một bài kiểm tra: thu thập dữ liệu từ 20-30 quảng cáo và kiểm tra xem có lỗi, chặn hoặc captcha nào không. Nếu mọi thứ diễn ra suôn sẻ - hãy mở rộng quy mô. Nếu xuất hiện captcha - hãy tăng thời gian chờ giữa các yêu cầu hoặc giảm số lượng yêu cầu từ một IP.
Những lỗi thường gặp khiến IP bị chặn khi thu thập dữ liệu từ Avito
Ngay cả với các proxy tốt, bạn vẫn có thể bị chặn nếu mắc phải những lỗi điển hình. Đây là những gì thường dẫn đến việc bị cấm:
Lỗi 1: Yêu cầu quá thường xuyên
Vấn đề phổ biến nhất là mong muốn thu thập tất cả ngay lập tức. Nếu bạn thực hiện yêu cầu mỗi giây hoặc nhanh hơn, hệ thống sẽ nhận thấy ngay cả khi có luân phiên proxy. Avito phân tích không chỉ tần suất từ một IP mà còn cả tải tổng thể từ các mẫu tương tự. Giải pháp: thời gian chờ 3-10 giây giữa các yêu cầu, khoảng thời gian ngẫu nhiên.
Lỗi 2: Sử dụng proxy nước ngoài
Proxy từ Đức, Mỹ hoặc Hà Lan sẽ ngay lập tức gây cờ đỏ. Avito là dịch vụ địa phương, và người dùng từ nước ngoài rất hiếm. Luôn sử dụng IP của Nga. Nếu cần khu vực cụ thể để có dữ liệu chính xác - hãy chọn proxy có vị trí địa lý của thành phố đó.
Lỗi 3: Một proxy cho toàn bộ việc thu thập dữ liệu
Một số người tiết kiệm và chỉ sử dụng một địa chỉ proxy. Điều này chỉ hoạt động khi yêu cầu rất hiếm. Đối với việc theo dõi thường xuyên, cần một nhóm từ 10-50+ IP với luân phiên. Khối lượng dữ liệu càng lớn - càng cần nhiều địa chỉ.
Lỗi 4: Bỏ qua cookies và phiên làm việc
Người dùng thực khi truy cập Avito nhận được cookies, được lưu giữa các phiên làm việc. Trình thu thập dữ liệu không có cookies trong mỗi yêu cầu sẽ giống như một "người dùng mới" - điều này tự nó đã đáng nghi. Hãy cấu hình việc lưu trữ và truyền cookies trong trình thu thập dữ liệu của bạn.
Lỗi 5: Thu thập dữ liệu mà không có render JavaScript
Avito tải một phần nội dung qua JavaScript. Các trình thu thập dữ liệu HTTP đơn giản không render JS sẽ nhận được trang trống hoặc dữ liệu không đầy đủ. Hãy sử dụng các công cụ hỗ trợ render trình duyệt (Selenium, Playwright, Puppeteer) hoặc các trình thu thập dữ liệu trực quan như Octoparse và ParseHub.
Lỗi 6: Thu thập dữ liệu trong "giờ làm việc" với tải tối đa
Avito tăng cường giám sát trong giờ cao điểm - từ 10:00 đến 22:00. Một số chuyên gia khởi động việc thu thập dữ liệu cường độ cao vào ban đêm (từ 1:00 đến 7:00), khi bảo vệ hoạt động ở chế độ nhẹ hơn. Đây không phải là đảm bảo, nhưng giảm rủi ro khi có khối lượng lớn.
Danh sách kiểm tra: thu thập dữ liệu từ Avito mà không bị chặn
Sử dụng danh sách kiểm tra này trước mỗi lần khởi động thu thập dữ liệu để giảm thiểu rủi ro bị chặn:
✅ Cài đặt kỹ thuật
- Proxy - dân cư hoặc di động (không phải trung tâm dữ liệu)
- Vị trí địa lý của proxy - Nga (khu vực cần thiết)
- Nhóm IP - tối thiểu 10 địa chỉ để luân phiên
- Luân phiên IP - mỗi 10-20 yêu cầu
- Thời gian chờ giữa các yêu cầu - 3-10 giây (khoảng thời gian ngẫu nhiên)
- User-Agent - Chrome hoặc Firefox hiện tại
- Render JavaScript - đã bật
- Cookies - được lưu và truyền
✅ Chiến lược thu thập dữ liệu
- Bắt đầu với một lần chạy thử trên 20-30 quảng cáo
- Không thu thập cùng một trang thường xuyên hơn mức cần thiết
- Đối với việc theo dõi thường xuyên (mỗi 5-10 phút) - hãy sử dụng proxy di động
- Đối với việc thu thập thông tin liên lạc - một nhóm IP riêng với tải tối thiểu
- Ghi lại lỗi: mã 403, 429, sự xuất hiện của captcha - tín hiệu để giảm tải
- Cập nhật proxy mỗi 2-4 tuần hoặc khi số lượng chặn tăng lên
✅ Công cụ
- Đối với việc thu thập dữ liệu không cần mã: Octoparse, ParseHub
- Đối với việc làm việc với tài khoản Avito: trình duyệt chống phát hiện (AdsPower, Dolphin Anty) + proxy
- Đối với việc theo dõi các quảng cáo cụ thể: bot Telegram hoặc các dịch vụ chuyên dụng
- Đối với việc kiểm tra proxy trước khi sử dụng: dịch vụ kiểm tra IP (ipinfo.io, whoer.net)
Kết luận
Việc thu thập dữ liệu từ Avito là một nhiệm vụ khả thi, nhưng cần có cách tiếp cận đúng đắn. Quy tắc chính: đừng tiết kiệm cho proxy. IP từ trung tâm dữ liệu cho Avito sẽ dẫn đến việc bị chặn liên tục và lãng phí thời gian. Proxy dân cư và di động với vị trí địa lý của Nga mang lại kết quả ổn định khi tuân thủ các quy tắc cơ bản: luân phiên IP, thời gian chờ giữa các yêu cầu, tiêu đề trình duyệt thực tế.
Đối với hầu hết các nhiệm vụ - theo dõi giá bất động sản, thu thập quảng cáo ô tô, phân tích cạnh tranh - proxy dân cư với IP của Nga và luân phiên là đủ. Nếu bạn làm việc với tài khoản Avito hoặc thu thập dữ liệu rất thường xuyên - hãy xem xét proxy di động từ các nhà mạng MTS, Beeline hoặc MegaFon: chúng có rủi ro bị chặn tối thiểu ngay cả khi tải cao.
Hãy cấu hình mọi thứ một lần theo danh sách kiểm tra trong bài viết này - và việc thu thập dữ liệu sẽ hoạt động ổn định mà không cần can thiệp liên tục từ phía bạn.