Quay lại blog

Lỗi "Quá Nhiều Yêu Cầu" 429: Cách Vượt Qua Giới Hạn Qua Proxy và Xoay Vòng IP

Phân tích nguyên nhân lỗi 429 Too Many Requests và giới thiệu 5 cách vượt qua giới hạn thông qua proxy: từ xoay vòng IP đến cấu hình User-Agent và thời gian chờ giữa các yêu cầu.

📅31 tháng 12, 2025
```html

Nếu bạn đang làm việc với việc phân tích các thị trường trực tuyến, giám sát giá cả của đối thủ hoặc tự động hóa công việc với mạng xã hội, chắc chắn bạn đã gặp phải lỗi 429 Too Many Requests. Trang web chặn các yêu cầu của bạn vì cho rằng chúng đáng ngờ, và toàn bộ quá trình tự động hóa bị dừng lại. Trong bài viết này, chúng ta sẽ phân tích lý do tại sao vấn đề này xảy ra và cách giải quyết nó thông qua việc thiết lập proxy đúng cách, xoay vòng IP và phân phối tải hợp lý.

Chúng tôi sẽ cung cấp các giải pháp cụ thể cho các nhiệm vụ khác nhau: phân tích Wildberries và Ozon, giám sát đối thủ, làm việc với API của mạng xã hội, thu thập dữ liệu hàng loạt. Tất cả các khuyến nghị đều dựa trên kinh nghiệm thực tiễn và hoạt động trong các dự án thực tế.

Lỗi 429 Too Many Requests là gì và tại sao nó xảy ra

Lỗi 429 Too Many Requests là mã phản hồi HTTP mà máy chủ trả về khi bạn vượt quá số lượng yêu cầu cho phép trong một khoảng thời gian nhất định. Đây là cơ chế bảo vệ của các trang web chống lại việc quá tải và thu thập dữ liệu tự động.

Các tình huống điển hình khi xảy ra lỗi 429:

  • Phân tích thị trường - bạn thu thập giá từ Wildberries, Ozon hoặc Avito, thực hiện hàng trăm yêu cầu mỗi phút. Trang web thấy hoạt động bất thường từ một IP và chặn nó.
  • Giám sát đối thủ - thu thập dữ liệu tự động về sản phẩm, giá cả, tình trạng hàng hóa. Khi kiểm tra thường xuyên, giới hạn sẽ bị kích hoạt.
  • Làm việc với API - nhiều API có giới hạn nghiêm ngặt: ví dụ, Instagram API cho phép 200 yêu cầu mỗi giờ, Twitter - 300 yêu cầu trong 15 phút.
  • Đăng ký hàng loạt hoặc hành động - tạo tài khoản, gửi tin nhắn, thích. Các nền tảng nhanh chóng xác định tự động hóa và chặn IP.

Quan trọng là hiểu rằng: lỗi 429 không chỉ là một giới hạn kỹ thuật. Đây là tín hiệu rằng trang web đã nhận ra hoạt động của bạn là đáng ngờ. Nếu tiếp tục tấn công từ cùng một IP, bạn có thể bị cấm vĩnh viễn.

Quan trọng: Một số trang web thay vì trả về 429 sẽ trả về 403 Forbidden hoặc chỉ đơn giản là hiển thị captcha. Cốt lõi vẫn là - bạn đã vượt quá giới hạn và bị chặn.

Các trang web xác định hoạt động đáng ngờ như thế nào

Để vượt qua các chặn hiệu quả, cần hiểu cách mà các trang web xác định bạn. Các hệ thống bảo vệ hiện đại phân tích nhiều tham số:

1. Địa chỉ IP và tần suất yêu cầu

Tham số rõ ràng nhất. Nếu từ một IP có 100 yêu cầu mỗi phút, trong khi người dùng bình thường chỉ thực hiện 5-10 yêu cầu - đây là tự động hóa rõ ràng. Các trang web thiết lập giới hạn:

  • Wildberries: khoảng 60 yêu cầu mỗi phút từ một IP
  • Ozon: khoảng 30-40 yêu cầu mỗi phút
  • Avito: giới hạn nghiêm ngặt, đặc biệt đối với các yêu cầu tìm kiếm
  • Instagram API: 200 yêu cầu mỗi giờ cho mỗi ứng dụng

2. User-Agent và tiêu đề trình duyệt

Nếu bạn gửi yêu cầu qua script mà không có User-Agent đúng, trang web ngay lập tức nhận ra rằng đây không phải là trình duyệt thực. Các tiêu đề cũng được phân tích: Accept, Accept-Language, Referer. Việc thiếu các tiêu đề này hoặc giá trị không điển hình - là dấu hiệu đỏ.

3. Mô hình hành vi

Người dùng thực tế không thực hiện yêu cầu với tần suất hoàn hảo mỗi 2 giây. Họ cuộn, nhấp, nghỉ ngơi. Nếu parser của bạn hoạt động như một chiếc mét - điều đó rất đáng ngờ.

4. Loại địa chỉ IP

Nhiều nền tảng duy trì danh sách đen các IP từ trung tâm dữ liệu. Nếu bạn sử dụng proxy rẻ tiền từ AWS hoặc Google Cloud, khả năng bị chặn cao hơn. Các IP cư trú từ các nhà cung cấp thực tế ít gây nghi ngờ hơn.

Xoay vòng proxy: cách chính để vượt qua giới hạn

Giải pháp chính cho vấn đề 429 là xô vòng địa chỉ IP. Thay vì thực hiện tất cả các yêu cầu từ một IP, bạn phân phối tải giữa nhiều địa chỉ. Mỗi IP thực hiện một số lượng yêu cầu nhỏ và không vượt quá giới hạn.

Các loại xoay vòng proxy

Loại xoay vòng Cách hoạt động Khi nào sử dụng
Xoay vòng theo yêu cầu Mỗi yêu cầu đến từ một IP mới. Nhà cung cấp proxy tự động thay đổi địa chỉ. Phân tích hàng loạt, khi cần thu thập nhiều dữ liệu nhanh chóng
Xoay vòng theo thời gian IP thay đổi mỗi 5-30 phút. Bạn sử dụng một địa chỉ cho một loạt yêu cầu. Làm việc với các trang web yêu cầu phiên (giỏ hàng, xác thực)
Bể proxy tĩnh Bạn có danh sách từ 100-1000 IP. Script tự chọn một địa chỉ ngẫu nhiên cho mỗi yêu cầu. Khi cần kiểm soát hoàn toàn việc xoay vòng và phân phối tải

Ví dụ thực tế: phân tích Wildberries

Giả sử bạn cần phân tích giá của 10.000 sản phẩm. Wildberries chặn sau 60 yêu cầu mỗi phút từ một IP. Cách giải quyết:

  1. Sử dụng xoay vòng theo yêu cầu - mỗi yêu cầu đến từ một IP mới. Bạn cần khoảng 167 IP khác nhau (10.000 yêu cầu / 60 mỗi phút = 167 phút với một IP, nhưng với xoay vòng bạn làm điều này trong 10-15 phút).
  2. Thiết lập độ trễ - ngay cả với xoay vòng, không nên thực hiện 1000 yêu cầu mỗi giây. Tối ưu: 5-10 yêu cầu mỗi giây với các IP khác nhau.
  3. Thêm ngẫu nhiên hóa - độ trễ nên là ngẫu nhiên: từ 0.5 đến 2 giây giữa các yêu cầu.

Đối với những nhiệm vụ như vậy, proxy cư trú với xoay vòng tự động là lựa chọn hoàn hảo - chúng có bể từ hàng triệu IP và thay đổi địa chỉ cho mỗi yêu cầu mà không cần sự tham gia của bạn.

Thiết lập độ trễ giữa các yêu cầu

Ngay cả với xoay vòng proxy, không thể tấn công trang web bằng các yêu cầu với tốc độ tối đa. Các hệ thống bảo vệ hiện đại phân tích tổng tải trên máy chủ và có thể chặn toàn bộ dải IP nếu thấy hoạt động giống như DDoS.

Quy tắc thiết lập độ trễ

Quy tắc cơ bản: giả lập người dùng thực

  • Độ trễ tối thiểu: 0.5-1 giây giữa các yêu cầu
  • Khuyến nghị: 1-3 giây với sự phân tán ngẫu nhiên
  • Đối với các trang web phức tạp (thị trường, mạng xã hội): 2-5 giây
  • Sử dụng độ trễ theo cấp số nhân khi gặp lỗi

Độ trễ theo cấp số nhân (exponential backoff)

Nếu bạn vẫn nhận được lỗi 429, đừng tiếp tục tấn công trang web. Sử dụng chiến lược độ trễ theo cấp số nhân:

  • Cố gắng đầu tiên không thành công → chờ 1 giây
  • Cố gắng thứ hai không thành công → chờ 2 giây
  • Cố gắng thứ ba không thành công → chờ 4 giây
  • Cố gắng thứ tư không thành công → chờ 8 giây
  • Và cứ tiếp tục như vậy, cho đến khi đạt tối đa (ví dụ, 60 giây)

Chiến lược này cho phép máy chủ có thời gian "nguội" và giảm khả năng bị cấm vĩnh viễn. Nhiều API (Google, Twitter) khuyến nghị chính xác cách tiếp cận này trong tài liệu của họ.

Ví dụ thiết lập cho các nhiệm vụ khác nhau

Nhiệm vụ Độ trễ giữa các yêu cầu Ghi chú
Phân tích Wildberries 1-3 giây Với xoay vòng proxy có thể tăng tốc lên 0.5-1 giây
Phân tích Ozon 2-4 giây Ozon nhạy cảm hơn với tự động hóa
Instagram API 18 giây Giới hạn 200 yêu cầu/giờ = 1 yêu cầu mỗi 18 giây
Phân tích Google Search 5-10 giây Google nhanh chóng chặn, cần thời gian nghỉ dài
Giám sát Avito 3-6 giây Bảo vệ nghiêm ngặt, đặc biệt đối với tìm kiếm

User-Agent và tiêu đề: giả lập trình duyệt thực tế

Xoay vòng proxy và độ trễ giải quyết vấn đề tần suất yêu cầu, nhưng điều đó chưa đủ. Các trang web phân tích cách bạn gửi yêu cầu như thế nào. Nếu các tiêu đề trông đáng ngờ - việc chặn là không thể tránh khỏi.

Các tiêu đề bắt buộc để giả lập trình duyệt

Bộ tiêu đề tối thiểu mà mỗi yêu cầu cần có:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: vi-VN,vi;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Cache-Control: max-age=0

Xoay vòng User-Agent

Không sử dụng cùng một User-Agent cho tất cả các yêu cầu. Tạo danh sách từ 10-20 phiên bản trình duyệt hiện tại và thay đổi chúng một cách ngẫu nhiên:

  • Chrome (Windows, macOS, Linux)
  • Firefox (các phiên bản khác nhau)
  • Safari (macOS, iOS)
  • Edge (Windows)

Lỗi thường gặp: Sử dụng User-Agent lỗi thời (ví dụ, Chrome 90 vào năm 2024) hoặc User-Agent di động cho các trang web máy tính để bàn. Điều này ngay lập tức cho thấy sự tự động hóa.

Referer và Origin

Nhiều trang web kiểm tra nguồn gốc của yêu cầu. Nếu bạn phân tích trang sản phẩm, trong tiêu đề Referer phải có liên kết đến danh mục hoặc tìm kiếm. Nếu phân tích API - phải có Origin đúng.

Ví dụ cho việc phân tích Wildberries:

Referer: https://www.wildberries.ru/catalog/0/search.aspx?search=laptop
Origin: https://www.wildberries.ru

Chọn loại proxy nào để vượt qua 429

Việc chọn loại proxy là rất quan trọng. Các proxy giá rẻ từ trung tâm dữ liệu thường đã nằm trong danh sách đen, và bạn sẽ nhận được 429 ngay cả khi tần suất yêu cầu thấp.

So sánh các loại proxy để vượt qua giới hạn

Loại proxy Ưu điểm Nhược điểm Dành cho nhiệm vụ nào
Trung tâm dữ liệu Tốc độ cao, giá thấp Thường bị chặn, dễ bị phát hiện Các trang web đơn giản không có bảo vệ
Cư trú IP thực từ các nhà cung cấp, khó phát hiện, bể địa chỉ lớn Đắt hơn, đôi khi chậm hơn Thị trường, mạng xã hội, các trang web phức tạp
Di động IP của các nhà mạng di động, độ tin cậy tối đa Đắt, bể hạn chế Instagram, TikTok, Facebook Ads

Khuyến nghị khi chọn

Đối với việc phân tích thị trường (Wildberries, Ozon, Avito): Sử dụng proxy cư trú với xoay vòng theo yêu cầu. Bể phải lớn - tối thiểu 10.000 IP. Điều này đảm bảo rằng mỗi IP thực hiện ít yêu cầu và không bị vượt quá giới hạn.

Đối với làm việc với API của mạng xã hội: Proxy di động là lựa chọn tối ưu. Instagram và TikTok tin tưởng IP của các nhà mạng di động hơn là proxy cư trú. Một IP di động có thể phục vụ 5-10 tài khoản mà không gặp vấn đề gì.

Đối với giám sát giá cả của đối thủ: Proxy cư trú với xoay vòng theo thời gian (mỗi 10-15 phút). Điều này cho phép thực hiện một loạt yêu cầu từ một IP, giữ phiên nhưng không vượt quá giới hạn.

Đối với các nhiệm vụ đơn giản (phân tích tin tức, blog): Proxy từ trung tâm dữ liệu có thể phù hợp nếu trang web không có bảo vệ nghiêm trọng. Nhưng hãy chuẩn bị cho việc bị chặn định kỳ.

Các trường hợp thực tế: phân tích thị trường và API

Trường hợp 1: Giám sát giá trên Wildberries (10.000 sản phẩm hàng ngày)

Nhiệm vụ: Người bán trên thị trường theo dõi giá của đối thủ trên 10.000 sản phẩm. Cần thu thập dữ liệu 2 lần mỗi ngày.

Vấn đề: Khi sử dụng một IP, bị chặn sau 50-60 yêu cầu. Việc phân tích 10.000 sản phẩm mất vài giờ với các chặn liên tục.

Giải pháp:

  1. Kết nối proxy cư trú với bể 50.000 IP và xoay vòng theo yêu cầu
  2. Thiết lập độ trễ ngẫu nhiên từ 0.5 đến 2 giây giữa các yêu cầu
  3. Thêm xoay vòng User-Agent (20 phiên bản Chrome và Firefox)
  4. Thiết lập các tiêu đề Referer và Accept đúng cách

Kết quả: Phân tích 10.000 sản phẩm mất 15-20 phút mà không bị chặn. Mỗi IP thực hiện tối đa 1-2 yêu cầu, điều này không thể bị phát hiện là tự động hóa.

Trường hợp 2: Tự động hóa Instagram (50 tài khoản khách hàng)

Nhiệm vụ: Một công ty SMM quản lý 50 tài khoản khách hàng trên Instagram. Cần đăng nội dung, trả lời bình luận, thu thập thống kê.

Vấn đề: Instagram API có giới hạn 200 yêu cầu mỗi giờ cho mỗi ứng dụng. Khi làm việc với 50 tài khoản, giới hạn sẽ hết sau 10 phút.

Giải pháp:

  1. Tạo 10 ứng dụng Instagram API khác nhau (mỗi ứng dụng 5 tài khoản)
  2. Mỗi ứng dụng sử dụng một proxy di động riêng
  3. Thiết lập độ trễ 18 giây giữa các yêu cầu (200 yêu cầu/giờ = 1 yêu cầu mỗi 18 giây)
  4. Thêm độ trễ theo cấp số nhân khi nhận được 429

Kết quả: Tất cả 50 tài khoản hoạt động ổn định. Lỗi 429 xảy ra rất hiếm (1-2 lần mỗi tuần) và được xử lý tự động qua các lần thử lại.

Trường hợp 3: Phân tích Avito (tin đăng trên toàn nước Nga)

Nhiệm vụ: Một trang tổng hợp bất động sản thu thập tin đăng từ Avito trên tất cả các thành phố của Nga cho cơ sở dữ liệu của mình.

Vấn đề: Avito có một trong những hệ thống bảo vệ nghiêm ngặt nhất trong số các trang web của Nga. Các chặn bắt đầu xảy ra sau 10-15 yêu cầu ngay cả từ các IP trung tâm dữ liệu khác nhau.

Giải pháp:

  1. Chuyển sang proxy cư trú với định vị địa lý (IP từ cùng thành phố với phân tích)
  2. Tăng độ trễ lên 3-5 giây giữa các yêu cầu
  3. Sử dụng trình duyệt headless (Puppeteer) thay vì các yêu cầu HTTP đơn giản
  4. Mô phỏng hành động của người dùng: cuộn, nhấp, di chuyển chuột

Kết quả: Phân tích thành công hơn 50.000 tin đăng mỗi ngày. Các chặn giảm xuống 95%. 5% còn lại được xử lý qua các lần thử lại với IP mới.

Trường hợp 4: Giám sát API của đối thủ (thương mại điện tử)

Nhiệm vụ: Một cửa hàng trực tuyến theo dõi tình trạng hàng hóa và giá cả của 20 đối thủ thông qua API của họ.

Vấn đề: Hầu hết các API của đối thủ có giới hạn công khai (100-500 yêu cầu mỗi giờ). Khi vượt quá, sẽ trả về 429.

Giải pháp:

  1. Tạo hàng đợi yêu cầu với các ưu tiên (các sản phẩm quan trọng nhất được kiểm tra thường xuyên hơn)
  2. Theo dõi giới hạn qua các tiêu đề phản hồi (X-RateLimit-Remaining)
  3. Tự động tạm dừng khi đạt 80% giới hạn
  4. Sử dụng nhiều khóa API cho mỗi đối thủ (nơi có thể)

Kết quả: Hệ thống tự động phân phối yêu cầu để không bao giờ vượt quá giới hạn. Dữ liệu được cập nhật với tần suất tối đa có thể mà không bị chặn.

Bài học chung từ tất cả các trường hợp:

Lỗi 429 được giải quyết một cách toàn diện: xoay vòng proxy + độ trễ đúng cách + giả lập hành vi thực tế. Không thể chỉ dựa vào một phương pháp. Ngay cả với một triệu IP, bạn sẽ bị chặn nếu thực hiện 1000 yêu cầu mỗi giây với các tiêu đề đáng ngờ.

Kết luận

Lỗi 429 Too Many Requests là cơ chế bảo vệ của các trang web, có thể vượt qua nếu có cách tiếp cận đúng đắn. Các nguyên tắc chính để giải quyết vấn đề:

  • Xoay vòng địa chỉ IP - phân phối tải giữa nhiều proxy, để mỗi địa chỉ thực hiện tối thiểu yêu cầu
  • Độ trễ đúng cách - giả lập người dùng thực với các khoảng nghỉ ngẫu nhiên từ 1 đến 5 giây
  • Các tiêu đề chính xác - sử dụng User-Agent hiện tại và bộ tiêu đề đầy đủ của trình duyệt
  • Chọn loại proxy - đối với các trang web phức tạp (thị trường, mạng xã hội) sử dụng proxy cư trú hoặc di động
  • Xử lý lỗi - áp dụng độ trễ theo cấp số nhân khi nhận được 429, không tấn công lại trang web

Hãy nhớ: mục tiêu không phải là lừa đảo bảo vệ bằng mọi giá, mà là làm cho tự động hóa của bạn trông tự nhiên nhất có thể. Các hệ thống bảo vệ hiện đại ngày càng thông minh hơn, và sức mạnh thô không còn hiệu quả.

Nếu bạn dự định làm việc với việc phân tích các thị trường trực tuyến, giám sát đối thủ hoặc tự động hóa trên mạng xã hội, chúng tôi khuyên bạn nên thử proxy cư trú - chúng cung cấp bể địa chỉ IP lớn, xoay vòng tự động và rủi ro bị chặn tối thiểu. Đối với việc làm việc với Instagram, TikTok và các nền tảng di động khác, proxy di động với IP của các nhà mạng thực là lựa chọn tốt hơn.

```