Quay lại blog

Proxy để vượt qua DataDome: cách hoạt động của bảo vệ và những gì thực sự giúp ích trong việc thu thập dữ liệu

DataDome chặn các trình phân tích và bot trên các trang web lớn - chúng tôi phân tích cách thức hoạt động của bảo vệ này và những proxy nào thực sự giúp vượt qua mà không bị chặn.

📅17 tháng 5, 2026
```html

Bạn đã thiết lập trình thu thập dữ liệu, khởi động việc thu thập dữ liệu - và sau vài phút bạn nhận được trang với captcha hoặc phản hồi trống. Có khả năng cao là trang web được bảo vệ bởi DataDome. Đây là một trong những hệ thống chống bot mạnh mẽ nhất trên thị trường, và các proxy từ trung tâm dữ liệu thông thường không giúp ích gì ở đây. Trong bài viết này, chúng ta sẽ phân tích cách mà DataDome phát hiện bot và các loại proxy nào mang lại kết quả.

DataDome là gì và nó được áp dụng ở đâu

DataDome là một nền tảng bảo vệ chống bot SaaS thương mại, được sử dụng bởi các cửa hàng trực tuyến lớn, cổng thông tin tin tức, thị trường và dịch vụ đặt chỗ trên toàn thế giới. Công ty được thành lập vào năm 2015 và hiện đang bảo vệ hàng ngàn trang web với tổng số lượng truy cập lên đến hàng tỷ yêu cầu mỗi ngày.

Trong số các khách hàng của DataDome có các nền tảng như Reddit, Foot Locker, Rakuten, AngelList và nhiều tài nguyên lớn khác. Nếu bạn đang theo dõi giá của đối thủ, thu thập dữ liệu từ các thẻ sản phẩm, thu thập dữ liệu từ các thị trường nước ngoài hoặc tổng hợp tin tức - có khả năng cao là bạn đã gặp phải hệ thống này.

Những dấu hiệu đặc trưng cho thấy trang web được bảo vệ bởi DataDome:

  • Trang với captcha xuất hiện sau vài yêu cầu liên tiếp
  • Trong phản hồi của máy chủ có tiêu đề x-datadome-cid
  • Chuyển hướng đến miền geo.captcha-delivery.com
  • Phản hồi HTTP 403 hoặc 429 khi có nhiều yêu cầu từ một IP
  • Thử thách JavaScript khi lần đầu truy cập (trang "kiểm tra trình duyệt")

DataDome hoạt động theo thời gian thực: mỗi yêu cầu đến được phân tích trong vài mili giây. Hệ thống quyết định - cho phép người dùng, hiển thị captcha hoặc chặn - ngay cả trước khi máy chủ gửi nội dung chính của trang. Chính vì vậy, việc vượt qua nó khó hơn so với các chặn IP đơn giản.

DataDome xác định bot như thế nào: cơ chế bảo vệ

Để hiểu được các proxy nào hoạt động, cần tìm hiểu DataDome phân tích điều gì. Hệ thống sử dụng phương pháp đa cấp - không có yếu tố nào là tiêu chí duy nhất để chặn. Quyết định được đưa ra dựa trên tổng hợp các tín hiệu.

1. Danh tiếng của địa chỉ IP

Điều đầu tiên mà DataDome kiểm tra là danh tiếng của địa chỉ IP dựa trên các cơ sở dữ liệu bên ngoài và nội bộ. Hệ thống ngay lập tức xác định xem IP thuộc về trung tâm dữ liệu (AWS, Google Cloud, Hetzner, DigitalOcean), nhà cung cấp VPN hay là địa chỉ thực tế từ nhà riêng/di động. IP từ trung tâm dữ liệu tự động nhận được "điểm nghi ngờ" cao ngay cả trước khi phân tích hành vi.

2. Phân tích hành vi

DataDome theo dõi các mẫu hành vi: tốc độ yêu cầu, thứ tự truy cập các trang, thời gian giữa các cú nhấp chuột, chuyển động chuột (nếu có JavaScript). Người dùng thực tế thường có những khoảng dừng, chuyển đến các lộ trình hợp lý, đôi khi quay lại. Bot thường thực hiện các yêu cầu với khoảng thời gian cố định, theo các URL nhất định, không có sự "ngẫu nhiên".

3. JavaScript-fingerprint

Nếu yêu cầu đi qua trình duyệt (hoặc trình duyệt headless như Puppeteer/Playwright), DataDome sẽ chạy một kịch bản JavaScript, thu thập "dấu vân tay" của môi trường: phiên bản trình duyệt, phông chữ đã cài đặt, độ phân giải màn hình, hỗ trợ WebGL, fingerprint canvas, sự hiện diện của các plugin. Các trình duyệt headless mà không có sự che giấu bổ sung dễ dàng bị phát hiện qua các tham số đặc trưng.

4. Tiêu đề HTTP

Các tiêu đề của yêu cầu được phân tích: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua và các tiêu đề khác. Sự không phù hợp giữa User-Agent được tuyên bố và các tham số thực tế của yêu cầu là một tín hiệu mạnh mẽ của bot.

5. Machine Learning theo thời gian thực

Tất cả các tín hiệu thu thập được đều được xử lý bởi mô hình ML, được đào tạo trên một khối lượng lớn dữ liệu về người dùng thực và bot. Mô hình này liên tục được cập nhật - những gì hoạt động cách đây một tháng có thể không còn hiệu quả hôm nay. Chính vì vậy, các giải pháp tĩnh nhanh chóng trở nên lỗi thời.

Tại sao proxy từ trung tâm dữ liệu không hoạt động chống lại DataDome

Đây là câu hỏi thường gặp nhất từ những người mới bắt đầu làm việc với các trang web được bảo vệ. Proxy từ trung tâm dữ liệu - rẻ, nhanh và có thời gian hoạt động cao. Có vẻ như là lựa chọn lý tưởng cho việc thu thập dữ liệu. Nhưng chống lại DataDome, chúng gần như vô dụng.

Lý do rất đơn giản: DataDome duy trì và sử dụng cơ sở dữ liệu ASN (hệ thống tự trị) của tất cả các nhà cung cấp dịch vụ lưu trữ lớn. Khi một yêu cầu đến từ địa chỉ IP thuộc về, ví dụ, một subnet của Amazon Web Services hoặc OVH, hệ thống ngay lập tức gán cho nó trạng thái "nghi ngờ". Ngay cả khi trình thu thập dữ liệu của bạn mô phỏng hoàn hảo hành vi của con người - IP từ trung tâm dữ liệu đã đặt bạn vào tình huống nguy hiểm.

⚠️ Quan trọng cần hiểu

Proxy từ trung tâm dữ liệu rất phù hợp cho các nhiệm vụ mà bảo vệ yếu hoặc không tồn tại: thu thập dữ liệu công khai, làm việc với API không có hệ thống chống bot, kiểm tra tốc độ. Nhưng đối với các trang web có DataDome, chúng sẽ bị chặn trong 90%+ trường hợp ngay từ những yêu cầu đầu tiên.

Một vấn đề khác là các IP đã bị "đốt cháy". Nếu hàng ngàn người dùng trước đó đã sử dụng cùng một địa chỉ IP cho hoạt động bot (và trong các pool của trung tâm dữ liệu rẻ tiền, điều này là bình thường), DataDome đã có lịch sử tiêu cực về địa chỉ đó. Ngay cả yêu cầu đầu tiên từ một IP như vậy cũng có thể bị chặn.

Proxy dân cư: công cụ chính để vượt qua DataDome

Proxy dân cư là các địa chỉ IP thuộc về những người dùng internet thực tế. Chúng được cấp phát bởi các nhà cung cấp dịch vụ internet (Rostelecom, Comcast, Deutsche Telekom, v.v.) và từ quan điểm của DataDome, chúng trông giống như những người bình thường đang ngồi ở nhà trước máy tính.

Chính vì vậy, proxy dân cư là công cụ làm việc chính để thu thập dữ liệu từ các trang web có DataDome. Chúng vượt qua kiểm tra ban đầu về danh tiếng IP, điều này mang lại cho bạn "tín dụng tin cậy" để tiếp tục làm việc.

Những điều cần lưu ý khi chọn proxy dân cư cho DataDome

Tham số Điều gì quan trọng Tại sao điều này lại quan trọng
Loại xoay vòng Xoay vòng cho mỗi yêu cầu hoặc phiên 5-30 phút DataDome theo dõi lịch sử IP - việc thay đổi quá thường xuyên cũng đáng nghi ngờ
Địa lý IP từ quốc gia của trang web mục tiêu Yêu cầu từ quốc gia khác - tín hiệu nghi ngờ bổ sung
Kích thước pool Hàng triệu IP, không phải hàng ngàn Pool nhỏ nhanh chóng bị "đốt cháy" - DataDome ghi nhớ các địa chỉ hoạt động
Phiên sticky Khả năng giữ một IP trong 10-30 phút Đối với việc thu thập dữ liệu nhiều trang, một phiên phải trông giống như một người dùng
Tốc độ Không dưới 5-10 Mbps cho mỗi kết nối Proxy chậm làm tăng thời gian yêu cầu, điều này ảnh hưởng đến thời gian

Một điểm quan trọng: proxy dân cư không đảm bảo 100% vượt qua DataDome chỉ bằng chính chúng. Chúng giải quyết vấn đề danh tiếng IP, nhưng nếu trình thu thập dữ liệu của bạn thực hiện 100 yêu cầu mỗi phút từ một địa chỉ hoặc gửi tiêu đề sai - DataDome vẫn sẽ chặn. IP chỉ là một trong những cấp độ bảo vệ.

Proxy di động: khi nào cần độ tin cậy tối đa

Proxy di động là các địa chỉ IP của các nhà mạng di động (mạng 4G/5G). Chúng có một đặc điểm đặc biệt: một địa chỉ IP của nhà mạng di động có thể được sử dụng bởi hàng ngàn người dùng thực tế cùng một lúc thông qua NAT. DataDome biết điều này - và vì vậy nó xem xét các IP di động với độ tin cậy tối đa.

Việc chặn một IP di động có nghĩa là chặn hàng ngàn khách hàng thực tế của nhà mạng - không trang web nào bình thường sẽ làm điều đó. Chính vì vậy, proxy di động mang lại tỷ lệ yêu cầu thành công cao nhất đối với các trang web có DataDome.

Khi nào nên chọn proxy di động thay vì proxy dân cư:

  • Trang web được bảo vệ rất mạnh mẽ - proxy dân cư bị chặn ngay cả khi tần suất yêu cầu thấp
  • Bạn đang thu thập dữ liệu từ phiên bản di động của trang web - IP di động + User-Agent di động trông tự nhiên
  • Cần làm việc với các ứng dụng - nếu bạn thu thập dữ liệu từ API di động, IP di động hợp lý với yêu cầu
  • Phiên dài hạn - proxy di động giữ phiên tốt mà không cần thay đổi IP

Nhược điểm của proxy di động là chúng đắt hơn proxy dân cư và thường có pool IP nhỏ hơn. Đối với việc thu thập dữ liệu quy mô lớn với hàng ngàn yêu cầu mỗi giờ, điều này có thể trở thành một hạn chế. Trong những trường hợp như vậy, chiến lược tối ưu là sử dụng proxy di động cho "khảo sát" và các trang phức tạp, trong khi proxy dân cư cho việc thu thập dữ liệu hàng loạt.

Chiến lược xoay vòng và độ trễ: làm thế nào để không bị phát hiện ngay cả với proxy tốt

Ngay cả với proxy dân cư hoặc di động, bạn có thể bị chặn nếu không xây dựng chiến lược yêu cầu đúng cách. DataDome phân tích hành vi ở cấp độ phiên - và các mẫu bất thường gây nghi ngờ không phụ thuộc vào chất lượng IP.

Quy tắc thu thập dữ liệu an toàn qua DataDome

✅ Danh sách kiểm tra thu thập dữ liệu an toàn

  • Độ trễ giữa các yêu cầu: từ 3 đến 15 giây (ngẫu nhiên, không cố định)
  • Không quá 20-30 yêu cầu từ một IP trong một phiên
  • Phiên sticky: giữ một IP cho một "đường đi của người dùng"
  • Bắt đầu từ trang chính, sau đó chuyển đến các URL mục tiêu
  • Mô phỏng điều hướng thực tế: trang chính → danh mục → sản phẩm
  • Sử dụng địa lý của proxy phù hợp với ngôn ngữ của trang web
  • Thay đổi IP sau mỗi phiên hoặc sau khi bị chặn
  • Không khởi động các yêu cầu song song từ một IP

Xoay vòng: khi nào thay đổi IP

Ở đây không có câu trả lời chung - mọi thứ phụ thuộc vào trang web cụ thể. Nhưng logic chung là: DataDome ghi nhớ hoạt động của IP trong một khoảng thời gian trượt (thường là 10-60 phút). Nếu trong khoảng thời gian này từ một địa chỉ có quá nhiều yêu cầu nghi ngờ - IP sẽ nhận được lệnh cấm tạm thời.

Chiến lược tối ưu là xoay vòng IP không theo thời gian, mà theo số lượng yêu cầu. Ví dụ: 15-25 yêu cầu → thay đổi IP → tạm dừng 30-60 giây → phiên mới. Cách tiếp cận này mô phỏng hành vi của nhiều người dùng khác nhau, mỗi người đã truy cập một vài trang và rời đi.

Tiêu đề và fingerprint: DataDome kiểm tra điều gì khác ngoài IP

Proxy tốt là điều cần thiết, nhưng không đủ để vượt qua DataDome. Hệ thống phân tích toàn bộ yêu cầu. Nếu IP là dân cư, nhưng các tiêu đề lại cho thấy bot - việc chặn vẫn sẽ xảy ra.

Các tiêu đề quan trọng

Đây là những gì DataDome kiểm tra trong các tiêu đề HTTP và những gì cần chú ý:

Tiêu đề Điều gì được kiểm tra Lỗi điển hình
User-Agent Phiên bản trình duyệt hiện tại UA lỗi thời hoặc UA của thư viện Python
Accept-Language Ngôn ngữ trùng với địa lý của proxy Proxy từ Mỹ, nhưng ngôn ngữ là ru-RU
sec-ch-ua Phù hợp với User-Agent Thiếu tiêu đề khi đã tuyên bố là Chrome
Referer Chuỗi chuyển tiếp hợp lý Yêu cầu trực tiếp đến trang sâu mà không có Referer
Accept-Encoding Bộ tiêu chuẩn của trình duyệt Thiếu hoặc bộ không chuẩn
Cookie Lưu trữ cookie phiên của DataDome Bỏ qua Set-Cookie từ DataDome

Đặc biệt chú ý đến cookie của DataDome. Khi yêu cầu đầu tiên được gửi, hệ thống thiết lập cookie của mình (thường được gọi là datadome). Nếu trình thu thập dữ liệu của bạn không lưu và không gửi cookie này trong các yêu cầu tiếp theo - DataDome sẽ coi mỗi yêu cầu là lần đầu tiên của một người dùng mới, điều này tự nó đã đáng nghi ngờ khi tần suất cao.

TLS fingerprint

Bảo vệ tiên tiến của DataDome cũng phân tích TLS fingerprint - các đặc điểm của quá trình bắt tay SSL/TLS. Các thư viện HTTP khác nhau (requests, curl, axios) có các bộ cipher suites và mở rộng TLS đặc trưng, khác với các trình duyệt. Nếu bạn sử dụng thư viện Python tiêu chuẩn requests - fingerprint TLS của nó dễ dàng được xác định. Giải pháp là sử dụng các thư viện giả lập TLS của trình duyệt (ví dụ, curl-impersonate hoặc các giải pháp chuyên biệt).

Công cụ làm việc với các trang web DataDome

Lựa chọn công cụ thu thập dữ liệu đúng là không kém phần quan trọng so với việc chọn proxy. Các nhiệm vụ khác nhau yêu cầu các phương pháp khác nhau. Hãy xem xét các tùy chọn chính từ góc độ tương thích với DataDome.

Tự động hóa trình duyệt (Puppeteer, Playwright)

Các trình duyệt headless lý thuyết nên hoạt động tốt với DataDome, vì chúng thực thi JavaScript và tạo ra fingerprint "thực". Trong thực tế, Puppeteer hoặc Playwright tiêu chuẩn dễ dàng bị phát hiện qua các tham số đặc trưng: navigator.webdriver = true, thiếu plugin, các giá trị WebGL không chuẩn. Để vượt qua, cần có sự che giấu bổ sung thông qua các plugin như puppeteer-extra-plugin-stealth.

Trình duyệt chống phát hiện

Đối với các nhiệm vụ cần làm việc đầy đủ với trang web (không chỉ thu thập dữ liệu mà còn tương tác), trình duyệt chống phát hiện là lựa chọn tối ưu. Dolphin Anty, AdsPower, GoLoginMultilogin tạo ra các hồ sơ trình duyệt đầy đủ với fingerprint thực tế. Kết hợp với proxy dân cư hoặc di động, chúng mang lại mức độ vượt qua DataDome tối đa.

Sơ đồ kết nối trong trình duyệt chống phát hiện là tiêu chuẩn: tạo hồ sơ → trong cài đặt proxy chỉ định loại (HTTP/SOCKS5), host, cổng, tên đăng nhập và mật khẩu từ dịch vụ proxy → khởi động hồ sơ. Mỗi hồ sơ hoạt động trong một môi trường cách ly với fingerprint độc nhất.

Dịch vụ thu thập dữ liệu chuyên biệt

Có những dịch vụ sẵn có (ScrapingBee, Apify, Bright Data Scraping Browser), thực hiện toàn bộ công việc vượt qua các bảo vệ - bạn chỉ cần cung cấp URL và nhận HTML. Chúng sử dụng các pool proxy dân cư riêng và tự động giải quyết captcha. Nhược điểm - chi phí cao khi khối lượng lớn và kiểm soát quy trình ít hơn.

So sánh các phương pháp

Công cụ Hiệu quả chống lại DataDome Độ khó cài đặt Khả năng mở rộng
Trình thu thập dữ liệu HTTP + proxy dân cư Trung bình Thấp Cao
Puppeteer/Playwright + stealth + proxy Cao Trung bình Trung bình
Trình duyệt chống phát hiện + proxy di động Rất cao Thấp Thấp
Dịch vụ thu thập dữ liệu sẵn có Cao Rất thấp Cao (đắt)
Proxy từ trung tâm dữ liệu (bất kỳ công cụ nào) Rất thấp

Kịch bản thực tế: theo dõi giá trên trang web được bảo vệ

Giả sử bạn đang theo dõi giá của đối thủ trên một thị trường nước ngoài được bảo vệ bởi DataDome. Bạn cần thu thập dữ liệu cho 5000 sản phẩm mỗi 6 giờ. Đây là sơ đồ tối ưu:

  1. Công cụ: Playwright với plugin stealth (tự động giải quyết thử thách JS)
  2. Proxy: Dân cư với xoay vòng, địa lý - quốc gia của trang web mục tiêu
  3. Phiên: Sticky trong 15 phút, 20 yêu cầu cho mỗi IP
  4. Tiêu đề: User-Agent Chrome hiện tại, Accept-Language đúng
  5. Cookie: Lưu trữ và truyền cookie của DataDome giữa các yêu cầu trong cùng một phiên
  6. Độ trễ: Ngẫu nhiên từ 4 đến 12 giây giữa các yêu cầu
  7. Bắt đầu phiên: Luôn bắt đầu từ trang chính, sau đó chuyển đến các sản phẩm

Với cấu hình như vậy, tỷ lệ thành công của các yêu cầu đạt 85-95%, điều này hoàn toàn đủ cho việc theo dõi định kỳ. 5-15% còn lại - yêu cầu lại qua một IP khác.

Kết luận và khuyến nghị

DataDome là một hệ thống bảo vệ nghiêm ngặt, nhưng không phải là không thể vượt qua. Chìa khóa để làm việc thành công với các trang web dưới sự bảo vệ của nó là một cách tiếp cận toàn diện: loại proxy đúng, tiêu đề chính xác, hành vi thực tế và chiến lược xoay vòng hợp lý.

Những kết luận chính của bài viết:

  • Proxy từ trung tâm dữ liệu không hoạt động chống lại DataDome - chúng bị chặn ở cấp độ danh tiếng IP
  • Proxy dân cư là công cụ cơ bản cho hầu hết các nhiệm vụ thu thập dữ liệu
  • Proxy di động mang lại độ tin cậy tối đa và phù hợp cho các trang web được bảo vệ mạnh mẽ
  • Proxy tốt chỉ là một phần của giải pháp: tiêu đề, cookie và hành vi cũng quan trọng không kém
  • Trình duyệt chống phát hiện kết hợp với proxy chất lượng mang lại kết quả tốt nhất
  • Chiến lược xoay vòng và độ trễ là rất quan trọng - ngay cả với proxy dân cư cũng có thể bị cấm khi thu thập dữ liệu mạnh mẽ

Nếu bạn đang theo dõi giá, thu thập dữ liệu từ các thẻ sản phẩm hoặc thu thập dữ liệu từ các trang web được bảo vệ bởi DataDome, chúng tôi khuyên bạn nên bắt đầu với proxy dân cư - chúng cung cấp sự cân bằng tối ưu giữa chất lượng vượt qua bảo vệ và chi phí. Đối với các nhiệm vụ yêu cầu mức độ tin cậy tối đa từ các hệ thống chống bot, bạn nên xem xét proxy di động - đặc biệt nếu bạn làm việc với các phiên bản di động của trang web hoặc API của các ứng dụng di động.

```