Đã xảy ra điều mà ngành công nghiệp đã chờ đợi ít nhất một năm: số lượng máy móc trên internet đã vượt qua số lượng người dùng. Vào ngày 3 tháng 6 năm 2026, Cloudflare đã công bố dữ liệu từ mạng lưới Radar của mình, theo đó các hệ thống tự động lần đầu tiên trong lịch sử đã tạo ra phần lớn tất cả các yêu cầu HTTP đến nội dung web — 57,5% so với 42,5% của người dùng thực. NBC News, trích dẫn cùng một báo cáo, đã đưa ra tỷ lệ gần như tương tự — 57,4% so với 42,6%. Đây không phải là sai số thống kê hay một đợt tăng đột biến, mà là một bước ngoặt đã được ghi nhận của một xu hướng kéo dài nhiều năm.
Điều đáng chú ý nhất là tốc độ mà điều này xảy ra. Chỉ ba tháng trước khi công bố, trong một bài phát biểu tại hội nghị SXSW, Giám đốc điều hành Cloudflare Matthew Prince đã khẳng định rằng điểm giao nhau sẽ không xảy ra trước năm 2027. Bình luận về những con số mới, ông thừa nhận: “Chà, điều này đã xảy ra nhanh hơn tôi dự đoán.” Mốc đã được đạt được sớm hơn hơn một năm so với dự đoán của chính người đã đưa ra dự đoán đó.
Ai đã biến web thành lãnh thổ của bot
Thủ phạm chính không phải là những con nhện tìm kiếm cổ điển hay bot spam, mà là AI đại lý: các chương trình bán tự động thực hiện các nhiệm vụ cho các trợ lý như ChatGPT và Gemini. Logic rất đơn giản và tàn nhẫn đối với các máy chủ: nơi mà con người chỉ nhấp chuột vài lần, một đại lý AI có thể truy cập hàng ngàn trang để thu thập ngữ cảnh và đưa ra câu trả lời. Mỗi “cuộc hành trình” như vậy là hàng chục và hàng trăm yêu cầu, mà trong thống kê sẽ tạo thành một trận lở tuyết.
Quy mô tăng trưởng có thể thấy rõ qua các trình thu thập dữ liệu riêng lẻ. Theo các đo lường của Cloudflare, lưu lượng truy cập GPTBot từ OpenAI đã tăng 305% trong một năm. Nếu nhìn vào tỷ lệ trong tổng lưu lượng AI, bức tranh cũng tương tự: GPTBot đã tăng từ 4,7% (tháng 7 năm 2024) lên 11,7% (tháng 7 năm 2025). Vào tháng 5 năm 2026, các trình thu thập AI chuyên dụng đã chiếm 20,3% các yêu cầu bot, trong khi 6,5% đến từ các bot tìm kiếm AI — tổng cộng gần 27% tổng lưu lượng bot đã trực tiếp nuôi dưỡng các mô hình ngôn ngữ. Về mục đích, lưu lượng này được phân bổ như sau: 51,8% — thu thập dữ liệu để đào tạo, 35,7% — chế độ hỗn hợp (đào tạo cộng với cung cấp câu trả lời), và chỉ khoảng 9% — tìm kiếm thuần túy.
Khối lượng tải trên cơ sở hạ tầng không còn là một khái niệm trừu tượng. Quỹ Wikimedia cho biết rằng kể từ tháng 1 năm 2024, việc tiêu thụ băng thông cho việc phát multimedia đã tăng 50%, trong đó 65% lưu lượng tiêu tốn tài nguyên nhất được tạo ra bởi các bot, mặc dù chúng chỉ chiếm 35% lượt xem trang. Nói cách khác, máy móc lấy đi một lượng lớn lưu lượng đắt đỏ mà không trả lại gì cho chủ sở hữu trang web.
Tại sao web mở lại đóng cửa
Phản ứng của các nền tảng đã diễn ra như dự đoán: nếu các bot không mang lại quảng cáo hay lượt truy cập, chúng sẽ bị chặn lại. Đến tháng 8 năm 2025, hơn 2,5 triệu trang web đã hoàn toàn cấm sử dụng dữ liệu của họ để đào tạo AI. Trong năm tháng sau tháng 7 năm 2025, chỉ riêng mạng lưới Cloudflare đã chặn khoảng 416 tỷ yêu cầu từ các bot AI. GPTBot đã trở thành trình thu thập dữ liệu bị “cấm” nhiều nhất trong các tệp robots.txt — nó xuất hiện trong 5,52% tất cả các quy tắc DISALLOW.
Sự mất cân bằng rõ ràng trong tỷ lệ crawl-to-referral — số trang mà bot thu thập được cho mỗi lượt truy cập trở lại. Đối với Googlebot tiêu chuẩn, tỷ lệ này khoảng 4,9:1. Đối với GPTBot — 1276:1, và ClaudeBot đã đạt gần 24.000:1, trước khi cải thiện khoảng 11.000:1. Đối với chủ sở hữu trang web, điều này có nghĩa là đơn giản: AI lấy hàng ngàn, trả lại hàng đơn vị.
Nhưng chỉ đơn giản là chặn lại — có nghĩa là mất đi doanh thu tiềm năng, vì vậy Cloudflare đã đề xuất một con đường thứ ba. Hệ thống Pay-Per-Crawl của họ sử dụng trạng thái HTTP đã bị lãng quên 402 “Payment Required”: thay vì hoàn toàn đóng cửa bot, trang web có thể gửi hóa đơn cho nó để truy cập. Công ty tự đóng vai trò trung gian và xử lý các khoản thanh toán. Cơ chế này có ba cấp độ: Block (chỉ với một cú nhấp chuột, mặc định cho các miền mới), Charge (truy cập có phí theo mức giá của chủ sở hữu) và Allow (truy cập mở với phân tích chi tiết). Theo dữ liệu từ Cloudflare, khách hàng đã trả hơn một tỷ mã 402 mỗi ngày.
Xu hướng này không chỉ giới hạn trong một công ty. Vào ngày 7 tháng 4 năm 2026, GoDaddy — một trong những nhà cung cấp dịch vụ lưu trữ lớn nhất thế giới — đã tích hợp công cụ Cloudflare AI Crawl Control vào nền tảng của mình. Giám đốc chiến lược của Cloudflare, Stephanie Cohen, đã phát biểu: “Bằng cách cung cấp cho các chủ sở hữu trang web những công cụ như AI Crawl Control và các tiêu chuẩn mở, chúng tôi đang đặt nền tảng cho một mô hình kinh doanh mới của internet.” Với việc khoảng 20% tất cả các trang web trên thế giới hoạt động thông qua proxy ngược Cloudflare, đây là một sự thay đổi địa chất trong quy tắc chơi.
Cuộc chiến mặt nạ: tại sao các lệnh cấm không ảnh hưởng đến tất cả mọi người như nhau
Điểm quan trọng mà thường bị bỏ qua trong các tiêu đề lớn: các rào cản mới chủ yếu nhắm vào các bot tự xưng và đến từ các dải IP của trung tâm dữ liệu. Một trình thu thập với User-Agent rõ ràng như “GPTBot” và địa chỉ từ đám mây AWS — là mục tiêu dễ dàng cho WAF và các phân loại lưu lượng. Chính những cái này bị chặn bởi hàng tỷ lệnh cấm.
Vấn đề là không phải tất cả đều tuân thủ quy tắc. Chỉ số AI Agent Index từ MIT CSAIL cho năm 2025 và các quan sát của Cloudflare đều cho thấy: khoảng một nửa lưu lượng AI đơn giản là phớt lờ robots.txt. Và tiêu chuẩn llms.txt, mà lẽ ra phải trở thành “thực đơn lịch sự” cho các mô hình, tính đến quý đầu tiên năm 2026 không được bất kỳ công ty AI lớn nào đọc trong sản xuất. Câu chuyện đáng chú ý vào tháng 8 năm 2025: Cloudflare đã công khai cáo buộc Perplexity về việc thu thập dữ liệu ẩn — thay đổi User-Agent và ngụy trang thành trình duyệt thông thường để vượt qua các lệnh cấm trong robots.txt. Perplexity đã bác bỏ các cáo buộc, nhưng trường hợp này đã cho thấy rõ ràng ngành công nghiệp đang đi về đâu.
Kết luận cho những ai thu thập dữ liệu công khai, không cần đăng nhập là nghịch lý: càng nhiều nền tảng cắt giảm các trình thu thập dữ liệu từ trung tâm dữ liệu “ồn ào”, giá trị của lưu lượng mà trông giống như một người bình thường càng cao. Yêu cầu đến từ IP cư trú hoặc di động, với dấu vân tay trình duyệt bình thường và nhịp điệu con người, đối với các hệ thống chống bot không thể phân biệt với người truy cập — và vượt qua nơi mà bot đám mây nhận được lệnh cấm ngay lập tức.
Điều này có nghĩa là gì cho việc thu thập dữ liệu trên thực tế
Nếu doanh nghiệp của bạn phụ thuộc vào việc thu thập dữ liệu — theo dõi giá, phân tích SERP, tổng hợp đánh giá, đào tạo mô hình trên các nguồn mở — những kết luận từ báo cáo của Cloudflare nên được coi là hướng dẫn hành động.
- Proxy trung tâm dữ liệu không có ngụy trang — khu vực rủi ro. Nếu bạn gửi yêu cầu từ các dải đám mây rõ ràng và không quản lý dấu vân tay, bạn sẽ rơi vào đúng danh mục mà lửa chính đang nhắm tới. Đối với các nhiệm vụ không nhạy cảm với danh tiếng (API nội bộ, nguồn thân thiện, các trang công khai đơn giản) proxy trung tâm dữ liệu vẫn nhanh chóng và rẻ, nhưng đối với các nền tảng bảo mật, vòng đời của chúng sẽ bị rút ngắn.
- IP cư trú — mức cơ bản mới. Đối với việc thu thập dữ liệu nghiêm túc từ các trang web bảo mật, proxy cư trú cung cấp hồ sơ “con người” mà các hệ thống chống bot mặc định cho phép. Đây không còn là tùy chọn cao cấp, mà là yêu cầu tối thiểu.
- Proxy di động — cho những mục tiêu khó khăn nhất. Các mạng xã hội và nền tảng phân tích hành vi đặc biệt nghiêm ngặt với nguồn kết nối. Proxy di động với các IP thực từ các nhà cung cấp và cơ chế xoay vòng của chúng cung cấp mức độ “không bị phát hiện” tối đa ở nơi mà ngay cả các địa chỉ cư trú cũng bị nghi ngờ.
- Chuẩn bị cho việc truy cập có phí. Pay-Per-Crawl với mã 402 — không phải là một thử nghiệm tạm thời: một tỷ phản hồi như vậy mỗi ngày cho thấy mô hình đã được áp dụng. Một phần dữ liệu trong vài năm tới sẽ chỉ có sẵn với chi phí hoặc chỉ cho những ai biết cách trông giống như lưu lượng tự nhiên.
Một kịch bản riêng biệt — cơ sở hạ tầng riêng. Đối với khối lượng nhỏ và các nhiệm vụ riêng tư, có lý do để thiết lập nút của riêng bạn: chúng tôi đã phân tích chi tiết cách xây dựng máy chủ proxy tại nhà trên Raspberry Pi trong một buổi tối và chỉ với vài nghìn đồng. Điều này không thay thế cho một bể chứa hàng triệu địa chỉ, nhưng đáp ứng nhu cầu cơ bản và giúp hiểu cơ chế từ bên trong.
Kết luận
Số liệu 57,5% — là một mốc tượng trưng, nhưng đứng sau nó là một sự chuyển đổi thực sự của thời đại. Internet, đã được xây dựng trong nhiều thập kỷ cho người đọc, đang ngày càng nhanh chóng chuyển đổi thành máy tiêu thụ dữ liệu, và các nền tảng đang phản ứng bằng cách xây dựng các rào cản: các lệnh cấm, cổng thanh toán và xác thực mã hóa cho bot. Web mở không biến mất — nó đang phân tầng. Truy cập tự do vẫn dành cho những ai chơi theo quy tắc hoặc biết cách trông giống như người dùng bình thường; tất cả những thứ khác sẽ bị đưa vào tường phí hoặc bị cấm. Đối với ngành công nghiệp thu thập dữ liệu, điều này có nghĩa là một điều: chất lượng và “tính người” của lưu lượng của bạn không còn là lợi thế cạnh tranh, mà là điều kiện sống sót.
```