Scraping Twitter/X không bị cấm: hướng dẫn về proxy và công cụ

```html

Twitter (nay là X) đang tích cực chống lại việc tự động thu thập dữ liệu: chặn địa chỉ IP, giới hạn số lượng yêu cầu và cấm tài khoản khi có hoạt động nghi ngờ. Nếu bạn đang thu thập dữ liệu cho nghiên cứu tiếp thị, giám sát đề cập đến thương hiệu hoặc phân tích đối thủ — bạn cần một chiến lược đúng đắn để làm việc với proxy và công cụ chống phát hiện.

Trong hướng dẫn này, chúng ta sẽ xem xét cách thiết lập việc scraping an toàn Twitter/X, các loại proxy nào nên chọn cho các nhiệm vụ khác nhau và cách tránh bị chặn khi phân tích hàng loạt hồ sơ.

Tại sao Twitter/X chặn việc scraping và cách thức hoạt động của nó

Sau khi đổi thương hiệu thành X, nền tảng đã thắt chặt chính sách đối với việc thu thập dữ liệu tự động. Hệ thống bảo vệ phân tích nhiều tham số cùng một lúc, và việc chặn có thể xảy ra ngay cả khi bạn làm việc thủ công, nếu bạn không tuân thủ các biện pháp phòng ngừa.

Các yếu tố chính gây ra việc chặn Twitter/X

1. Vượt quá giới hạn tần suất. Twitter đặt ra giới hạn nghiêm ngặt về số lượng yêu cầu mỗi phút. Đối với người dùng không xác thực, khoảng 180 yêu cầu mỗi 15 phút, đối với người dùng đã xác thực — lên đến 900 yêu cầu. Khi vượt quá, bạn sẽ nhận được lỗi 429 (Quá nhiều yêu cầu), và nếu vi phạm liên tục — địa chỉ IP sẽ bị cấm.

2. Mẫu hành vi nghi ngờ. Nếu bạn mở hồ sơ với tốc độ 10 cái mỗi phút, cuộn trang với tốc độ giống nhau hoặc thực hiện các hành động mà không có khoảng dừng — hệ thống sẽ nhận diện bot. Người dùng thực tế thường có khoảng dừng, đọc nội dung và đôi khi bị phân tâm.

3. Sử dụng một địa chỉ IP cho nhiều tài khoản. Nếu từ một địa chỉ IP có 5-10 tài khoản khác nhau truy cập trong khoảng thời gian ngắn — đó là dấu hiệu đỏ. Twitter có thể chặn tất cả các tài khoản theo chuỗi (chain-ban).

4. Thiếu dấu vân tay kỹ thuật số (fingerprint). Nền tảng thu thập dữ liệu về trình duyệt: phiên bản, tiện ích mở rộng, độ phân giải màn hình, múi giờ, WebGL, Canvas. Nếu những dữ liệu này không khớp với thiết bị thực tế hoặc trùng lặp ở nhiều tài khoản — đó là lý do để nghi ngờ.

⚠️ Quan trọng: Sau khi Twitter được mua lại bởi Elon Musk và đổi thương hiệu thành X, hệ thống bảo vệ đã trở nên hung hãn hơn. Ngay cả quyền truy cập API cũng trở thành có phí (từ $100/tháng cho gói cơ bản), và việc scraping miễn phí qua giao diện web được theo dõi rất chặt chẽ.

Cách Twitter/X xác định tự động hóa

Hệ thống bảo vệ sử dụng phân tích đa tầng:

Phân tích User-Agent và tiêu đề. Nếu tiêu đề của các yêu cầu HTTP không khớp với trình duyệt thực tế hoặc chứa dấu hiệu tự động hóa (ví dụ: Selenium, Puppeteer trong User-Agent) — yêu cầu sẽ bị chặn.
Kiểm tra JavaScript. Twitter sử dụng các cuộc gọi JavaScript để kiểm tra xem trang có được mở bởi trình duyệt thực hay không, chứ không phải là một khách hàng HTTP đơn giản.
Phân tích hành vi chuột và bàn phím. Nền tảng theo dõi chuyển động của con trỏ, tốc độ cuộn, mẫu nhấp chuột. Bot thường di chuyển theo đường thẳng hoặc không di chuyển chuột chút nào.
Danh tiếng địa chỉ IP. Nếu địa chỉ IP nằm trong danh sách đen (trung tâm dữ liệu của nhà cung cấp hosting nổi tiếng, nhà cung cấp proxy có danh tiếng kém) — độ tin cậy của nó sẽ giảm.

Các loại proxy nào phù hợp cho việc phân tích Twitter/X: so sánh các loại

Việc chọn loại proxy phụ thuộc vào nhiệm vụ của bạn: phân tích hàng loạt dữ liệu công khai, làm việc với các tài khoản đã xác thực hoặc giám sát đối thủ. Chúng ta sẽ xem xét từng loại và ứng dụng của nó cho Twitter/X.

Proxy cư trú — lựa chọn tối ưu cho việc làm việc với tài khoản

Proxy cư trú sử dụng địa chỉ IP của người dùng thực tế, được cung cấp bởi các nhà cung cấp dịch vụ internet. Đối với Twitter/X, đây là lựa chọn an toàn nhất, vì nền tảng không thể phân biệt lưu lượng này với người dùng thông thường.

Khi nào nên sử dụng proxy cư trú cho Twitter/X:

Thực hiện với các tài khoản đã xác thực (đăng nhập, phân tích hồ sơ riêng tư)
Theo dõi lâu dài các tài khoản hoặc hashtag cụ thể
Phân tích với cường độ cao (khi cần giảm thiểu rủi ro bị cấm)
Thu thập dữ liệu từ các khu vực địa lý khác nhau (ví dụ: để phân tích các xu hướng khu vực)

Ưu điểm: Mức độ tin cậy tối đa từ Twitter/X, tỷ lệ bị chặn thấp, khả năng làm việc với captcha (thường không xảy ra), hỗ trợ phiên sticky (một IP trong 10-30 phút).

Nhược điểm: Chi phí cao hơn (thường tính phí theo lưu lượng, từ $7-15 cho 1 GB), tốc độ thấp hơn so với các trung tâm dữ liệu.

Proxy di động — cho sự bảo vệ tối đa cho các tài khoản

Proxy di động sử dụng địa chỉ IP của các nhà mạng di động (4G/5G). Đây là loại IP đáng tin cậy nhất cho các mạng xã hội, vì Twitter/X rất hiếm khi chặn IP di động — một địa chỉ có thể chứa hàng ngàn người dùng thực.

Khi nào nên sử dụng proxy di động cho Twitter/X:

Thực hiện với các tài khoản quý giá, không thể mất
Phân tích sau khi bị chặn trước đó (khi cần bảo vệ tối đa)
Tự động hóa các hành động: thích, retweet, theo dõi (mặc dù điều này vi phạm ToS của Twitter)
Vượt qua các chặn IP nghiêm ngặt (IP di động gần như không bao giờ bị đưa vào danh sách đen)

Ưu điểm: Mức độ tin cậy tối đa, rủi ro bị cấm gần như bằng không, khả năng xoay vòng IP qua chế độ "airplane mode" (thay đổi IP mỗi 5-10 phút).

Nhược điểm: Loại proxy đắt nhất (từ $50-100 cho một IP mỗi tháng), số lượng IP có sẵn hạn chế, tốc độ phụ thuộc vào chất lượng kết nối di động.

Proxy trung tâm dữ liệu — cho việc phân tích hàng loạt dữ liệu công khai

Proxy trung tâm dữ liệu — là các địa chỉ IP của các máy chủ của nhà cung cấp hosting. Chúng nhanh và rẻ, nhưng Twitter/X thường nghi ngờ về chúng.

Khi nào có thể sử dụng trung tâm dữ liệu cho Twitter/X:

Phân tích hồ sơ công khai mà không cần xác thực (chức năng hạn chế)
Thu thập dữ liệu một lần với cường độ thấp
Kiểm tra các kịch bản phân tích trước khi chạy trên proxy cư trú
Làm việc qua API chính thức (nếu bạn có quyền truy cập trả phí)

Ưu điểm: Chi phí thấp (từ $1-3 cho mỗi IP mỗi tháng), tốc độ cao (lên đến 1 Gbps), độ ổn định của kết nối.

Nhược điểm: Rủi ro bị chặn cao, thường cần giải captcha, không phù hợp cho việc làm việc với các tài khoản đã xác thực, nhiều IP đã nằm trong danh sách đen của Twitter/X.

Bảng so sánh các loại proxy cho Twitter/X

Tham số	Proxy cư trú	Proxy di động	Proxy trung tâm dữ liệu
Mức độ tin cậy của Twitter/X	Cao	Rất cao	Thấp
Rủi ro bị chặn	Thấp (5-10%)	Tối thiểu (1-3%)	Cao (30-50%)
Làm việc với tài khoản	✅ Có	✅ Có	❌ Không được khuyến nghị
Tốc độ	Trung bình (10-50 Mbps)	Trung bình (5-30 Mbps)	Cao (100-1000 Mbps)
Chi phí	$7-15 cho 1 GB	$50-100 cho mỗi IP/tháng	$1-3 cho mỗi IP/tháng
Ứng dụng tốt nhất	Phân tích có xác thực	Tài khoản quý giá	Dữ liệu công khai

Giới hạn tần suất Twitter/X: cách không vượt quá giới hạn yêu cầu

Twitter/X đặt ra các giới hạn nghiêm ngặt về số lượng yêu cầu để ngăn chặn quá tải máy chủ và thu thập dữ liệu tự động. Nếu bạn vượt quá giới hạn — bạn sẽ nhận được một lệnh cấm tạm thời (từ 15 phút đến vài giờ) hoặc lệnh cấm vĩnh viễn cho IP/tài khoản.

Giới hạn hiện tại của Twitter/X (2024)

Sau khi giới thiệu gói đăng ký trả phí X Premium, các giới hạn đã được chia thành nhiều loại:

Loại tài khoản	Xem tweet/ngày	Yêu cầu API (15 phút)
Không xác thực	Truy cập hạn chế	~180 yêu cầu
Tài khoản miễn phí	600-1000 tweet	~300 yêu cầu
X Premium ($8/tháng)	6000-10000 tweet	~900 yêu cầu
Đã xác thực (cũ)	Không có giới hạn nghiêm ngặt	~900 yêu cầu

Quan trọng: Những giới hạn này không chỉ áp dụng cho API mà còn cho việc xem thông thường qua giao diện web. Nếu bạn đang phân tích qua trình duyệt với mô phỏng hành động của người dùng — những hạn chế này vẫn có hiệu lực.

Cách vượt qua giới hạn tần suất khi phân tích

1. Xoay vòng địa chỉ IP. Sử dụng một nhóm proxy với việc xoay vòng tự động. Đối với proxy cư trú, tần suất thay đổi tối ưu là mỗi 50-100 yêu cầu hoặc mỗi 10-15 phút. Điều này cho phép phân phối tải giữa các IP khác nhau và không vượt quá giới hạn cho một địa chỉ.

2. Sử dụng nhiều tài khoản. Nếu bạn cần thu thập một khối lượng lớn dữ liệu, hãy tạo 5-10 tài khoản Twitter/X và phân phối việc phân tích giữa chúng. Mỗi tài khoản nên làm việc qua proxy độc nhất và có dấu vân tay kỹ thuật số riêng (fingerprint).

3. Thời gian giữa các yêu cầu. Không thực hiện yêu cầu với tốc độ tối đa. Thêm khoảng dừng ngẫu nhiên:

Giữa các hồ sơ: 3-7 giây
Giữa việc cuộn dòng: 2-5 giây
Giữa việc tìm kiếm theo hashtag: 5-10 giây
Khoảng dừng dài mỗi 50-100 hành động: 30-60 giây

4. Lưu trữ dữ liệu. Không yêu cầu lại các dữ liệu giống nhau. Lưu kết quả phân tích vào cơ sở dữ liệu và kiểm tra xem hồ sơ đã được xử lý chưa.

💡 Mẹo: Nếu bạn nhận được lỗi 429 (Quá nhiều yêu cầu), đừng cố gắng gửi lại yêu cầu ngay lập tức. Hãy dừng lại ít nhất 15 phút, tốt hơn là — thay đổi địa chỉ IP qua việc xoay vòng proxy. Các nỗ lực lặp lại có thể dẫn đến việc bị cấm vĩnh viễn.

Thiết lập trình duyệt chống phát hiện cho việc scraping an toàn

Các trình duyệt chống phát hiện cho phép tạo ra các dấu vân tay kỹ thuật số độc nhất (fingerprints) cho mỗi tài khoản Twitter/X, điều này cực kỳ quan trọng cho việc phân tích an toàn. Nếu không, nền tảng có thể liên kết nhiều tài khoản với nhau và chặn chúng theo chuỗi.

Các trình duyệt chống phát hiện phổ biến cho Twitter/X

Dolphin Anty — một trong những lựa chọn phổ biến nhất trong số các nhà tiếp thị và chuyên gia SMM. Gói miễn phí cho phép tạo tối đa 10 hồ sơ, đủ cho các nhiệm vụ phân tích nhỏ.

AdsPower — sự cân bằng tốt giữa chức năng và giá cả. Có tự động hóa tích hợp qua RPA (Robotic Process Automation), cho phép thiết lập phân tích mà không cần viết mã.

Multilogin — giải pháp cao cấp với mức độ bảo vệ tối đa. Được sử dụng bởi các đại lý lớn, nhưng có giá cao (từ €99/tháng). Chỉ hợp lý cho việc phân tích chuyên nghiệp với khối lượng lớn dữ liệu.

GoLogin — lựa chọn ngân sách với chất lượng fingerprints tốt. Có ứng dụng di động để làm việc với các tài khoản khi di chuyển.

Hướng dẫn từng bước để thiết lập hồ sơ cho việc phân tích Twitter/X (ví dụ với Dolphin Anty)

Bước 1: Tạo hồ sơ trình duyệt mới

Mở Dolphin Anty và nhấn "Tạo hồ sơ"
Chọn hệ điều hành: Windows, macOS hoặc Linux (chọn cái phù hợp với thiết bị thực của bạn hoặc phổ biến nhất trong số người dùng Twitter)
Nhập tên hồ sơ: ví dụ, "Twitter Parser US #1"

Bước 2: Thiết lập proxy

Trong phần "Proxy", chọn loại: HTTP, HTTPS hoặc SOCKS5 (SOCKS5 là lựa chọn tốt hơn cho Twitter/X)
Nhập dữ liệu proxy: địa chỉ IP, cổng, tên đăng nhập, mật khẩu
Nhấn "Kiểm tra proxy" — đảm bảo trạng thái là xanh và địa lý chính xác
Quan trọng: sử dụng proxy riêng cho mỗi tài khoản Twitter/X

Bước 3: Thiết lập fingerprint (dấu vân tay kỹ thuật số)

User-Agent: chọn User-Agent thực tế của phiên bản Chrome hiện tại (ví dụ, Chrome 120 trên Windows 10)
Độ phân giải màn hình: sử dụng các độ phân giải phổ biến (1920x1080, 1366x768, 1440x900) — không đặt các giá trị kỳ lạ
Múi giờ: phải khớp với địa lý của proxy (nếu proxy từ Mỹ/New York — đặt EST)
Ngôn ngữ trình duyệt: khớp với khu vực (en-US cho Mỹ, en-GB cho Vương quốc Anh)
WebRTC: tắt hoặc thay thế bằng IP của proxy (nếu không có thể rò rỉ IP thực)
Canvas và WebGL: sử dụng chế độ "Noise" (thêm tiếng ồn) — điều này tạo ra dấu vân tay độc nhất cho mỗi hồ sơ

Bước 4: Các thiết lập bảo mật bổ sung

Tắt tự động điền mật khẩu (Twitter có thể kiểm tra sự tồn tại của dữ liệu đã lưu)
Xóa cookies sau mỗi phiên phân tích
Không sử dụng tiện ích mở rộng của trình duyệt — chúng tạo ra các fingerprints độc nhất và có thể tiết lộ tự động hóa
Bật "Do Not Track" (DNT) — nhiều người dùng thực tế sử dụng nó

⚠️ Lỗi nghiêm trọng: Không sử dụng cùng một fingerprint cho nhiều tài khoản! Twitter/X dễ dàng phát hiện các dấu vân tay kỹ thuật số giống nhau và chặn tất cả các tài khoản liên quan. Mỗi hồ sơ trong trình duyệt chống phát hiện phải có các tham số độc nhất.

Công cụ cho việc phân tích Twitter/X: từ giải pháp có sẵn đến mã nguồn

Việc chọn công cụ phụ thuộc vào kỹ năng kỹ thuật của bạn và khối lượng nhiệm vụ. Chúng ta sẽ xem xét các tùy chọn từ các dịch vụ đơn giản không cần mã đến các kịch bản chuyên nghiệp.

Các dịch vụ phân tích Twitter/X có sẵn (không cần mã)

Phantombuster — dịch vụ tự động hóa đám mây với các mẫu có sẵn cho Twitter/X. Cho phép phân tích hồ sơ, người theo dõi, tweet theo hashtag. Thiết lập mất 5-10 phút: chọn mẫu, chỉ định tham số (hashtag, danh sách tài khoản), kết nối proxy và khởi động.

Apify — thị trường các công cụ scraping có sẵn. Có một số diễn viên (kịch bản có sẵn) cho Twitter/X: phân tích hồ sơ, thu thập tweet, giám sát đề cập. Hoạt động qua đám mây, hỗ trợ proxy, có gói miễn phí với các giới hạn.

Octoparse — trình tạo parser trực quan. Bạn mở Twitter/X trong giao diện của chương trình, nhấp vào các phần tử cần thu thập (tên, bio, số lượng người theo dõi), và chương trình tự động tạo kịch bản. Phù hợp cho các nhiệm vụ đơn giản, nhưng có thể không xử lý được cấu trúc phức tạp của các trang.

Tự động hóa qua RPA trong các trình duyệt chống phát hiện

Một số trình duyệt chống phát hiện (AdsPower, Octo Browser) có các công cụ RPA (Robotic Process Automation) tích hợp, cho phép ghi lại và phát lại hành động của người dùng.

Cách thức hoạt động:

Mở Twitter/X trong trình duyệt chống phát hiện
Bật chế độ ghi lại hành động
Thực hiện các hành động cần thiết: mở hồ sơ, sao chép dữ liệu, chuyển sang tiếp theo
Dừng ghi lại — trình duyệt đã tạo ra kịch bản
Tải lên danh sách tài khoản để phân tích và khởi động kịch bản trong vòng lặp

Ưu điểm: không yêu cầu kỹ năng lập trình, hoạt động qua trình duyệt thực (mức độ vượt qua bảo vệ cao), dễ dàng thêm khoảng dừng ngẫu nhiên và mô phỏng hành vi.

Phân tích qua mã: Python + Selenium/Playwright

Đối với các nhiệm vụ phức tạp hơn và kiểm soát hoàn toàn quá trình, hãy sử dụng lập trình. Python là ngôn ngữ phổ biến nhất cho việc scraping nhờ vào hệ sinh thái phong phú của các thư viện.

Các thư viện chính:

Selenium — tự động hóa trình duyệt, hoạt động với Chrome/Firefox, hỗ trợ proxy và mô phỏng hành động của người dùng
Playwright — sự thay thế hiện đại cho Selenium, nhanh hơn và ổn định hơn, hỗ trợ chế độ headless
Tweepy — thư viện để làm việc với API chính thức của Twitter (cần quyền truy cập trả phí)
Twint — phân tích Twitter mà không cần API (chú ý: Twitter đang tích cực chặn phương pháp này, hoạt động không ổn định)

Ví dụ về kịch bản cơ bản trên Python + Selenium:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
import random

# Thiết lập proxy
proxy = "123.45.67.89:8080"  # Thay thế bằng proxy của bạn
chrome_options = Options()
chrome_options.add_argument(f'--proxy-server={proxy}')
chrome_options.add_argument('--disable-blink-features=AutomationControlled')
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])

# Khởi tạo trình duyệt
driver = webdriver.Chrome(options=chrome_options)

# Mở hồ sơ Twitter
driver.get('https://twitter.com/elonmusk')
time.sleep(random.uniform(3, 7))  # Thời gian dừng ngẫu nhiên

# Phân tích dữ liệu hồ sơ
try:
    name = driver.find_element(By.XPATH, '//div[@data-testid="UserName"]').text
    bio = driver.find_element(By.XPATH, '//div[@data-testid="UserDescription"]').text
    followers = driver.find_element(By.XPATH, '//a[contains(@href, "/followers")]/span').text
    
    print(f"Tên: {name}")
    print(f"Bio: {bio}")
    print(f"Người theo dõi: {followers}")
except Exception as e:
    print(f"Lỗi phân tích: {e}")

driver.quit()

Các điểm quan trọng khi làm việc với mã:

Thêm time.sleep(random.uniform(3, 7)) giữa các hành động — điều này mô phỏng hành vi của người dùng thực
Sử dụng --disable-blink-features=AutomationControlled để ẩn các dấu hiệu tự động hóa
Thay đổi User-Agent thành thực tế: chrome_options.add_argument('user-agent=Mozilla/5.0...')
Xử lý lỗi qua try/except — Twitter/X thường xuyên thay đổi cấu trúc trang
Lưu kết quả vào cơ sở dữ liệu (SQLite, PostgreSQL) hoặc tệp CSV

Làm ấm tài khoản Twitter/X trước khi phân tích hàng loạt

Nếu bạn sử dụng các tài khoản Twitter/X mới cho việc phân tích, không thể bắt đầu ngay việc thu thập dữ liệu hàng loạt. Nền tảng theo dõi "tuổi" của tài khoản và hoạt động của nó — các tài khoản mới với hành vi hung hãn sẽ bị chặn trước tiên.

Kế hoạch làm ấm tài khoản (7-14 ngày)

Ngày 1-3: Thiết lập cơ bản và hoạt động tối thiểu

Điền thông tin hồ sơ: ảnh đại diện, bio, liên kết đến trang web (sử dụng dữ liệu thực, không để hồ sơ trống)
Theo dõi 5-10 tài khoản phổ biến trong lĩnh vực của bạn
Cuộn qua dòng thời gian 2-3 phút, thích 2-3 tweet
Thực hiện 1-2 retweet
Không thực hiện quá 10 hành động mỗi ngày

Ngày 4-7: Tăng cường hoạt động

Theo dõi thêm 10-15 tài khoản
Công bố 1-2 tweet của riêng bạn (có thể đơn giản, như "Hello Twitter!")
Tăng số lượng thích lên 5-10 mỗi ngày
Bắt đầu xem hồ sơ của người dùng khác (5-10 hồ sơ mỗi ngày)
Đánh dấu một vài tweet

Ngày 8-14: Chuẩn bị cho việc phân tích

Theo dõi 20-30 tài khoản, để tổng số lượng theo dõi từ 50-70
Công bố 1 tweet mỗi 2-3 ngày
Xem 10-20 hồ sơ mỗi ngày
Sử dụng tìm kiếm theo hashtag (nhưng chưa phân tích — chỉ tìm kiếm và đọc)
Vào ngày 12-14 có thể bắt đầu phân tích nhẹ: 20-30 hồ sơ mỗi ngày với khoảng dừng

💡 Mẹo: Nếu bạn mua tài khoản Twitter/X (tài khoản farm), hãy chọn những tài khoản có ít nhất 3-6 tháng, với hồ sơ đầy đủ và lịch sử hoạt động. Những tài khoản này có thể được sử dụng cho việc phân tích ngay lập tức, nhưng vẫn nên bắt đầu với khối lượng nhỏ.

Dấu hiệu của tài khoản "đã được làm ấm"

Tuổi tài khoản: tối thiểu 14 ngày, tốt hơn là 30+ ngày
Số lượng theo dõi: 50-100 (không quá nhiều, không quá ít)
Số lượng người theo dõi: 5-20 (ngay cả một vài người theo dõi thực cũng tăng độ tin cậy)
Lịch sử tweet: tối thiểu 5-10 bài đăng
Thích và retweet: 20-50 hành động trong lịch sử
Hồ sơ đầy đủ: ảnh đại diện, bio, có thể có liên kết

Danh sách kiểm tra việc scraping an toàn: 12 quy tắc bảo vệ khỏi bị cấm

Chúng ta sẽ tổng hợp tất cả các khuyến nghị thành một danh sách kiểm tra cần tuân thủ khi phân tích Twitter/X:

✅ Danh sách kiểm tra an toàn

1. Sử dụng proxy chất lượng

Để làm việc với các tài khoản: proxy cư trú hoặc di động
Một proxy = một tài khoản (không trộn lẫn)
Kiểm tra địa lý của proxy trước khi sử dụng

2. Thiết lập fingerprints độc nhất

Sử dụng trình duyệt chống phát hiện (Dolphin Anty, AdsPower, Multilogin)
Mỗi tài khoản = một bộ tham số độc nhất (User-Agent, độ phân giải, múi giờ)
Tắt WebRTC hoặc thay thế bằng IP của proxy

3. Tuân thủ giới hạn tần suất

Không quá 300-500 yêu cầu mỗi giờ từ một tài khoản
Thêm khoảng dừng ngẫu nhiên: 3-7 giây giữa các hành động
Thực hiện khoảng dừng dài mỗi 50-100 hành động (30-60 giây)

4. Làm ấm các tài khoản mới

Tối thiểu 7-14 ngày trước khi phân tích tích cực
Điền thông tin hồ sơ và tạo lịch sử hoạt động
Bắt đầu với khối lượng nhỏ: 20-30 hồ sơ mỗi ngày

5. Mô phỏng hành vi của người dùng thực

Thêm các chuyển động chuột ngẫu nhiên
Cuộn trang với tốc độ khác nhau
Đôi khi phân tâm: mở các tab khác, thực hiện khoảng dừng

6. Xoay vòng địa chỉ IP

Thay đổi IP mỗi 50-100 yêu cầu hoặc mỗi 10-15 phút
Sử dụng phiên sticky để ổn định (một IP trong 10-30 phút)
Không quay lại cùng một IP quá thường xuyên

7. Xử lý lỗi một cách chính xác

Khi gặp lỗi 429 (Quá nhiều yêu cầu) — dừng ít nhất 15 phút
Khi gặp lỗi 403 (Cấm) — thay đổi IP và kiểm tra fingerprint
Khi gặp captcha — giải quyết bằng tay hoặc qua dịch vụ (2Captcha, AntiCaptcha)

8. Lưu trữ dữ liệu

Lưu kết quả vào cơ sở dữ liệu
Không phân tích lại các hồ sơ giống nhau
Ghi lại nhật ký: các hồ sơ nào đã được xử lý, khi nào, với kết quả nào

9. Phân phối tải

Sử dụng 5-10 tài khoản cho khối lượng phân tích lớn
Mỗi tài khoản hoạt động theo nhịp riêng (không đồng bộ hóa chúng)
Phân tích vào các thời điểm khác nhau trong ngày (không phải tất cả tài khoản cùng một lúc)

10. Làm việc trong giờ cao điểm

Phân tích trong giờ làm việc của khu vực mục tiêu (9:00-18:00 theo giờ địa phương)
Tránh phân tích vào ban đêm (00:00-06:00) — điều này có thể gây nghi ngờ

11. Giám sát trạng thái tài khoản

Kiểm tra tài khoản hàng ngày: có bị chặn không, có cảnh báo nào không
Nếu tài khoản nhận được cảnh báo — giảm hoạt động trong 3-7 ngày
Ghi lại thống kê: mỗi tài khoản đã phân tích bao nhiêu hồ sơ, có gặp vấn đề gì không

12. Không phân tích tin nhắn cá nhân và dữ liệu riêng tư

Chỉ thu thập dữ liệu công khai: hồ sơ, tweet, người theo dõi
Không cố gắng vượt qua các tài khoản riêng tư
Tuân thủ Điều khoản Dịch vụ của Twitter/X (mặc dù việc scraping vi phạm, hãy giảm thiểu rủi ro)