شما پارسر را تنظیم کردهاید، جمعآوری دادهها را آغاز کردهاید — و پس از چند دقیقه صفحهای با کپچا یا پاسخ خالی دریافت میکنید. احتمالاً سایت توسط DataDome محافظت میشود. این یکی از تهاجمیترین سیستمهای ضد ربات در بازار است و پروکسیهای معمولی از دیتاسنتر در اینجا کارساز نیستند. در این مقاله بررسی میکنیم که DataDome چگونه رباتها را شناسایی میکند و کدام نوع پروکسیها نتیجه میدهند.
DataDome چیست و کجا استفاده میشود
DataDome یک پلتفرم SaaS تجاری برای حفاظت در برابر رباتها است که توسط فروشگاههای اینترنتی بزرگ، پورتالهای خبری، بازارهای آنلاین و خدمات رزرو در سرتاسر جهان استفاده میشود. این شرکت در سال 2015 تأسیس شد و اکنون هزاران سایت را با مجموع ترافیک میلیاردها درخواست در روز محافظت میکند.
از جمله مشتریان DataDome میتوان به پلتفرمهایی مانند Reddit، Foot Locker، Rakuten، AngelList و بسیاری دیگر از منابع بزرگ اشاره کرد. اگر شما در حال نظارت بر قیمتهای رقبای خود، پارس کردن کارتهای محصول، جمعآوری دادهها از بازارهای خارجی یا تجمیع اخبار هستید — احتمالاً با این سیستم مواجه شدهاید.
نشانههای مشخصی که نشان میدهد سایت توسط DataDome محافظت میشود:
- صفحهای با کپچا پس از چند درخواست متوالی ظاهر میشود
- در پاسخ سرور هدر
x-datadome-cidوجود دارد - ریدایرکت به دامنه
geo.captcha-delivery.com - پاسخ HTTP 403 یا 429 در صورت درخواستهای مکرر از یک IP
- چالش JavaScript در اولین بازدید (صفحه «بررسی مرورگر»)
DataDome در زمان واقعی کار میکند: هر درخواست ورودی در میلیثانیهها تحلیل میشود. سیستم تصمیم میگیرد که کاربر را بگذارد، کپچا را نشان دهد یا مسدود کند — حتی قبل از اینکه سرور محتوای اصلی صفحه را ارائه دهد. به همین دلیل دور زدن آن دشوارتر از مسدودسازیهای ساده IP است.
DataDome چگونه رباتها را شناسایی میکند: مکانیزمهای حفاظت
برای درک اینکه کدام پروکسیها کار میکنند، باید بفهمیم که DataDome چه چیزی را تحلیل میکند. سیستم از رویکرد چند لایه استفاده میکند — هیچ یک از عوامل به تنهایی معیار مسدودسازی نیستند. تصمیم بر اساس مجموعهای از سیگنالها اتخاذ میشود.
1. شهرت IP
اولین چیزی که DataDome بررسی میکند، شهرت IP بر اساس پایگاههای داده خارجی و داخلی است. سیستم به سرعت تشخیص میدهد که آیا IP متعلق به دیتاسنتر (AWS، Google Cloud، Hetzner، DigitalOcean)، ارائهدهنده VPN است یا یک آدرس واقعی خانگی/موبایل است. IP از دیتاسنتر به طور خودکار یک «امتیاز مشکوک» بالا دریافت میکند حتی قبل از تحلیل رفتار.
2. تحلیل رفتاری
DataDome الگوهای رفتاری را ردیابی میکند: سرعت درخواستها، توالی بازدید از صفحات، زمان بین کلیکها، حرکت ماوس (اگر JavaScript وجود داشته باشد). کاربر واقعی وقفههایی دارد، به مسیرهای منطقی میرود و گاهی به عقب برمیگردد. ربات معمولاً درخواستها را با فواصل ثابت، به URLهای بهطور دقیق تعیینشده و بدون انحرافات «تصادفی» انجام میدهد.
3. اثر انگشت JavaScript
اگر درخواست از طریق مرورگر (یا مرورگر بدون سر مانند Puppeteer/Playwright) انجام شود، DataDome یک اسکریپت JavaScript را اجرا میکند که «اثر انگشت» محیط را جمعآوری میکند: نسخه مرورگر، فونتهای نصبشده، وضوح صفحه، پشتیبانی از WebGL، اثر انگشت canvas، وجود پلاگینها. مرورگرهای بدون سر بدون پوشش اضافی به راحتی بر اساس پارامترهای خاص شناسایی میشوند.
4. هدرهای HTTP
هدرهای درخواست تحلیل میشوند: User-Agent، Accept-Language، Accept-Encoding، Referer، sec-ch-ua و دیگران. عدم تطابق بین User-Agent اعلام شده و پارامترهای واقعی درخواست — سیگنال قوی ربات است.
5. یادگیری ماشین در زمان واقعی
تمام سیگنالهای جمعآوری شده توسط مدل ML پردازش میشوند که بر روی یک مجموعه داده بزرگ از کاربران واقعی و رباتها آموزش دیده است. مدل به طور مداوم بهروزرسانی میشود — آنچه یک ماه پیش کار میکرد، ممکن است امروز کار نکند. به همین دلیل است که راهحلهای ایستا به سرعت قدیمی میشوند.
چرا پروکسیهای دیتاسنتر در برابر DataDome کار نمیکنند
این سوالی است که بیشتر از سوی کسانی که تازه کار با سایتهای محافظتشده را آغاز کردهاند، مطرح میشود. پروکسیهای دیتاسنتر — ارزان، سریع و با زمان کارکرد بالا. به نظر میرسد انتخاب ایدهآلی برای پارس کردن باشد. اما در برابر DataDome آنها تقریباً بیفایده هستند.
دلیل آن ساده است: DataDome پایگاههای داده ASN (سیستمهای خودمختار) همه ارائهدهندگان بزرگ هاستینگ را نگهداری و استفاده میکند. وقتی درخواست از IP آدرسی میآید که متعلق به زیرشبکه Amazon Web Services یا OVH است، سیستم بلافاصله به آن وضعیت «مشکوک» میدهد. حتی اگر پارسر شما رفتار انسان را به طور کامل شبیهسازی کند — IP از دیتاسنتر شما را در معرض خطر قرار میدهد.
⚠️ مهم است که درک کنید
پروکسیهای دیتاسنتر برای کارهایی که حفاظت ضعیف یا غیرموجود است، عالی هستند: پارس کردن دادههای عمومی، کار با API بدون سیستمهای ضد ربات، تست سرعت. اما برای سایتهای با DataDome آنها در 90%+ موارد در دهها درخواست اول مسدود میشوند.
یک مشکل دیگر — IPهای «سوخته». اگر هزاران کاربر قبل از شما از همان IP برای فعالیت رباتی استفاده کرده باشند (و در استخرهای ارزان دیتاسنتر این یک قاعده است)، DataDome قبلاً تاریخ منفی برای این آدرس دارد. حتی اولین درخواست از چنین IP ممکن است مسدود شود.
پروکسیهای مسکونی: ابزار اصلی برای دور زدن DataDome
پروکسیهای مسکونی آدرسهای IP هستند که متعلق به کاربران واقعی خانگی اینترنت هستند. آنها توسط ارائهدهندگان اینترنت (Ростелекوم، Comcast، Deutsche Telekom و غیره) صادر میشوند و از نظر DataDome به عنوان افراد عادی که در خانه پشت کامپیوتر نشستهاند، به نظر میرسند.
به همین دلیل پروکسیهای مسکونی ابزار اصلی کار برای پارس کردن سایتهای با DataDome هستند. آنها از نظر شهرت IP بررسی اولیه را انجام میدهند که به شما «اعتبار» برای ادامه کار میدهد.
چه نکاتی را باید در انتخاب پروکسیهای مسکونی برای DataDome در نظر بگیرید
| پارامتر | چه چیزی مهم است | چرا این موضوع بحرانی است |
|---|---|---|
| نوع چرخش | چرخش برای هر درخواست یا جلسه 5-30 دقیقه | DataDome تاریخچه IP را ردیابی میکند — تغییر بیش از حد مشکوک است |
| جغرافیایی | IP از کشور سایت هدف | درخواست از کشور دیگر — سیگنال اضافی مشکوکی |
| اندازه استخر | میلیونها IP، نه هزاران | استخر کوچک به سرعت «سوخته» میشود — DataDome آدرسهای فعال را به یاد میسپارد |
| جلسات چسبنده | امکان نگه داشتن یک IP برای 10-30 دقیقه | برای پارس چند صفحهای یک جلسه باید به عنوان یک کاربر به نظر برسد |
| سرعت | حداقل 5-10 مگابیت بر ثانیه برای هر اتصال | پروکسیهای کند زمان درخواست را افزایش میدهند که بر زمانبندی تأثیر میگذارد |
نکته مهم: پروکسیهای مسکونی به خودی خود 100% دور زدن DataDome را تضمین نمیکنند. آنها مشکل شهرت IP را حل میکنند، اما اگر پارسر شما 100 درخواست در دقیقه از یک آدرس انجام دهد یا هدرهای نادرست ارسال کند — DataDome همچنان مسدود خواهد کرد. IP فقط یکی از سطوح حفاظت است.
پروکسیهای موبایل: زمانی که حداکثر اعتماد لازم است
پروکسیهای موبایل آدرسهای IP از اپراتورهای موبایل (شبکههای 4G/5G) هستند. آنها ویژگی خاصی دارند: یک آدرس IP از اپراتور موبایل میتواند به طور همزمان توسط هزاران کاربر واقعی از طریق NAT استفاده شود. DataDome این را میداند — و به همین دلیل به IPهای موبایل با حداکثر اعتماد نگاه میکند.
مسدود کردن IP موبایل به معنای مسدود کردن پتانسیل هزاران مشتری واقعی اپراتور است — هیچ سایت معقولی این کار را نخواهد کرد. به همین دلیل پروکسیهای موبایل بالاترین درصد موفقیت در درخواستها به سایتهای با DataDome را ارائه میدهند.
چه زمانی باید پروکسیهای موبایل را به جای پروکسیهای مسکونی انتخاب کنید:
- سایت به شدت محافظت شده است — پروکسیهای مسکونی حتی با فرکانس پایین درخواستها مسدود میشوند
- شما نسخه موبایل سایت را پارس میکنید — IP موبایل + User-Agent موبایل به طور طبیعی به نظر میرسند
- نیاز به کار با برنامهها دارید — اگر API موبایل را پارس میکنید، IP موبایل منطقی با درخواست مطابقت دارد
- جلسات طولانیمدت — پروکسیهای موبایل به خوبی جلسه را بدون تغییر IP نگه میدارند
معایب پروکسیهای موبایل — آنها گرانتر از پروکسیهای مسکونی هستند و معمولاً استخر IP کمتری دارند. برای پارس مقیاسپذیر با هزاران درخواست در ساعت، این میتواند محدودیت باشد. در چنین مواردی استراتژی بهینه — استفاده از پروکسیهای موبایل برای «جاسوسی» و صفحات پیچیده و پروکسیهای مسکونی برای جمعآوری دادههای انبوه است.
استراتژی چرخش و تأخیرها: چگونه خود را لو ندهید حتی با پروکسیهای خوب
حتی با پروکسیهای مسکونی یا موبایل نیز میتوان مسدود شد، اگر استراتژی درخواستها به درستی تنظیم نشود. DataDome رفتار را در سطح جلسه تحلیل میکند — و الگوهای غیرعادی باعث ایجاد شک میشوند، صرف نظر از کیفیت IP.
قوانین پارس امن از طریق DataDome
✅ چکلیست پارس امن
- تأخیرها بین درخواستها: از 3 تا 15 ثانیه (تصادفی، نه ثابت)
- بیش از 20-30 درخواست از یک IP در یک جلسه
- جلسه چسبنده: یک IP را برای یک «مسیر کاربری» نگه دارید
- از صفحه اصلی شروع کنید، سپس به URLهای هدف بروید
- شبیهسازی ناوبری واقعی: صفحه اصلی → دستهبندی → محصول
- از جغرافیای پروکسی استفاده کنید که با زبان سایت مطابقت دارد
- پس از هر جلسه یا پس از مسدودسازی IP را تغییر دهید
- درخواستهای موازی را از یک IP راهاندازی نکنید
چرخش: چه زمانی IP را تغییر دهیم
در اینجا پاسخی جهانی وجود ندارد — همه چیز به سایت خاص بستگی دارد. اما منطق کلی این است: DataDome فعالیت IP را در یک پنجره متحرک به یاد میسپارد (معمولاً 10-60 دقیقه). اگر در این مدت از یک آدرس درخواستهای مشکوک زیادی انجام شود — IP یک بن موقت دریافت میکند.
استراتژی بهینه — چرخش IP بر اساس تعداد درخواستها، نه بر اساس زمان. به عنوان مثال: 15-25 درخواست → تغییر IP → وقفه 30-60 ثانیه → جلسه جدید. این رویکرد رفتار کاربران مختلف را شبیهسازی میکند که هر کدام چند صفحه را بازدید کرده و خارج شدهاند.
هدرها و اثر انگشت: DataDome چه چیزهایی را علاوه بر IP بررسی میکند
پروکسیهای خوب — شرط لازم، اما کافی برای دور زدن DataDome نیستند. سیستم کل درخواست را به طور کامل تحلیل میکند. اگر IP مسکونی باشد، اما هدرها ربات را نشان دهند — مسدودسازی همچنان اتفاق میافتد.
هدرهای بحرانی
اینجا آنچه DataDome در هدرهای HTTP بررسی میکند و به چه نکاتی باید توجه کنید:
| هدر | چه چیزی بررسی میشود | خطای معمولی |
|---|---|---|
User-Agent |
نسخه فعلی مرورگر | UA قدیمی یا UA کتابخانه Python |
Accept-Language |
زبان با جغرافیای پروکسی مطابقت دارد | پروکسی از ایالات متحده، اما زبان ru-RU |
sec-ch-ua |
با User-Agent مطابقت دارد | عدم وجود هدر در هنگام اعلام Chrome |
Referer |
زنجیره منطقی انتقال | درخواست مستقیم به صفحه عمیق بدون Referer |
Accept-Encoding |
مجموعه استاندارد مرورگر | عدم وجود یا مجموعه غیر استاندارد |
Cookie |
نگهداری کوکیهای سشن DataDome | نادیده گرفتن Set-Cookie از DataDome |
توجه ویژه — به کوکیهای DataDome. در اولین درخواست، سیستم کوکی خود را تنظیم میکند (معمولاً به نام datadome شناخته میشود). اگر پارسر شما این کوکی را در درخواستهای بعدی ذخیره و ارسال نکند — DataDome هر درخواست را به عنوان اولین بازدید یک کاربر جدید در نظر میگیرد، که خود به خود در فرکانس بالا مشکوک است.
اثر انگشت TLS
حفاظت پیشرفته DataDome همچنین اثر انگشت TLS را تحلیل میکند — ویژگیهای SSL/TLS handshake. کتابخانههای HTTP مختلف (requests، curl، axios) مجموعههای خاصی از cipher suites و گسترشهای TLS دارند که با مرورگرها متفاوت است. اگر شما از کتابخانه استاندارد Python یعنی requests استفاده کنید — اثر انگشت TLS آن به راحتی شناسایی میشود. راهحل — استفاده از کتابخانههایی با شبیهسازی TLS مرورگری (به عنوان مثال، curl-impersonate یا راهحلهای تخصصی).
ابزارهای کار با سایتهای DataDome
انتخاب ابزار مناسب برای پارس کردن به اندازه انتخاب پروکسی مهم است. وظایف مختلف نیاز به رویکردهای مختلف دارند. بیایید گزینههای اصلی را از نظر سازگاری با DataDome بررسی کنیم.
خودکارسازی مرورگر (Puppeteer، Playwright)
مرورگرهای بدون سر به طور نظری باید با DataDome به خوبی کار کنند، زیرا JavaScript را اجرا میکنند و «اثر انگشت واقعی» را تشکیل میدهند. در عمل، Puppeteer یا Playwright استاندارد به راحتی بر اساس پارامترهای خاص شناسایی میشوند: navigator.webdriver = true، عدم وجود پلاگینها، مقادیر غیر استاندارد WebGL. برای دور زدن نیاز به پوشش اضافی از طریق پلاگینهایی مانند puppeteer-extra-plugin-stealth است.
مرورگرهای ضد شناسایی
برای کارهایی که نیاز به کار کامل با سایت دارند (نه تنها پارس کردن، بلکه تعامل)، مرورگرهای ضد شناسایی — انتخاب بهینه هستند. Dolphin Anty، AdsPower، GoLogin و Multilogin پروفایلهای مرورگری کاملی با اثر انگشت واقعگرایانه ایجاد میکنند. در ترکیب با پروکسیهای مسکونی یا موبایل، آنها بالاترین سطح دور زدن DataDome را ارائه میدهند.
الگوی اتصال در مرورگر ضد شناسایی استاندارد است: پروفایل ایجاد کنید → در تنظیمات پروکسی نوع (HTTP/SOCKS5)، هاست، پورت، نام کاربری و رمز عبور سرویس پروکسی را مشخص کنید → پروفایل را راهاندازی کنید. هر پروفایل در یک محیط ایزوله با اثر انگشت منحصر به فرد کار میکند.
خدمات پارس تخصصی
خدمات آمادهای وجود دارند (ScrapingBee، Apify، Bright Data Scraping Browser) که تمام کارهای دور زدن حفاظت را انجام میدهند — شما فقط URL را ارسال میکنید و HTML را دریافت میکنید. آنها از استخرهای پروکسی مسکونی خود استفاده میکنند و به طور خودکار کپچاها را حل میکنند. معایب — هزینه بالا در حجمهای بزرگ و کنترل کمتر بر روی فرآیند.
مقایسه رویکردها
| ابزار | کارایی در برابر DataDome | پیچیدگی تنظیم | مقیاسپذیری |
|---|---|---|---|
| پارس کننده HTTP + پروکسیهای مسکونی | متوسط | پایین | بالا |
| Puppeteer/Playwright + stealth + پروکسی | بالا | متوسط | متوسط |
| مرورگر ضد شناسایی + پروکسیهای موبایل | بسیار بالا | پایین | پایین |
| خدمات پارس آماده | بالا | بسیار پایین | بالا (گران) |
| پروکسیهای دیتاسنتر (هر ابزار) | بسیار پایین | — | — |
سناریوی عملی: نظارت بر قیمتها در یک سایت محافظتشده
فرض کنید شما در حال نظارت بر قیمتهای رقبای خود در یک بازار خارجی هستید که توسط DataDome محافظت میشود. شما باید دادهها را برای 5000 محصول هر 6 ساعت جمعآوری کنید. اینجا یک الگوی بهینه است:
- ابزار: Playwright با پلاگین stealth (به طور خودکار چالش JS را حل میکند)
- پروکسی: مسکونی با چرخش، جغرافیایی — کشور سایت هدف
- جلسه: چسبنده برای 15 دقیقه، 20 درخواست برای یک IP
- هدرها: User-Agent Chrome فعلی، Accept-Language صحیح
- کوکیها: نگهداری و انتقال کوکیهای DataDome بین درخواستهای یک جلسه
- تأخیرها: تصادفی از 4 تا 12 ثانیه بین درخواستها
- شروع جلسه: همیشه از صفحه اصلی شروع کنید، سپس به محصولات بروید
با این تنظیمات، موفقیت درخواستها 85-95% است که برای نظارت منظم کاملاً کافی است. 5-15% باقیمانده — درخواست مجدد از طریق IP دیگر.
نتیجهگیری و توصیهها
DataDome یک سیستم حفاظت جدی است، اما غیرقابل عبور نیست. کلید موفقیت در کار با سایتهای تحت حفاظت آن — رویکرد جامع است: نوع مناسب پروکسی، هدرهای صحیح، رفتار واقعی و استراتژی چرخش هوشمند.
نتایج اصلی مقاله:
- پروکسیهای دیتاسنتر در برابر DataDome کار نمیکنند — آنها در سطح شهرت IP مسدود میشوند
- پروکسیهای مسکونی — ابزار پایهای برای اکثر وظایف پارس کردن هستند
- پروکسیهای موبایل حداکثر اعتماد را ارائه میدهند و برای سایتهای به شدت محافظتشده مناسب هستند
- پروکسیهای خوب فقط بخشی از راهحل هستند: هدرها، کوکیها و رفتار به همان اندازه مهم هستند
- مرورگرهای ضد شناسایی در ترکیب با پروکسیهای با کیفیت بهترین نتیجه را میدهند
- استراتژی چرخش و تأخیرها بحرانی است — حتی با پروکسیهای مسکونی نیز میتوان در صورت پارس تهاجمی مسدود شد
اگر شما در حال نظارت بر قیمتها، پارس کردن کارتهای محصول یا جمعآوری دادهها از سایتهای محافظتشده توسط DataDome هستید، توصیه میکنیم با پروکسیهای مسکونی شروع کنید — آنها تعادل بهینهای بین کیفیت دور زدن حفاظت و هزینه ارائه میدهند. برای وظایفی که نیاز به حداکثر سطح اعتماد از سیستمهای ضد ربات دارند، باید به پروکسیهای موبایل فکر کنید — به ویژه اگر شما با نسخههای موبایل سایتها یا APIهای برنامههای موبایل کار میکنید.