بازگشت به وبلاگ

پروکسی برای دور زدن DataDome: چگونه حفاظت کار می‌کند و چه چیزی واقعاً در پارسینگ کمک می‌کند

DataDome ربات‌ها و پارسرها را در سایت‌های بزرگ مسدود می‌کند - بررسی می‌کنیم که این حفاظت چگونه کار می‌کند و کدام پروکسی‌ها واقعاً کمک می‌کنند تا بدون مسدودسازی آن را دور بزنیم.

📅۲۷ اردیبهشت ۱۴۰۵
```html

شما پارسر را تنظیم کرده‌اید، جمع‌آوری داده‌ها را آغاز کرده‌اید — و پس از چند دقیقه صفحه‌ای با کپچا یا پاسخ خالی دریافت می‌کنید. احتمالاً سایت توسط DataDome محافظت می‌شود. این یکی از تهاجمی‌ترین سیستم‌های ضد ربات در بازار است و پروکسی‌های معمولی از دیتاسنتر در اینجا کارساز نیستند. در این مقاله بررسی می‌کنیم که DataDome چگونه ربات‌ها را شناسایی می‌کند و کدام نوع پروکسی‌ها نتیجه می‌دهند.

DataDome چیست و کجا استفاده می‌شود

DataDome یک پلتفرم SaaS تجاری برای حفاظت در برابر ربات‌ها است که توسط فروشگاه‌های اینترنتی بزرگ، پورتال‌های خبری، بازارهای آنلاین و خدمات رزرو در سرتاسر جهان استفاده می‌شود. این شرکت در سال 2015 تأسیس شد و اکنون هزاران سایت را با مجموع ترافیک میلیاردها درخواست در روز محافظت می‌کند.

از جمله مشتریان DataDome می‌توان به پلتفرم‌هایی مانند Reddit، Foot Locker، Rakuten، AngelList و بسیاری دیگر از منابع بزرگ اشاره کرد. اگر شما در حال نظارت بر قیمت‌های رقبای خود، پارس کردن کارت‌های محصول، جمع‌آوری داده‌ها از بازارهای خارجی یا تجمیع اخبار هستید — احتمالاً با این سیستم مواجه شده‌اید.

نشانه‌های مشخصی که نشان می‌دهد سایت توسط DataDome محافظت می‌شود:

  • صفحه‌ای با کپچا پس از چند درخواست متوالی ظاهر می‌شود
  • در پاسخ سرور هدر x-datadome-cid وجود دارد
  • ریدایرکت به دامنه geo.captcha-delivery.com
  • پاسخ HTTP 403 یا 429 در صورت درخواست‌های مکرر از یک IP
  • چالش JavaScript در اولین بازدید (صفحه «بررسی مرورگر»)

DataDome در زمان واقعی کار می‌کند: هر درخواست ورودی در میلی‌ثانیه‌ها تحلیل می‌شود. سیستم تصمیم می‌گیرد که کاربر را بگذارد، کپچا را نشان دهد یا مسدود کند — حتی قبل از اینکه سرور محتوای اصلی صفحه را ارائه دهد. به همین دلیل دور زدن آن دشوارتر از مسدودسازی‌های ساده IP است.

DataDome چگونه ربات‌ها را شناسایی می‌کند: مکانیزم‌های حفاظت

برای درک اینکه کدام پروکسی‌ها کار می‌کنند، باید بفهمیم که DataDome چه چیزی را تحلیل می‌کند. سیستم از رویکرد چند لایه استفاده می‌کند — هیچ یک از عوامل به تنهایی معیار مسدودسازی نیستند. تصمیم بر اساس مجموعه‌ای از سیگنال‌ها اتخاذ می‌شود.

1. شهرت IP

اولین چیزی که DataDome بررسی می‌کند، شهرت IP بر اساس پایگاه‌های داده خارجی و داخلی است. سیستم به سرعت تشخیص می‌دهد که آیا IP متعلق به دیتاسنتر (AWS، Google Cloud، Hetzner، DigitalOcean)، ارائه‌دهنده VPN است یا یک آدرس واقعی خانگی/موبایل است. IP از دیتاسنتر به طور خودکار یک «امتیاز مشکوک» بالا دریافت می‌کند حتی قبل از تحلیل رفتار.

2. تحلیل رفتاری

DataDome الگوهای رفتاری را ردیابی می‌کند: سرعت درخواست‌ها، توالی بازدید از صفحات، زمان بین کلیک‌ها، حرکت ماوس (اگر JavaScript وجود داشته باشد). کاربر واقعی وقفه‌هایی دارد، به مسیرهای منطقی می‌رود و گاهی به عقب برمی‌گردد. ربات معمولاً درخواست‌ها را با فواصل ثابت، به URL‌های به‌طور دقیق تعیین‌شده و بدون انحرافات «تصادفی» انجام می‌دهد.

3. اثر انگشت JavaScript

اگر درخواست از طریق مرورگر (یا مرورگر بدون سر مانند Puppeteer/Playwright) انجام شود، DataDome یک اسکریپت JavaScript را اجرا می‌کند که «اثر انگشت» محیط را جمع‌آوری می‌کند: نسخه مرورگر، فونت‌های نصب‌شده، وضوح صفحه، پشتیبانی از WebGL، اثر انگشت canvas، وجود پلاگین‌ها. مرورگرهای بدون سر بدون پوشش اضافی به راحتی بر اساس پارامترهای خاص شناسایی می‌شوند.

4. هدرهای HTTP

هدرهای درخواست تحلیل می‌شوند: User-Agent، Accept-Language، Accept-Encoding، Referer، sec-ch-ua و دیگران. عدم تطابق بین User-Agent اعلام شده و پارامترهای واقعی درخواست — سیگنال قوی ربات است.

5. یادگیری ماشین در زمان واقعی

تمام سیگنال‌های جمع‌آوری شده توسط مدل ML پردازش می‌شوند که بر روی یک مجموعه داده بزرگ از کاربران واقعی و ربات‌ها آموزش دیده است. مدل به طور مداوم به‌روزرسانی می‌شود — آنچه یک ماه پیش کار می‌کرد، ممکن است امروز کار نکند. به همین دلیل است که راه‌حل‌های ایستا به سرعت قدیمی می‌شوند.

چرا پروکسی‌های دیتاسنتر در برابر DataDome کار نمی‌کنند

این سوالی است که بیشتر از سوی کسانی که تازه کار با سایت‌های محافظت‌شده را آغاز کرده‌اند، مطرح می‌شود. پروکسی‌های دیتاسنتر — ارزان، سریع و با زمان کارکرد بالا. به نظر می‌رسد انتخاب ایده‌آلی برای پارس کردن باشد. اما در برابر DataDome آنها تقریباً بی‌فایده هستند.

دلیل آن ساده است: DataDome پایگاه‌های داده ASN (سیستم‌های خودمختار) همه ارائه‌دهندگان بزرگ هاستینگ را نگهداری و استفاده می‌کند. وقتی درخواست از IP آدرسی می‌آید که متعلق به زیرشبکه Amazon Web Services یا OVH است، سیستم بلافاصله به آن وضعیت «مشکوک» می‌دهد. حتی اگر پارسر شما رفتار انسان را به طور کامل شبیه‌سازی کند — IP از دیتاسنتر شما را در معرض خطر قرار می‌دهد.

⚠️ مهم است که درک کنید

پروکسی‌های دیتاسنتر برای کارهایی که حفاظت ضعیف یا غیرموجود است، عالی هستند: پارس کردن داده‌های عمومی، کار با API بدون سیستم‌های ضد ربات، تست سرعت. اما برای سایت‌های با DataDome آنها در 90%+ موارد در ده‌ها درخواست اول مسدود می‌شوند.

یک مشکل دیگر — IP‌های «سوخته». اگر هزاران کاربر قبل از شما از همان IP برای فعالیت رباتی استفاده کرده باشند (و در استخرهای ارزان دیتاسنتر این یک قاعده است)، DataDome قبلاً تاریخ منفی برای این آدرس دارد. حتی اولین درخواست از چنین IP ممکن است مسدود شود.

پروکسی‌های مسکونی: ابزار اصلی برای دور زدن DataDome

پروکسی‌های مسکونی آدرس‌های IP هستند که متعلق به کاربران واقعی خانگی اینترنت هستند. آنها توسط ارائه‌دهندگان اینترنت (Ростелекوم، Comcast، Deutsche Telekom و غیره) صادر می‌شوند و از نظر DataDome به عنوان افراد عادی که در خانه پشت کامپیوتر نشسته‌اند، به نظر می‌رسند.

به همین دلیل پروکسی‌های مسکونی ابزار اصلی کار برای پارس کردن سایت‌های با DataDome هستند. آنها از نظر شهرت IP بررسی اولیه را انجام می‌دهند که به شما «اعتبار» برای ادامه کار می‌دهد.

چه نکاتی را باید در انتخاب پروکسی‌های مسکونی برای DataDome در نظر بگیرید

پارامتر چه چیزی مهم است چرا این موضوع بحرانی است
نوع چرخش چرخش برای هر درخواست یا جلسه 5-30 دقیقه DataDome تاریخچه IP را ردیابی می‌کند — تغییر بیش از حد مشکوک است
جغرافیایی IP از کشور سایت هدف درخواست از کشور دیگر — سیگنال اضافی مشکوکی
اندازه استخر میلیون‌ها IP، نه هزاران استخر کوچک به سرعت «سوخته» می‌شود — DataDome آدرس‌های فعال را به یاد می‌سپارد
جلسات چسبنده امکان نگه داشتن یک IP برای 10-30 دقیقه برای پارس چند صفحه‌ای یک جلسه باید به عنوان یک کاربر به نظر برسد
سرعت حداقل 5-10 مگابیت بر ثانیه برای هر اتصال پروکسی‌های کند زمان درخواست را افزایش می‌دهند که بر زمان‌بندی تأثیر می‌گذارد

نکته مهم: پروکسی‌های مسکونی به خودی خود 100% دور زدن DataDome را تضمین نمی‌کنند. آنها مشکل شهرت IP را حل می‌کنند، اما اگر پارسر شما 100 درخواست در دقیقه از یک آدرس انجام دهد یا هدرهای نادرست ارسال کند — DataDome همچنان مسدود خواهد کرد. IP فقط یکی از سطوح حفاظت است.

پروکسی‌های موبایل: زمانی که حداکثر اعتماد لازم است

پروکسی‌های موبایل آدرس‌های IP از اپراتورهای موبایل (شبکه‌های 4G/5G) هستند. آنها ویژگی خاصی دارند: یک آدرس IP از اپراتور موبایل می‌تواند به طور همزمان توسط هزاران کاربر واقعی از طریق NAT استفاده شود. DataDome این را می‌داند — و به همین دلیل به IP‌های موبایل با حداکثر اعتماد نگاه می‌کند.

مسدود کردن IP موبایل به معنای مسدود کردن پتانسیل هزاران مشتری واقعی اپراتور است — هیچ سایت معقولی این کار را نخواهد کرد. به همین دلیل پروکسی‌های موبایل بالاترین درصد موفقیت در درخواست‌ها به سایت‌های با DataDome را ارائه می‌دهند.

چه زمانی باید پروکسی‌های موبایل را به جای پروکسی‌های مسکونی انتخاب کنید:

  • سایت به شدت محافظت شده است — پروکسی‌های مسکونی حتی با فرکانس پایین درخواست‌ها مسدود می‌شوند
  • شما نسخه موبایل سایت را پارس می‌کنید — IP موبایل + User-Agent موبایل به طور طبیعی به نظر می‌رسند
  • نیاز به کار با برنامه‌ها دارید — اگر API موبایل را پارس می‌کنید، IP موبایل منطقی با درخواست مطابقت دارد
  • جلسات طولانی‌مدت — پروکسی‌های موبایل به خوبی جلسه را بدون تغییر IP نگه می‌دارند

معایب پروکسی‌های موبایل — آنها گران‌تر از پروکسی‌های مسکونی هستند و معمولاً استخر IP کمتری دارند. برای پارس مقیاس‌پذیر با هزاران درخواست در ساعت، این می‌تواند محدودیت باشد. در چنین مواردی استراتژی بهینه — استفاده از پروکسی‌های موبایل برای «جاسوسی» و صفحات پیچیده و پروکسی‌های مسکونی برای جمع‌آوری داده‌های انبوه است.

استراتژی چرخش و تأخیرها: چگونه خود را لو ندهید حتی با پروکسی‌های خوب

حتی با پروکسی‌های مسکونی یا موبایل نیز می‌توان مسدود شد، اگر استراتژی درخواست‌ها به درستی تنظیم نشود. DataDome رفتار را در سطح جلسه تحلیل می‌کند — و الگوهای غیرعادی باعث ایجاد شک می‌شوند، صرف نظر از کیفیت IP.

قوانین پارس امن از طریق DataDome

✅ چک‌لیست پارس امن

  • تأخیرها بین درخواست‌ها: از 3 تا 15 ثانیه (تصادفی، نه ثابت)
  • بیش از 20-30 درخواست از یک IP در یک جلسه
  • جلسه چسبنده: یک IP را برای یک «مسیر کاربری» نگه دارید
  • از صفحه اصلی شروع کنید، سپس به URL‌های هدف بروید
  • شبیه‌سازی ناوبری واقعی: صفحه اصلی → دسته‌بندی → محصول
  • از جغرافیای پروکسی استفاده کنید که با زبان سایت مطابقت دارد
  • پس از هر جلسه یا پس از مسدودسازی IP را تغییر دهید
  • درخواست‌های موازی را از یک IP راه‌اندازی نکنید

چرخش: چه زمانی IP را تغییر دهیم

در اینجا پاسخی جهانی وجود ندارد — همه چیز به سایت خاص بستگی دارد. اما منطق کلی این است: DataDome فعالیت IP را در یک پنجره متحرک به یاد می‌سپارد (معمولاً 10-60 دقیقه). اگر در این مدت از یک آدرس درخواست‌های مشکوک زیادی انجام شود — IP یک بن موقت دریافت می‌کند.

استراتژی بهینه — چرخش IP بر اساس تعداد درخواست‌ها، نه بر اساس زمان. به عنوان مثال: 15-25 درخواست → تغییر IP → وقفه 30-60 ثانیه → جلسه جدید. این رویکرد رفتار کاربران مختلف را شبیه‌سازی می‌کند که هر کدام چند صفحه را بازدید کرده و خارج شده‌اند.

هدرها و اثر انگشت: DataDome چه چیزهایی را علاوه بر IP بررسی می‌کند

پروکسی‌های خوب — شرط لازم، اما کافی برای دور زدن DataDome نیستند. سیستم کل درخواست را به طور کامل تحلیل می‌کند. اگر IP مسکونی باشد، اما هدرها ربات را نشان دهند — مسدودسازی همچنان اتفاق می‌افتد.

هدرهای بحرانی

اینجا آنچه DataDome در هدرهای HTTP بررسی می‌کند و به چه نکاتی باید توجه کنید:

هدر چه چیزی بررسی می‌شود خطای معمولی
User-Agent نسخه فعلی مرورگر UA قدیمی یا UA کتابخانه Python
Accept-Language زبان با جغرافیای پروکسی مطابقت دارد پروکسی از ایالات متحده، اما زبان ru-RU
sec-ch-ua با User-Agent مطابقت دارد عدم وجود هدر در هنگام اعلام Chrome
Referer زنجیره منطقی انتقال درخواست مستقیم به صفحه عمیق بدون Referer
Accept-Encoding مجموعه استاندارد مرورگر عدم وجود یا مجموعه غیر استاندارد
Cookie نگهداری کوکی‌های سشن DataDome نادیده گرفتن Set-Cookie از DataDome

توجه ویژه — به کوکی‌های DataDome. در اولین درخواست، سیستم کوکی خود را تنظیم می‌کند (معمولاً به نام datadome شناخته می‌شود). اگر پارسر شما این کوکی را در درخواست‌های بعدی ذخیره و ارسال نکند — DataDome هر درخواست را به عنوان اولین بازدید یک کاربر جدید در نظر می‌گیرد، که خود به خود در فرکانس بالا مشکوک است.

اثر انگشت TLS

حفاظت پیشرفته DataDome همچنین اثر انگشت TLS را تحلیل می‌کند — ویژگی‌های SSL/TLS handshake. کتابخانه‌های HTTP مختلف (requests، curl، axios) مجموعه‌های خاصی از cipher suites و گسترش‌های TLS دارند که با مرورگرها متفاوت است. اگر شما از کتابخانه استاندارد Python یعنی requests استفاده کنید — اثر انگشت TLS آن به راحتی شناسایی می‌شود. راه‌حل — استفاده از کتابخانه‌هایی با شبیه‌سازی TLS مرورگری (به عنوان مثال، curl-impersonate یا راه‌حل‌های تخصصی).

ابزارهای کار با سایت‌های DataDome

انتخاب ابزار مناسب برای پارس کردن به اندازه انتخاب پروکسی مهم است. وظایف مختلف نیاز به رویکردهای مختلف دارند. بیایید گزینه‌های اصلی را از نظر سازگاری با DataDome بررسی کنیم.

خودکارسازی مرورگر (Puppeteer، Playwright)

مرورگرهای بدون سر به طور نظری باید با DataDome به خوبی کار کنند، زیرا JavaScript را اجرا می‌کنند و «اثر انگشت واقعی» را تشکیل می‌دهند. در عمل، Puppeteer یا Playwright استاندارد به راحتی بر اساس پارامترهای خاص شناسایی می‌شوند: navigator.webdriver = true، عدم وجود پلاگین‌ها، مقادیر غیر استاندارد WebGL. برای دور زدن نیاز به پوشش اضافی از طریق پلاگین‌هایی مانند puppeteer-extra-plugin-stealth است.

مرورگرهای ضد شناسایی

برای کارهایی که نیاز به کار کامل با سایت دارند (نه تنها پارس کردن، بلکه تعامل)، مرورگرهای ضد شناسایی — انتخاب بهینه هستند. Dolphin Anty، AdsPower، GoLogin و Multilogin پروفایل‌های مرورگری کاملی با اثر انگشت واقع‌گرایانه ایجاد می‌کنند. در ترکیب با پروکسی‌های مسکونی یا موبایل، آنها بالاترین سطح دور زدن DataDome را ارائه می‌دهند.

الگوی اتصال در مرورگر ضد شناسایی استاندارد است: پروفایل ایجاد کنید → در تنظیمات پروکسی نوع (HTTP/SOCKS5)، هاست، پورت، نام کاربری و رمز عبور سرویس پروکسی را مشخص کنید → پروفایل را راه‌اندازی کنید. هر پروفایل در یک محیط ایزوله با اثر انگشت منحصر به فرد کار می‌کند.

خدمات پارس تخصصی

خدمات آماده‌ای وجود دارند (ScrapingBee، Apify، Bright Data Scraping Browser) که تمام کارهای دور زدن حفاظت را انجام می‌دهند — شما فقط URL را ارسال می‌کنید و HTML را دریافت می‌کنید. آنها از استخرهای پروکسی مسکونی خود استفاده می‌کنند و به طور خودکار کپچاها را حل می‌کنند. معایب — هزینه بالا در حجم‌های بزرگ و کنترل کمتر بر روی فرآیند.

مقایسه رویکردها

ابزار کارایی در برابر DataDome پیچیدگی تنظیم مقیاس‌پذیری
پارس کننده HTTP + پروکسی‌های مسکونی متوسط پایین بالا
Puppeteer/Playwright + stealth + پروکسی بالا متوسط متوسط
مرورگر ضد شناسایی + پروکسی‌های موبایل بسیار بالا پایین پایین
خدمات پارس آماده بالا بسیار پایین بالا (گران)
پروکسی‌های دیتاسنتر (هر ابزار) بسیار پایین

سناریوی عملی: نظارت بر قیمت‌ها در یک سایت محافظت‌شده

فرض کنید شما در حال نظارت بر قیمت‌های رقبای خود در یک بازار خارجی هستید که توسط DataDome محافظت می‌شود. شما باید داده‌ها را برای 5000 محصول هر 6 ساعت جمع‌آوری کنید. اینجا یک الگوی بهینه است:

  1. ابزار: Playwright با پلاگین stealth (به طور خودکار چالش JS را حل می‌کند)
  2. پروکسی: مسکونی با چرخش، جغرافیایی — کشور سایت هدف
  3. جلسه: چسبنده برای 15 دقیقه، 20 درخواست برای یک IP
  4. هدرها: User-Agent Chrome فعلی، Accept-Language صحیح
  5. کوکی‌ها: نگهداری و انتقال کوکی‌های DataDome بین درخواست‌های یک جلسه
  6. تأخیرها: تصادفی از 4 تا 12 ثانیه بین درخواست‌ها
  7. شروع جلسه: همیشه از صفحه اصلی شروع کنید، سپس به محصولات بروید

با این تنظیمات، موفقیت درخواست‌ها 85-95% است که برای نظارت منظم کاملاً کافی است. 5-15% باقی‌مانده — درخواست مجدد از طریق IP دیگر.

نتیجه‌گیری و توصیه‌ها

DataDome یک سیستم حفاظت جدی است، اما غیرقابل عبور نیست. کلید موفقیت در کار با سایت‌های تحت حفاظت آن — رویکرد جامع است: نوع مناسب پروکسی، هدرهای صحیح، رفتار واقعی و استراتژی چرخش هوشمند.

نتایج اصلی مقاله:

  • پروکسی‌های دیتاسنتر در برابر DataDome کار نمی‌کنند — آنها در سطح شهرت IP مسدود می‌شوند
  • پروکسی‌های مسکونی — ابزار پایه‌ای برای اکثر وظایف پارس کردن هستند
  • پروکسی‌های موبایل حداکثر اعتماد را ارائه می‌دهند و برای سایت‌های به شدت محافظت‌شده مناسب هستند
  • پروکسی‌های خوب فقط بخشی از راه‌حل هستند: هدرها، کوکی‌ها و رفتار به همان اندازه مهم هستند
  • مرورگرهای ضد شناسایی در ترکیب با پروکسی‌های با کیفیت بهترین نتیجه را می‌دهند
  • استراتژی چرخش و تأخیرها بحرانی است — حتی با پروکسی‌های مسکونی نیز می‌توان در صورت پارس تهاجمی مسدود شد

اگر شما در حال نظارت بر قیمت‌ها، پارس کردن کارت‌های محصول یا جمع‌آوری داده‌ها از سایت‌های محافظت‌شده توسط DataDome هستید، توصیه می‌کنیم با پروکسی‌های مسکونی شروع کنید — آنها تعادل بهینه‌ای بین کیفیت دور زدن حفاظت و هزینه ارائه می‌دهند. برای وظایفی که نیاز به حداکثر سطح اعتماد از سیستم‌های ضد ربات دارند، باید به پروکسی‌های موبایل فکر کنید — به ویژه اگر شما با نسخه‌های موبایل سایت‌ها یا API‌های برنامه‌های موبایل کار می‌کنید.

```