اگر شما در حال تحلیل بازار املاک هستید - چه یک آژانس املاک، سرمایهگذار یا تحلیلگر باشید - حتماً با یک مشکل مشابه مواجه شدهاید: سیان، دامکلیک و یاندکس املاک درخواستهای انبوه را پس از چند ده صفحه مسدود میکنند. بدون پروکسی جمعآوری یک پایگاه داده بهروز از آگهیها تقریباً غیرممکن است. در این مقاله بررسی خواهیم کرد که چه پروکسیهایی را انتخاب کنیم، چگونه آنها را تنظیم کنیم و چگونه یک فرآیند پایدار جمعآوری دادهها را ایجاد کنیم.
چرا سیان، دامکلیک و یاندکس پارس کردن را مسدود میکنند
هر سه پلتفرم - تجمیعکنندههای تجاری با دسترسی پولی به تحلیلهای پیشرفته هستند. سیان اشتراکهایی برای گزارشهای تحلیلی میفروشد، یاندکس املاک از قرار دادن آگهیها درآمدزایی میکند و دامکلیک (سبر بانک) از دادهها برای محصولات وام مسکن استفاده میکند. پارس کردن انبوه بهطور مستقیم به مدل کسبوکار آنها آسیب میزند - به همین دلیل است که هر سه سرویس بهطور فعال از درخواستهای خودکار محافظت میکنند.
اینجا چه اتفاقی میافتد وقتی شما سعی میکنید دادهها را بدون پروکسی جمعآوری کنید:
- مسدود شدن IP - پس از 50–200 درخواست از یک آدرس، سایت دیگر پاسخ نمیدهد یا خطای 403/429 را برمیگرداند.
- CAPTCHA - بهویژه سیان بهطور تهاجمی از آن استفاده میکند: یاندکس SmartCaptcha پس از چند صفحه لیست ظاهر میشود.
- کاهش سرعت پاسخها - سرور عمداً پاسخها را کند میکند تا سرعت جمعآوری دادهها را کاهش دهد.
- جایگزینی دادهها - در موارد نادر، پلتفرمها دادههای «بیفایده» را به رباتها میدهند تا پایگاه داده را خراب کنند.
- مسدود شدن User-Agent - هدرهای استاندارد پارسرها بهراحتی شناسایی و مسدود میشوند.
وضعیت با این واقعیت تشدید میشود که سیان در سالهای اخیر بهطور قابل توجهی امنیت خود را تقویت کرده است: اکنون آنها نه تنها IP بلکه الگوهای رفتاری را نیز تحلیل میکنند - سرعت اسکرول، زمان بین درخواستها، ترتیب مشاهده صفحات. این بدان معناست که فقط تغییر IP کافی نیست - نیاز به تنظیمات جامع است.
مهم است که درک کنید:
مسدودیتها در این پلتفرمها بر اساس یک الگوی انباشته عمل میکنند. 100 درخواست اول ممکن است بهطور عادی انجام شود، اما سپس IP به لیست سیاه برای 24–72 ساعت میافتد. به همین دلیل است که چرخش پروکسی - یک گزینه نیست، بلکه یک شرط لازم برای کار پایدار است.
چه دادههایی توسط حرفهایهای بازار املاک جمعآوری میشود
قبل از صحبت درباره جنبههای فنی، بیایید بررسی کنیم - چرا اساساً باید این پلتفرمها را پارس کنیم و چه وظایفی را در عمل حل میکند. درک هدف بهطور مستقیم بر انتخاب ابزارها و نوع پروکسی تأثیر میگذارد.
آژانسهای املاک و سازندگان
پایگاههای داده آگهیهای رقبای خود را جمعآوری میکنند: قیمتها به ازای هر متر مربع بر اساس مناطق، تغییرات قیمت، میانگین زمان نمایش املاک. این امکان را فراهم میکند که املاک خود را بهدرستی موقعیتیابی کرده و سیاست قیمتگذاری را شکل دهند. آژانسهای بزرگ روزانه هزاران آگهی را رصد میکنند - انجام این کار بهصورت دستی غیرممکن است.
سرمایهگذاران در املاک
نسبت قیمت فروش و اجاره (yield) را تحلیل میکنند، به دنبال املاک undervalued میگردند و ظهور آگهیهای جدید با تخفیف را رصد میکنند. برای سرمایهگذار سرعت مهم است - آگهی با قیمت پایینتر از بازار در عرض چند ساعت فروخته میشود، بنابراین نیاز به رصد در زمان واقعی است.
تحلیلگران و بازاریابان
گزارشهایی درباره وضعیت بازار تهیه میکنند، ارائههایی برای مشتریان آماده میکنند و تقاضا را بر اساس بخشها (استودیو، دوخوابه، املاک خارج از شهر) بررسی میکنند. آنها به دادههای تاریخی نیاز دارند - تغییرات قیمت در 3–6–12 ماه گذشته بر اساس مناطق خاص و نوع املاک.
فیلدهای معمول برای جمعآوری دادهها
| فیلد | منبع | کاربرد |
|---|---|---|
| قیمت آگهی | سیان، دامکلیک، یاندکس | تحلیل دامنههای قیمتی |
| مساحت، طبقه، نوع ساختمان | سیان، دامکلیک | بخشبندی و فیلتر کردن |
| منطقه، مترو، آدرس | هر سه پلتفرم | تحلیل جغرافیایی |
| تاریخ انتشار و بهروزرسانی | سیان، یاندکس | زمان نمایش |
| عکسهای ملک | هر سه پلتفرم | تحلیل کیفی |
| اطلاعات تماس فروشنده | سیان (بهطور جزئی) | ایجاد پایگاه داده مشتریان |
کدام پروکسیها برای پارس کردن املاک مناسب هستند
انتخاب نوع پروکسی - یک تصمیم کلیدی است که بستگی دارد به اینکه آیا شما دائماً با مسدودیتها مبارزه خواهید کرد یا به آرامی پایگاه داده مورد نیاز خود را جمعآوری خواهید کرد. بیایید سه گزینه اصلی را در ارتباط با وظایف پارس کردن سیان، دامکلیک و یاندکس املاک بررسی کنیم.
پروکسیهای مسکونی - انتخاب بهینه برای سیان
پروکسیهای مسکونی از آدرسهای IP کاربران واقعی خانگی استفاده میکنند - این آدرسها بهعنوان ترافیک عادی توسط پلتفرمها درک میشوند. از نظر سیان یا یاندکس، درخواست بهعنوان یک فرد عادی که در خانه نشسته و آگهیها را مرور میکند، به نظر میرسد. این باعث میشود پروکسیهای مسکونی تقریباً با روشهای استاندارد حفاظت قابل شناسایی نباشند.
مزیت اصلی - مجموعه بزرگ آدرسهای IP است که اجازه میدهد پس از هر درخواست یا هر صفحه چرخش انجام شود. نقص - سرعت کمی پایینتر از پروکسیهای دیتاسنتر است و قیمت بالاتری دارد. برای پارس کردن املاک، جایی که ثبات مهمتر از سرعت است، این گزینه بهینه است.
پروکسیهای موبایلی - برای موارد پیچیده با حفاظت سخت
پروکسیهای موبایلی - آدرسهای IP اپراتورهای موبایل (MTS، بیلین، مگا فون) هستند. ویژگی آنها این است که یک IP موبایلی میتواند بهطور همزمان توسط صدها کاربر واقعی از طریق NAT استفاده شود. به همین دلیل پلتفرمها بهندرت آدرسهای موبایلی را مسدود میکنند - مسدود کردن یک IP به معنای مسدود کردن صدها نفر زنده است که از نظر کسبوکار غیرقابل قبول است.
پروکسیهای موبایلی باید زمانی استفاده شوند که سیان الگوهای کار شما را «به خاطر سپرده» و حتی آدرسهای مسکونی را مسدود میکند. این گزینه مقاومترین در برابر شناسایی است، اما همچنین گرانترین است.
پروکسیهای دیتاسنتر - برای حجمهای بزرگ با احتیاط
پروکسیهای دیتاسنتر - سریع و ارزان هستند، اما بهراحتی شناسایی میشوند. سیان و یاندکس مدتهاست که اکثر زیرشبکههای محبوب دیتاسنتر را در لیست سیاه قرار دادهاند. استفاده از آنها برای پارس کردن سیان در سال 2024 به معنای مواجهه مداوم با مسدودیتها و صرف زمان برای تغییر مجموعهها است.
پروکسیهای دیتاسنتر ممکن است برای دامکلیک مناسب باشند که حفاظت کمتری دارد یا برای آزمایش ساختار صفحات قبل از تنظیم پارسر اصلی.
| نوع پروکسی | سیان | دامکلیک | یاندکس املاک | هزینه |
|---|---|---|---|---|
| مسکونی | ✅ عالی | ✅ عالی | ✅ عالی | متوسط |
| موبایلی | ✅ عالی | ✅ عالی | ✅ عالی | بالا |
| دیتاسنتر | ❌ مسدودیتها | ⚠️ بهطور جزئی | ❌ مسدودیتها | پایین |
تنظیم پروکسی برای سیان: بررسی گام به گام
سیان - از نظر فنی پیچیدهترین پلتفرم از بین سه پلتفرم است. در اینجا از حفاظت چندلایه استفاده میشود: محدودیت نرخ بر اساس IP، تحلیل رفتار، یاندکس SmartCaptcha و بررسی هدرهای مرورگر. توضیح خواهیم داد که چگونه بهدرستی کار را تنظیم کنید.
گام 1. پروکسی با IPهای روسی دریافت کنید
سیان - یک پلتفرم روسی است و درخواستها از IPهای خارجی بلافاصله مشکوک میشوند. اطمینان حاصل کنید که پروکسیهای مسکونی شما دارای موقعیت جغرافیایی روسی هستند - ترجیحاً مسکو یا سنپترزبورگ، زیرا بیشتر آگهیها در آنجا متمرکز شدهاند. هنگام انتخاب ارائهدهنده، از وجود IPهای مسکونی روسی در مجموعه سؤال کنید.
گام 2. چرخش IP را تنظیم کنید
برای سیان توصیه میشود که IP را هر 5–10 درخواست تغییر دهید، بدون اینکه منتظر مسدودیت باشید. بیشتر ارائهدهندگان پروکسیهای مسکونی یک endpoint چرخشی ارائه میدهند - یک آدرس و پورت که بهطور خودکار IP جدیدی را با هر اتصال ارائه میدهد. این کار تنظیمات را بهطور قابل توجهی ساده میکند: نیازی به تغییر دستی بین آدرسها نیست.
گام 3. تأخیرها بین درخواستها را تنظیم کنید
حتی با پروکسیها نباید درخواستها را با حداکثر سرعت ارسال کنید. یک فرد واقعی 5–30 ثانیه را برای مشاهده یک صفحه صرف میکند. این رفتار را شبیهسازی کنید: تأخیر 3–8 ثانیه بین درخواستها بهطور قابل توجهی خطر مسدودیت را کاهش میدهد. اگر از یک پارسر آماده یا ابزار بدون کد استفاده میکنید - به دنبال تنظیم «تأخیر» یا «delay» در پارامترها باشید.
گام 4. هدرهای درخواست را بهدرستی تنظیم کنید
سیان هدرهای HTTP را تحلیل میکند. درخواست بدون User-Agent یا با هدر «python-requests/2.28» بهسرعت بهعنوان ربات شناسایی میشود. از رشتههای User-Agent واقعی مرورگرهای بهروز (Chrome، Firefox) استفاده کنید. همچنین مهم است که هدرهای Accept-Language (ru-RU)، Referer و Accept-Encoding را منتقل کنید - اینها درخواست را شبیه به مرورگر میکند.
گام 5. با صفحهبندی بهطور پیوسته کار کنید
بهطور ناگهانی به صفحه 50 یا 100 نپرید - این رفتار غیرعادی است. از صفحه اول شروع کنید و بهطور پیوسته به صفحات بعدی بروید. اگر نیاز به جمعآوری دادهها از چندین شهر دارید - بهتر است چندین جلسه موازی با IPهای مختلف راهاندازی کنید که هرکدام در منطقه خود کار میکنند.
ویژگیهای پارس کردن دامکلیک و یاندکس املاک
دامکلیک (سبر بانک)
دامکلیک نسبت به سیان حفاظت ملایمتری دارد، اما این بدان معنا نیست که پارس کردن در آنجا آسان است. این پلتفرم از بارگذاری دینامیک دادهها از طریق API استفاده میکند - این بدان معناست که فقط دانلود HTML صفحه کافی نیست: دادههای آگهیها از طریق درخواستهای JavaScript به API داخلی بارگذاری میشوند.
خبر خوب: API دامکلیک دادهها را در فرمت JSON ارائه میدهد که بهطور قابل توجهی برای پارس کردن راحتتر از تجزیه HTML است. خبر بد: درخواستها به API نیز بر اساس IP رصد میشوند و با تعداد زیادی درخواست از یک آدرس، مسدودیت موقتی خواهید داشت.
رویکرد پیشنهادی برای دامکلیک: استفاده از پروکسیهای مسکونی با چرخش هر 15–20 درخواست. این امکان را فراهم میکند که دادهها بهطور پایدار جمعآوری شوند بدون اینکه دائماً مسدود شوند.
یاندکس املاک
یاندکس املاک - احتمالاً پیچیدهترین پلتفرم از نظر دور زدن حفاظت است. دلیل آن ساده است: یاندکس از زیرساخت حفاظت از رباتهای خود استفاده میکند که در سطح کل اکوسیستم یکپارچه شده است. SmartCaptcha یاندکس یکی از پیشرفتهترین سیستمها در بازار روسیه است.
یاندکس نه تنها IP را تحلیل میکند، بلکه کوکیها، اثر انگشت مرورگر و تاریخچه جلسه را نیز بررسی میکند. این بدان معناست که برای پارس کردن پایدار یاندکس املاک باید یا از یک مرورگر headless کامل (Playwright، Puppeteer) استفاده کنید یا از طریق خدمات پارسینگ تخصصی با دور زدن حفاظت یاندکس کار کنید.
نکته عملی:
اگر به دادهها از هر سه پلتفرم نیاز دارید، با دامکلیک شروع کنید - در آنجا آسانترین است که جمعآوری پایدار را تنظیم کنید. دادههای سیان و یاندکس املاک اغلب با هم تداخل دارند، بنابراین دامکلیک میتواند بخش قابل توجهی از بازار را بدون پیچیدگیهای اضافی پوشش دهد.
ابزارهای آماده برای پارس کردن بدون کد
اگر شما برنامهنویس نیستید، اما میخواهید دادههای املاک را جمعآوری کنید - چندین راهحل آماده وجود دارد که از اتصال پروکسی پشتیبانی میکنند و نیازی به نوشتن کد ندارند.
Octoparse
سازنده بصری پارسرها با پشتیبانی از پروکسی. شما فقط روی عناصر مورد نظر صفحه کلیک میکنید، مشخص میکنید که چه چیزی را میخواهید جمعآوری کنید و برنامه بهطور خودکار منطق پارس کردن را میسازد. از اتصال پروکسیهای خارجی پشتیبانی میکند - کافی است آدرس، پورت، نام کاربری و رمز عبور را در تنظیمات وارد کنید. بهخوبی با دامکلیک کار میکند.
ParseHub
ابزاری مشابه با رابط کاربری سادهتر. از صفحات دینامیک با JavaScript پشتیبانی میکند - که برای دامکلیک و یاندکس املاک مهم است. پروکسیها در تنظیمات پروژه متصل میشوند. طرح رایگان محدود به تعداد صفحات است، برای نظارت جدی به نسخه پولی نیاز دارید.
Apify
پلتفرم ابری برای پارس کردن با «اکترهای» آماده (شابلونهای پارسرها). راهحلهای آماده برای تجمیعکنندههای املاک وجود دارد. از اتصال پروکسیهای خود از طریق تنظیمات پشتیبانی میکند. مزیت آن این است که در ابر کار میکند - نیازی به روشن نگهداشتن کامپیوتر برای نظارت طولانی نیست.
n8n + درخواستهای HTTP
برای کسانی که میخواهند فرآیند را بدون برنامهنویسی عمیق خودکار کنند: n8n - سازنده بصری اتوماسیون است که میتواند درخواستهای HTTP را با پروکسی ارسال کند. برای کار با API دامکلیک مناسب است - میتوانید جمعآوری خودکار دادهها را بر اساس زمانبندی تنظیم کرده و آنها را به Google Sheets یا پایگاه داده صادر کنید.
| ابزار | بدون کد | پشتیبانی از پروکسی | صفحات JS | پیچیدگی |
|---|---|---|---|---|
| Octoparse | ✅ بله | ✅ بله | ✅ بله | پایین |
| ParseHub | ✅ بله | ✅ بله | ✅ بله | پایین |
| Apify | ⚠️ بهطور جزئی | ✅ بله | ✅ بله | متوسط |
| n8n | ⚠️ بهطور جزئی | ✅ بله | ⚠️ بهطور جزئی | متوسط |
چرخش پروکسی و ضد مسدود شدن: قوانین کار ایمن
حتی بهترین پروکسیها نیز در صورتی که بهدرستی استفاده نشوند، نخواهند توانست شما را نجات دهند. چرخش - فقط تغییر IP نیست، بلکه یک استراتژی رفتاری است که پارسر شما را شبیه به کاربران زنده میکند.
چگونه چرخش را بهدرستی تنظیم کنیم
فرکانس تغییر IP: برای سیان - هر 5–10 درخواست، برای دامکلیک - هر 15–20 درخواست، برای یاندکس املاک - هر 3–5 درخواست (حفاظت بسیار تهاجمی). اگر از endpoint چرخشی ارائهدهنده استفاده میکنید، این کار بهطور خودکار انجام میشود.
جلسات چسبنده در مقابل چرخش: برخی از وظایف نیاز به کار با یک IP در طول کل جلسه دارند - بهعنوان مثال، اگر نیاز به ورود به حساب کاربری دارید. در این صورت از جلسات چسبنده (IP ثابت به مدت 5–30 دقیقه) استفاده کنید. برای جمعآوری ساده آگهیها بدون ورود - چرخش پس از هر درخواست.
توزیع جغرافیایی: اگر دادهها را از چندین شهر جمعآوری میکنید، از پروکسیهای مربوط به مناطق استفاده کنید. درخواست برای آگهیهای مسکو از یک IP مسکو بهطور طبیعیتر به نظر میرسد تا از IPای از نووسیبیرسک.
چه چیز دیگری بر احتمال مسدودیت تأثیر میگذارد
- سرعت درخواستها - بیش از 1 درخواست در 2 ثانیه از یک IP خطر مسدودیت را بهطرز چشمگیری افزایش میدهد.
- زمان روز - پارس کردن در شب از 2:00 تا 6:00 کمتر قابل مشاهده است، زیرا ترافیک کمتر است.
- همزمانی - بهتر است 10 رشته با IPهای مختلف داشته باشید تا 1 رشته با سرعت بالا.
- کوکیها و جلسات - کوکیها را همراه با تغییر IP بازنشانی کنید، در غیر این صورت جلسه به آدرس قدیمی متصل میشود.
- Referer - شبیهسازی کنید که از موتور جستجو یا از صفحه اصلی سایت عبور کردهاید.
- User-Agent صحیح - از نسخههای بهروز Chrome یا Firefox استفاده کنید، نه نسخههای قدیمی.
چگونه به مسدودیت واکنش نشان دهیم
اگر پارسر شروع به دریافت پاسخهای 403 یا 429 کرد - سعی نکنید با همان IP ادامه دهید. بلافاصله به یک آدرس جدید تغییر دهید و قبل از درخواست بعدی 30–60 ثانیه استراحت کنید. اگر مسدودیتها افزایش یافت - تأخیر بین درخواستها را افزایش دهید و فرکانس تغییر IP را کاهش دهید (پارادوکسیکال، اما تغییر بیش از حد مکرر نیز میتواند سیگنالی برای سیستمهای حفاظت باشد).
چکلیست: چگونه در جمعآوری دادهها درباره املاک مسدود نشوید
از این چکلیست قبل از راهاندازی پارسر استفاده کنید - این به شما کمک میکند تا از بیشتر اشتباهات رایج جلوگیری کنید.
✅ چکلیست قبل از راهاندازی پارسر
- پروکسیها دارای موقعیت جغرافیایی روسی (مسکو / سنپترزبورگ) هستند
- از پروکسیهای مسکونی یا موبایلی استفاده میشود (نه دیتاسنتر برای سیان)
- چرخش IP تنظیم شده است (هر 5–15 درخواست)
- تأخیر بین درخواستها حداقل 3 ثانیه است
- User-Agent بهعنوان مرورگر بهروز تنظیم شده است
- هدرهای Accept-Language: ru-RU منتقل شدهاند
- کوکیها همراه با تغییر IP بازنشانی میشوند
- پارس کردن بهطور پیوسته انجام میشود (صفحه 1 → 2 → 3، نه بهطور تصادفی)
- پردازش خطاهای 403/429 با توقف خودکار تنظیم شده است
- رشتههای موازی از IPهای مختلف استفاده میکنند
- پارسر بر روی 10–20 صفحه قبل از راهاندازی کامل آزمایش شده است
- دادهها بهطور افزایشی ذخیره میشوند (فقط در پایان نه)
اشتباهات رایج مبتدیان
اشتباه 1: راهاندازی بدون آزمایش. بسیاری بلافاصله پارسر را بر روی 10,000 صفحه راهاندازی میکنند - و پس از 15 دقیقه مسدود میشوند. همیشه با کم شروع کنید: 20–30 صفحه، بررسی کنید که دادهها بهدرستی جمعآوری میشوند، اطمینان حاصل کنید که مسدودیتی وجود ندارد و سپس مقیاس را افزایش دهید.
اشتباه 2: یک IP برای تمام وظایف. اگر از یک پروکسی هم برای آزمایش و هم برای پارس کردن واقعی استفاده میکنید - IP بهسرعت شناسایی میشود. مجموعههای جداگانه برای وظایف مختلف نگهدارید.
اشتباه 3: نادیده گرفتن خطاها. پارسر باید بهدرستی پاسخهای 403، 429، 503 را پردازش کند - توقف کند، IP را تغییر دهد و درخواست را تکرار کند. بدون این منطق، دادهها را از دست خواهید داد و IP را شناسایی خواهید کرد.
اشتباه 4: پارس کردن 24/7 با یک مجموعه. حتی پروکسیهای خوب در بارگذاری مداوم «خسته» میشوند. برنامهریزی برای استراحت - بهعنوان مثال، 2 ساعت کار، 30 دقیقه استراحت. این بار روی IP مجموعه را کاهش میدهد و الگو را کمتر برای سیستمهای حفاظت قابل شناسایی میکند.
نتیجهگیری
پارس کردن سیان، دامکلیک و یاندکس املاک - ابزاری واقعی برای تحلیل بازار است، اگر با پایه فنی صحیح به آن نزدیک شوید. نکته اصلی که باید به خاطر بسپارید: کیفیت پروکسی و چرخش صحیح - پایهای برای کار پایدار است. بدون این، شما زمان خود را صرف مبارزه با مسدودیتها بهجای تحلیل دادهها خواهید کرد.
خلاصه: برای سیان از پروکسیهای مسکونی با چرخش هر 5–10 درخواست و تأخیر حداقل 3 ثانیه استفاده کنید. دامکلیک بیشتر ملایم است، اما همچنین به پروکسی نیاز دارد. یاندکس املاک - پیچیدهترین پلتفرم است، به یک مرورگر headless کامل و پروکسیهای با کیفیت نیاز دارد. برای کار بدون کد، Octoparse یا ParseHub با اتصال پروکسیهای خارجی مناسب هستند.
اگر قصد دارید نظارت منظم بر قیمتهای املاک یا جمعآوری پایگاه داده آگهیها برای تحلیل داشته باشید، توصیه میکنیم با پروکسیهای مسکونی با موقعیت جغرافیایی روسی شروع کنید - آنها تعادل بهینهای بین ثبات کار و هزینه فراهم میکنند و برای هر سه پلتفرم بسیار مناسب هستند.