بازگشت به وبلاگ

چگونه مصرف ترافیک پروکسی را با کش کردن ۷۰٪ کاهش دهیم: راهنمایی برای پارسینگ و اتوماسیون

بیاموزید که چگونه کش داده‌ها را به درستی تنظیم کنید تا هزینه‌های پروکسی را در حین پارس کردن بازارها، نظارت بر قیمت‌ها و خودکارسازی وظایف روزمره کاهش دهید.

📅۱۹ بهمن ۱۴۰۴
```html

اگر به طور منظم به پارس کردن Wildberries، نظارت بر قیمت‌های رقبای خود در Ozon یا اتوماسیون جمع‌آوری داده‌ها مشغول هستید — می‌دانید که هزینه‌های پروکسی می‌تواند به شدت بر بودجه تأثیر بگذارد. درخواست‌ها به یک صفحه خاص، بارگذاری مجدد داده‌های ایستا، به‌روزرسانی اطلاعاتی که تغییر نکرده‌اند — همه این‌ها ترافیک و پول را مصرف می‌کند. راه‌حل ساده است: کش کردن داده‌ها به درستی می‌تواند بار روی پروکسی را بدون از دست دادن به‌روزرسانی اطلاعات تا 50-70% کاهش دهد.

در این راهنما روش‌های عملی کش کردن برای وظایف مختلف را بررسی خواهیم کرد: از پارس کردن بازارها تا نظارت بر رقبا. شما خواهید آموخت که چه داده‌هایی را می‌توان به‌طور ایمن کش کرد، چگونه زمان نگهداری را تنظیم کنید و از چه ابزارهایی بدون نیاز به مهارت‌های برنامه‌نویسی استفاده کنید.

چرا کش کردن برای کار با پروکسی حیاتی است

تصور کنید: شما هر ساعت قیمت 500 محصول را در Wildberries نظارت می‌کنید. بدون کش کردن، پارسر شما هر ساعت 500 درخواست از طریق پروکسی انجام می‌دهد — این 12,000 درخواست در روز است. با توجه به هزینه متوسط پروکسی‌های مسکونی، این به هزینه‌های قابل توجهی منجر می‌شود، به‌ویژه اگر بخش بزرگی از داده‌ها اساساً تغییر نکند.

آمار نشان می‌دهد که هنگام پارس کردن بازارها، تا 60-70% درخواست‌ها داده‌های یکسانی را برمی‌گردانند: توضیحات محصولات تغییر نمی‌کنند، ویژگی‌ها ثابت می‌مانند، تصاویر ایستا هستند. تنها قیمت‌ها، موجودی‌ها و موقعیت‌ها در نتایج تغییر می‌کنند. اگر داده‌های ایستا را کش کنید و فقط داده‌های پویا را به‌روزرسانی کنید — صرفه‌جویی در ترافیک به 50-70% می‌رسد.

مثال واقعی: یک فروشگاه اینترنتی قیمت 1200 محصول رقبای خود را در Ozon بدون کش کردن نظارت می‌کرد — مصرف 28,800 درخواست در روز. پس از پیاده‌سازی کش کردن داده‌های ایستا (توضیحات، ویژگی‌ها) با به‌روزرسانی هر 7 روز و کش قیمت‌ها به مدت 1 ساعت — مصرف به 9,600 درخواست کاهش یافت. صرفه‌جویی در ترافیک پروکسی 67% بود.

کش کردن سه مشکل کلیدی را حل می‌کند:

  • کاهش هزینه‌های ترافیک پروکسی — درخواست‌های کمتر = پرداخت کمتر برای گیگابایت‌ها
  • کاهش ریسک مسدود شدن — درخواست‌های کمتر به سایت هدف = احتمال پایین‌تر برای قرار گرفتن در لیست سیاه به دلیل فراوانی
  • تسریع عملکرد پارسر — داده‌های کش شده به‌طور آنی ارائه می‌شوند، بدون تأخیر در درخواست‌های شبکه‌ای

چه داده‌هایی را می‌توان هنگام پارس کردن کش کرد

همه داده‌ها به یک اندازه برای کش کردن مناسب نیستند. مهم است که اطلاعات را به ایستا (که به ندرت تغییر می‌کند) و پویا (که به‌طور مکرر به‌روزرسانی می‌شود) تقسیم کنید. استراتژی نادرست کش کردن می‌تواند منجر به داده‌های قدیمی یا عدم صرفه‌جویی شود.

نوع داده فراوانی به‌روزرسانی زمان کش صرفه‌جویی در ترافیک
توضیحات محصولات یک بار در ماه 7-14 روز تا 80%
ویژگی‌ها و پارامترها یک بار در ماه 7-14 روز تا 75%
تصاویر محصولات یک بار در 2-4 هفته 14-30 روز تا 90%
نظرات مشتریان روزانه 12-24 ساعت تا 50%
قیمت محصولات چند بار در روز 1-3 ساعت تا 40%
موجودی در انبار هر ساعت 30-60 دقیقه تا 30%
موقعیت‌ها در نتایج به‌طور مداوم کش نکنید 0%

قانون طلایی: هرچه داده‌ها کمتر تغییر کنند، مدت زمان بیشتری می‌توان آن‌ها را در کش نگه داشت. توضیحات محصولات در Wildberries یا Ozon به ندرت به‌روزرسانی می‌شوند — می‌توان آن‌ها را با اطمینان به مدت یک یا دو هفته کش کرد. قیمت‌ها بیشتر تغییر می‌کنند، اما حتی در اینجا کش به مدت 1-3 ساعت صرفه‌جویی قابل توجهی به همراه خواهد داشت، اگر به نظارت در زمان واقعی نیاز ندارید.

استراتژی‌های کش کردن برای وظایف مختلف

کش کردن مؤثر فقط به معنای "ذخیره‌سازی داده‌ها برای یک روز" نیست. برای هر وظیفه به یک استراتژی خاص نیاز است که تعادل بین به‌روزرسانی داده‌ها و صرفه‌جویی در ترافیک را در نظر بگیرد. بیایید به روش‌های آزمایش شده برای سناریوهای معمولی نگاهی بیندازیم.

کش کردن چند سطحی

مؤثرترین استراتژی — تقسیم داده‌ها به چند سطح با زمان‌های نگهداری متفاوت است. این کار به حداکثر کاهش بار روی پروکسی کمک می‌کند و در عین حال به‌روزرسانی داده‌های حیاتی را حفظ می‌کند.

مثال کش چند سطحی برای پارس کردن Wildberries:

  • سطح 1 (30 روز): تصاویر محصولات، برندها، دسته‌ها
  • سطح 2 (7 روز): توضیحات، ویژگی‌ها، ترکیب
  • سطح 3 (24 ساعت): امتیازات، تعداد نظرات
  • سطح 4 (2 ساعت): قیمت‌ها، تخفیف‌ها، پیشنهادات
  • بدون کش: موجودی در انبار، موقعیت‌ها در نتایج

با این استراتژی، به جای 1000 درخواست برای 1000 محصول هر 2 ساعت، شما تقریباً 300-350 درخواست انجام می‌دهید: بخش عمده‌ای از داده‌ها از کش گرفته می‌شود و تنها درخواست‌ها برای قیمت‌های جدید و موجودی‌ها از طریق پروکسی انجام می‌شود.

کش کردن با بررسی تغییرات

یک رویکرد پیشرفته‌تر — استفاده از درخواست‌های شرطی است. به جای بارگذاری کامل صفحه، شما یک درخواست سبک برای بررسی ارسال می‌کنید: آیا داده‌ها از آخرین بار تغییر کرده‌اند؟ اگر نه — از کش استفاده کنید، اگر بله — به‌روزرسانی را بارگذاری کنید.

بسیاری از وب‌سایت‌ها از هدرهای HTTP برای درخواست‌های شرطی پشتیبانی می‌کنند: If-Modified-Since یا ETag. اگر صفحه تغییر نکرده باشد، سرور کد 304 (Not Modified) را بدون بدنه پاسخ برمی‌گرداند — شما 95% ترافیک را در این درخواست صرفه‌جویی می‌کنید.

به‌روزرسانی هوشمند کش

به جای به‌روزرسانی همه داده‌ها بر اساس زمان‌بندی، فقط داده‌هایی را که احتمال تغییر آن‌ها بالا است به‌روزرسانی کنید. به عنوان مثال، اگر محصولی در یک پیشنهاد است — قیمت را هر ساعت بررسی کنید. اگر محصول عادی بدون تغییر در 2 هفته گذشته است — هر روز یک بار بررسی کنید.

نکته: تاریخچه تغییرات را پیگیری کنید. اگر قیمت یک محصول هر روز تغییر می‌کند — زمان کش را به 1 ساعت کاهش دهید. اگر قیمت در یک ماه پایدار است — آن را به 6-12 ساعت افزایش دهید. کش کردن تطبیقی می‌تواند 20-30% صرفه‌جویی اضافی به همراه داشته باشد.

ابزارهای کش کردن بدون برنامه‌نویسی

برای تنظیم کش کردن نیازی به برنامه‌نویس بودن نیست. ابزارهای مدرن پارس کردن و اتوماسیون دارای ویژگی‌های داخلی کش هستند که از طریق رابط گرافیکی تنظیم می‌شوند.

Octoparse — پارسر با سازنده بصری

Octoparse — ابزار محبوبی برای پارس کردن وب‌سایت‌ها بدون کد. در تنظیمات وظیفه، بخشی به نام "تنظیمات پیشرفته" → "مدیریت کش" وجود دارد که می‌توانید مشخص کنید:

  • کدام عناصر صفحه را کش کنید (تصاویر، بلوک‌های متنی، جداول)
  • زمان نگهداری کش (از 1 ساعت تا 30 روز)
  • شرایط به‌روزرسانی (بر اساس زمان‌بندی یا هنگام تغییر برخی فیلدها)

مثال تنظیمات برای پارس کردن Ozon: بلوک توضیحات محصول را به مدت 7 روز کش می‌کنیم، بلوک قیمت را به مدت 2 ساعت. Octoparse به‌طور خودکار درخواست‌ها به توضیحات را نادیده می‌گیرد اگر آن‌ها در کش موجود باشند و فقط قیمت‌ها را از طریق پروکسی به‌روزرسانی می‌کند.

ParseHub — کش کردن برای وب‌سایت‌های پیچیده

ParseHub بر پارس کردن وب‌سایت‌های با محتوای دینامیک (JavaScript، AJAX) تمرکز دارد. در بخش "تنظیمات پروژه" گزینه "کش کردن داده‌ها" وجود دارد:

  • کش هوشمند — به‌طور خودکار عناصر ایستا را شناسایی و کش می‌کند
  • قوانین کش سفارشی — شما به‌صورت دستی انتخاب می‌کنید که کدام عناصر با CSS برای کش استفاده شوند
  • مدت زمان کش — زمان عمر کش از 30 دقیقه تا 90 روز

ParseHub به خوبی با بازارهایی که دارای JavaScript زیاد هستند کار می‌کند: Wildberries، AliExpress، یاندکس.مارکت. این ابزار به‌طور خودکار شناسایی می‌کند که کدام داده‌ها به‌طور دینامیک بارگذاری می‌شوند و درخواست‌های تکراری را کش می‌کند.

Screaming Frog — برای متخصصان SEO

اگر از Screaming Frog برای تحلیل وب‌سایت‌های رقبای خود یا نظارت بر موقعیت‌ها استفاده می‌کنید، کش داخلی مقدار زیادی ترافیک را صرفه‌جویی می‌کند. در تنظیمات "پیکربندی" → "عنکبوت" → "پیشرفته" را فعال کنید:

  • کش صفحات — ذخیره HTML صفحات به‌طور محلی
  • کش تصاویر و CSS — عدم بارگذاری مجدد منابع ایستا
  • استفاده از داده‌های کش شده — در اسکن مجدد از داده‌های ذخیره شده استفاده کنید

این کار به‌ویژه در نظارت منظم بر وب‌سایت‌های مشابه مفید است: اسکن اول همه چیز را از طریق پروکسی بارگذاری می‌کند، اسکن‌های بعدی فقط صفحات تغییر یافته را بارگذاری می‌کنند.

کش کردن هنگام پارس کردن بازارها

بازارها — محبوب‌ترین وظیفه برای پارس کردن در بین کسب‌وکارهای تجارت الکترونیک هستند. Wildberries، Ozon، یاندکس.مارکت ساختار داده‌های مشابهی دارند که اجازه می‌دهد استراتژی کش کردن عمومی را اعمال کنید.

پارس کردن Wildberries با حداقل مصرف ترافیک

وظیفه معمول: نظارت بر 500 محصول رقیب. بدون کش کردن — 500 درخواست هر 2 ساعت = 6000 درخواست در روز. با کش مناسب — تا 1500-2000 درخواست در روز.

تنظیم مرحله به مرحله کش برای Wildberries:

  1. اولین درخواست به محصول: تمام اطلاعات محصول (توضیحات، ویژگی‌ها، تصاویر) را در پایگاه داده محلی یا فایل JSON ذخیره کنید
  2. کد محصول را استخراج و جداگانه ذخیره کنید — این شناسه منحصر به فرد است
  3. در درخواست بعدی: بررسی کنید که آیا کد در کش وجود دارد و آیا زمان نگهداری آن منقضی نشده است
  4. اگر کش معتبر است: توضیحات و ویژگی‌ها را از کش بگیرید، از طریق پروکسی فقط بلوک قیمت و موجودی‌ها را درخواست کنید (این یک API-endpoint جداگانه در Wildberries است)
  5. داده‌های کش شده را با قیمت جدید ترکیب کنید — اطلاعات کامل و به‌روز را دریافت کنید

Wildberries قیمت‌ها و موجودی‌ها را از طریق یک درخواست API سبک جداگانه ارائه می‌دهد (تقریباً 2-5 کیلوبایت به جای 200-500 کیلوبایت صفحه کامل). اگر بخش سنگین را کش کنید و فقط قیمت‌ها را درخواست کنید — صرفه‌جویی در ترافیک به 90-95% می‌رسد.

بهینه‌سازی پارس کردن Ozon

Ozon دارای حفاظت بیشتری در برابر پارس کردن است، بنابراین هر درخواست اضافی خطر مسدود شدن را افزایش می‌دهد. کش کردن در اینجا نه تنها هزینه‌ها را صرفه‌جویی می‌کند، بلکه احتمال بن شدن را نیز کاهش می‌دهد.

ویژگی Ozon: کارت‌های محصولات معمولاً شامل بلوک‌های یکسانی هستند (توضیحات برند، ویژگی‌های استاندارد دسته). اگر شما 100 محصول از یک برند را پارس می‌کنید — توضیحات برند یکسان خواهد بود. این بلوک‌های تکراری را به‌طور جداگانه کش کنید:

  • توضیحات برند → کش به مدت 30 روز
  • ویژگی‌های استاندارد دسته (به عنوان مثال، "ترکیب" برای لباس) → کش به مدت 14 روز
  • توضیحات منحصر به فرد محصول خاص → کش به مدت 7 روز
  • قیمت و موجودی → درخواست هر 2-4 ساعت

Avito: کش کردن آگهی‌ها

هنگام پارس کردن Avito (نظارت بر رقبا، پیگیری آگهی‌های جدید) مهم است که توجه داشته باشید که آگهی‌ها اغلب از انتشار حذف می‌شوند. ذخیره‌سازی داده‌های آگهی حذف شده در کش بی‌فایده است.

استراتژی: فقط آگهی‌های فعال را کش کنید و به‌طور منظم وضعیت آن‌ها را با یک درخواست سبک بررسی کنید. اگر آگهی حذف شده است — کش را پاک کنید. این کار از شلوغ شدن پایگاه داده جلوگیری می‌کند و عملکرد پارسر را تسریع می‌کند.

بهینه‌سازی نظارت بر قیمت‌های رقبا

نظارت بر قیمت‌ها — وظیفه‌ای است که در آن کش کردن بیشترین تأثیر را دارد. قیمت‌ها هر دقیقه تغییر نمی‌کنند، اما باید به‌طور منظم بررسی شوند. تنظیم صحیح کش به شما این امکان را می‌دهد که تغییرات را بدون درخواست‌های اضافی پیگیری کنید.

فراوانی بررسی تطبیقی

همه محصولات نیاز به فراوانی یکسانی برای نظارت ندارند. محصولات با قیمت‌های دینامیک (الکترونیک، محصولات تخفیفی) باید بیشتر بررسی شوند. محصولات با قیمت‌های پایدار (مواد ساختمانی، مبلمان) — کمتر.

مثال کش کردن تطبیقی قیمت:

  • محصولی با تغییر قیمت در 7 روز گذشته → بررسی هر 2 ساعت، کش 2 ساعت
  • محصولی بدون تغییر 7-30 روز → بررسی هر 6 ساعت، کش 6 ساعت
  • محصولی بدون تغییر بیش از 30 روز → بررسی روزانه، کش 24 ساعت

این رویکرد تعداد درخواست‌ها را 40-60% نسبت به فراوانی ثابت بررسی کاهش می‌دهد. هنگام نظارت بر 1000 محصول به جای 12,000 درخواست در روز (هر 2 ساعت) شما 5000-7000 درخواست انجام می‌دهید.

کش کردن با اعلان‌های تغییرات

به جای به‌روزرسانی مداوم همه قیمت‌ها، سیستم را تنظیم کنید: قیمت‌ها را بر اساس زمان‌بندی بررسی کنید، اما فقط در صورت تغییر کش را به‌روزرسانی کنید. اگر قیمت تغییر نکرد — مدت زمان کش فعلی را بدون درخواست جدید به سایت تمدید کنید.

بسیاری از پارسرها (Octoparse، ParseHub) حالت "فقط در صورت تغییر به‌روزرسانی" را پشتیبانی می‌کنند. ابزار درخواست می‌کند، داده‌های جدید را با کش مقایسه می‌کند و اگر تفاوتی وجود نداشته باشد — کش را بازنویسی نمی‌کند، بلکه فقط زمان آخرین بررسی را به‌روزرسانی می‌کند.

اشتباهات رایج در تنظیم کش

کش کردن نادرست می‌تواند به داده‌های قدیمی، از دست دادن اطلاعات مهم یا برعکس، عدم صرفه‌جویی منجر شود. بیایید به اشتباهات رایج و راه‌های جلوگیری از آن‌ها نگاهی بیندازیم.

اشتباه 1: کش بسیار طولانی برای داده‌های دینامیک

کش کردن قیمت‌ها به مدت 24 ساعت هنگام نظارت بر رقبا — ایده بدی است. در طول یک روز، قیمت ممکن است 3-5 بار تغییر کند، به‌ویژه در نیش‌های با رقابت بالا. شما صرفه‌جویی در ترافیک خواهید داشت، اما به‌روزرسانی داده‌ها را از دست می‌دهید.

راه‌حل: فراوانی واقعی تغییر داده‌ها را تعیین کنید. یک آزمایش انجام دهید: 50-100 محصول را هر ساعت به مدت یک هفته نظارت کنید و ببینید قیمت‌ها چقدر تغییر می‌کنند. بر اساس این، زمان کش بهینه را انتخاب کنید.

اشتباه 2: کش کردن بدون نسخه‌گذاری

اگر شما فقط کش را در هر به‌روزرسانی بازنویسی کنید، تاریخچه تغییرات را از دست می‌دهید. این برای تحلیل دینامیک قیمت‌ها بحرانی است: نمی‌توانید نمودار تغییر قیمت را برای یک ماه بسازید اگر داده‌های قدیمی پاک شوند.

راه‌حل: نسخه‌های کش را با زمان‌سنج‌ها ذخیره کنید. به عنوان مثال، به جای فایل product_12345.json، product_12345_2024-01-15.json را ایجاد کنید. این کار به شما امکان می‌دهد تاریخچه را تحلیل کنید و در صورت نیاز به نسخه قبلی داده‌ها بازگردید.

اشتباه 3: نادیده گرفتن اندازه کش

کش کردن هزاران محصول با صفحات HTML کامل به سرعت دیسک را پر می‌کند. کش برای 10,000 محصول می‌تواند 5-10 گیگابایت فضا اشغال کند، اگر صفحات کامل با تصاویر و اسکریپت‌ها ذخیره شوند.

راه‌حل: فقط داده‌های مورد نیاز را کش کنید. به جای ذخیره‌سازی کل صفحه HTML، فقط فیلدهای خاص (نام، قیمت، توضیحات) را استخراج کنید و در فرمت ساختاریافته (JSON، CSV) ذخیره کنید. این کار اندازه کش را 10-20 برابر کاهش می‌دهد.

نکته: پاک‌سازی خودکار کش قدیمی را تنظیم کنید. داده‌های قدیمی‌تر از 30-90 روز معمولاً برای کار فعلی نیاز نیستند — آن‌ها را به‌طور جداگانه بایگانی یا حذف کنید. این کار عملکرد پارسر را تسریع می‌کند و فضای دیسک را آزاد می‌کند.

اشتباه 4: عدم پردازش خطاهای کش

اگر کش خراب شود (خطای نوشتن، خطای دیسک)، پارسر ممکن است از داده‌های نادرست استفاده کند یا به‌طور کلی سقوط کند. این موضوع به‌ویژه در نظارت خودکار بحرانی است: ممکن است چند روز داده‌های قدیمی را دریافت کنید، بدون اینکه از این موضوع مطلع باشید.

راه‌حل: بررسی یکپارچگی کش را اضافه کنید. هش (hash) داده‌ها را همراه با کش ذخیره کنید. هنگام خواندن، بررسی کنید: اگر هش مطابقت نداشت — کش خراب است و نیاز به درخواست جدید از طریق پروکسی دارد.

نتیجه‌گیری

کش کردن به درستی تنظیم شده — یک روش ساده برای کاهش هزینه‌های پروکسی به میزان 50-70% بدون از دست دادن کیفیت داده‌ها است. اصول کلیدی: داده‌ها را به ایستا و پویا تقسیم کنید، از کش کردن چند سطحی با زمان‌های نگهداری متفاوت استفاده کنید و فراوانی به‌روزرسانی را بر اساس دینامیک واقعی تغییرات تنظیم کنید.

برای اکثر وظایف پارس کردن بازارها و نظارت بر قیمت‌ها، نیازی به راه‌حل‌های فنی پیچیده نیست — ابزارهای مدرن مانند Octoparse یا ParseHub دارای ویژگی‌های داخلی کش هستند که در 10-15 دقیقه از طریق رابط گرافیکی تنظیم می‌شوند.

با ساده شروع کنید: توضیحات محصولات را به مدت یک هفته کش کنید، قیمت‌ها را به مدت 2-3 ساعت. نتایج را در یک هفته پیگیری کنید و تنظیمات را بر اساس آمار واقعی تغییرات اصلاح کنید. حتی کش کردن پایه می‌تواند 30-40% صرفه‌جویی در ترافیک به همراه داشته باشد، و کش بهینه‌سازی شده — تا 70%.

اگر شما مشغول پارس کردن بازارها یا نظارت بر قیمت‌های رقبا هستید، توصیه می‌کنیم از پروکسی‌های مسکونی در کنار کش کردن استفاده کنید — این کار عملکرد پایدار بدون مسدود شدن و هزینه‌های حداقلی برای ترافیک را تضمین می‌کند. برای وظایفی که سرعت و حجم بالای داده‌ها حیاتی است، پروکسی‌های مرکز داده مناسب‌تر هستند — آن‌ها سریع‌تر و ارزان‌تر هستند، به شرطی که تنظیمات چرخش و کش به درستی انجام شود.

```