علي إكسبريس تكافح بنشاط ضد جمع البيانات التلقائي - يحصل المجمعون على كابتشا، حظر مؤقت حسب IP ومتطلبات تفويض. إذا كنت تراقب أسعار المنافسين، تبحث عن منتجات رائجة للدروبشيبينغ أو تجمع قاعدة بيانات للسوق، فإن العمل بدون بروكسيات معدة بشكل صحيح يتحول إلى صراع دائم مع الحظر.
في هذا الدليل، سنناقش كيفية اختيار بروكسي لجمع بيانات علي إكسبريس، إعداد تدوير عناوين IP، تجاوز أنظمة مكافحة الروبوتات وأتمتة جمع البيانات حول المنتجات والأسعار والتعليقات دون خطر التعرض للحظر.
لماذا تحظر علي إكسبريس جمع البيانات وكيف يعمل ذلك
تستخدم علي إكسبريس نظام حماية متعدد المستويات ضد جمع البيانات التلقائي. تخسر المنصة الأموال عندما يقوم المنافسون بنسخ الكتالوجات بشكل جماعي، وتزداد الحملات على الخوادم بسبب الروبوتات. لذلك، يتم تحسين الحماية باستمرار وتصبح أكثر عدوانية.
الطرق الرئيسية لاكتشاف المجمعين:
- تكرار الطلبات من IP واحد - إذا تم إرسال 50+ طلب في دقيقة واحدة من عنوان واحد، فإن النظام يعرض تلقائيًا كابتشا أو يحظر IP مؤقتًا لمدة 30-60 دقيقة.
- تحليل السلوك - تفتح الروبوتات الصفحات بسرعة كبيرة (0.5-1 ثانية)، ولا تحرك الماوس، ولا تقوم بالتمرير، ولا تنقر على عناصر الواجهة.
- عدم وجود الكوكيز - يقوم المستخدمون العاديون بتجميع الكوكيز عند زيارة الموقع، بينما تعمل المجمعات غالبًا بجلسة نظيفة.
- User-Agent مشبوه - إصدارات قديمة من المتصفحات، مكتبات خادم (Python-requests، curl)، عدم وجود أجهزة موبايل في الإحصائيات.
- بصمة المتصفح - تجمع علي إكسبريس بصمة: دقة الشاشة، المنطقة الزمنية، الخطوط المثبتة، WebGL، Canvas. بصمات متطابقة من IPs مختلفة - علامة على الروبوت.
عندما يكتشف النظام نشاطًا مشبوهًا، فإنه يطبق تصنيفًا للحظر: أولاً يعرض كابتشا، ثم حظر مؤقت لـ IP لمدة 1-2 ساعة، وعند تكرار الانتهاكات - حظر لمدة يوم أو دائم.
مهم: تستخدم علي إكسبريس Cloudflare ونظام مكافحة الروبوتات الخاص بها. يقومون بتحليل ليس فقط IP، ولكن أيضًا بصمة TLS (إصدار البروتوكول، ترتيب التشفيرات) - حتى مع البروكسي، يمكنك التعرض للحظر إذا كنت تستخدم عملاء HTTP قديمين.
ما هي أنواع البروكسي المناسبة لجمع بيانات علي إكسبريس
يعتمد اختيار نوع البروكسي على حجم الجمع، الميزانية ومتطلبات جودة البيانات. دعنا نناقش كل نوع مع سيناريوهات استخدام حقيقية.
| نوع البروكسي | السرعة | خطر الحظر | متى تستخدم |
|---|---|---|---|
| بروكسي مراكز البيانات | عالية (50-150 مللي ثانية) | عالية | جمع بيانات عامة بسرعة مع تدوير IP متكرر |
| بروكسي سكنية | متوسطة (200-500 مللي ثانية) | منخفضة | جمع بيانات طويل الأمد، جمع بيانات مع تفويض |
| بروكسي موبايل | متوسطة (300-700 مللي ثانية) | منخفضة جدًا | جمع البيانات من النسخة المحمولة، تجاوز الحظر الصارم |
بروكسي مراكز البيانات لجمع البيانات بسرعة
تناسب عندما تحتاج إلى جمع كمية كبيرة من البيانات بسرعة: أسعار 10000+ منتج، خصائص الفئات، قائمة البائعين. سرعة الاستجابة 50-150 مللي ثانية تسمح بإجراء 5-10 طلبات في الثانية من IP واحد.
سيناريو الاستخدام: لديك متجر دروبشيبينغ على Shopify، تحتاج إلى تحديث أسعار 5000 منتج من علي إكسبريس يوميًا. تشتري مجموعة من 50-100 IP من مراكز البيانات مع تدوير كل 10-15 طلب. خلال 2-3 ساعات، تجمع جميع البيانات، وتكاليف البروكسي - 50-100 دولار في الشهر.
العيوب: تعرف علي إكسبريس نطاقات IP لمراكز البيانات وتتعامل معها بشك. تحتاج إلى تدوير عدواني (تغيير IP كل 5-10 طلبات) ومحاكاة سلوك (تأخيرات عشوائية من 2-5 ثوانٍ بين الطلبات).
بروكسي سكنية لجمع البيانات بشكل مستقر
تحتوي البروكسي السكنية على IP لمستخدمين حقيقيين من المنازل - تقوم مزودي الخدمة بتوزيعها على الأفراد. لا تستطيع علي إكسبريس تمييز الطلب من خلال هذا البروكسي عن الطلب من عميل عادي. هذا يقلل من خطر الحظر بمقدار 5-10 مرات مقارنة بمراكز البيانات.
سيناريو الاستخدام: أنت تراقب أسعار المنافسين لمتجرك على Ozon. تحتاج إلى التحقق يوميًا من 200-300 منتج، مقارنة الأسعار على علي إكسبريس ومع الموردين الروس. تستخدم 10-20 IP سكنية مع تدوير كل 50-100 طلب. يستغرق جمع البيانات 30-40 دقيقة، ولا توجد حظرات لعدة أشهر.
المزايا: يمكنك العمل من نفس IP لفترة أطول (100-200 طلب بدلاً من 10-20)، عدد أقل من الكابتشا، إمكانية التفويض والعمل مع حساب البائع الشخصي.
بروكسي موبايل لتجاوز الحظر الصارم
تحتوي IP الموبايل (3G/4G/5G) على أعلى مستوى من الثقة - لا يمكن لعلي إكسبريس حظر شبكات كاملة من مزودي الخدمة، لأن ذلك سيحظر ملايين المشترين الحقيقيين. يمكن استخدام IP موبايل واحد من قبل مئات الأجهزة (NAT)، لذلك حتى جمع البيانات العدواني يبدو كأنه نشاط لمستخدمين مختلفين.
سيناريو الاستخدام: لقد تعرضت للحظر باستخدام IP سكنية في منطقة معينة، وتحتاج إلى جمع البيانات بشكل عاجل لتقرير للعميل. تأخذ 2-3 بروكسي موبايل، وتجمع البيانات عبر النسخة المحمولة من الموقع (m.aliexpress.com). حتى مع جمع البيانات العدواني (طلب واحد في الثانية) لا توجد حظرات.
العيوب: أغلى من السكنية بمقدار 2-3 مرات، سرعة أقل (300-700 مللي ثانية تأخير)، قد يتغير IP عند إعادة الاتصال بمزود الخدمة.
إعداد تدوير IP: تكرار التغيير والفواصل الزمنية
تدوير IP بشكل صحيح هو المفتاح لجمع البيانات على المدى الطويل دون حظر. التغيير المتكرر جدًا يبدو مشبوهًا ويستنزف البروكسي، بينما التغيير النادر جدًا يؤدي إلى الحظر.
تكرار التدوير الموصى به حسب أنواع البروكسي
| نوع البروكسي | طلبات لكل IP | تأخير بين الطلبات | مدة حياة الجلسة |
|---|---|---|---|
| مراكز البيانات | 5-15 طلبات | 2-5 ثوانٍ | 1-3 دقائق |
| سكنية | 50-150 طلبات | 3-8 ثوانٍ | 10-30 دقيقة |
| موبايل | 100-300 طلبات | 1-3 ثوانٍ | 30-60 دقيقة |
استراتيجيات التدوير لمهام مختلفة
1. جمع بيانات كتالوج بسرعة (10000+ منتج في ساعة)
- استخدم مجموعة من 100-200 IP من مراكز البيانات
- تدوير كل 5-10 طلبات
- تدفقات متوازية: 10-20 طلبات متزامنة من IPs مختلفة
- تأخير بين الطلبات: 1-2 ثوانٍ (محاكاة مستخدم سريع)
- إذا حصلت على كابتشا على IP - استبعده من المجموعة لمدة 2-3 ساعات
2. مراقبة الأسعار اليومية (500-1000 منتج)
- استخدم 10-20 IP سكنية
- تدوير كل 50-100 طلبات
- طلبات متسلسلة مع تأخير 3-5 ثوانٍ
- احفظ الكوكيز بين الطلبات من نفس IP
- محاكاة السلوك: افتح أحيانًا الصفحة الرئيسية، الفئات
3. جمع البيانات مع التفويض (حساب البائع الشخصي)
- IP سكنية أو موبايل واحدة لكل حساب
- بدون تدوير خلال الجلسة (30-60 دقيقة)
- تأخير 5-10 ثوانٍ بين الطلبات
- محاكاة كاملة للمتصفح: حفظ الكوكيز، localStorage، البصمة
نصيحة: أضف العشوائية إلى التأخيرات. بدلاً من 3 ثوانٍ ثابتة، استخدم نطاقًا من 2-5 ثوانٍ. هذا يجعل نمط الطلبات أقل توقعًا لأنظمة مكافحة الروبوتات.
تجاوز أنظمة مكافحة الروبوتات: User-Agent، الكوكيز والبصمة
تغيير IP يحل جزءًا فقط من المشكلة. تقوم علي إكسبريس بتحليل عشرات المعلمات للطلبات والسلوك لتمييز الروبوت عن الإنسان. دعنا نناقش ما يجب إعداده بجانب البروكسي.
User-Agent ورؤوس HTTP
يخبر User-Agent الخادم أي متصفح ونظام تشغيل يقوم بإجراء الطلب. غالبًا ما تستخدم المجمعات القيم الافتراضية للمكتبات (Python-requests/2.28.0)، والتي يتم اكتشافها على الفور.
الإعداد الصحيح لـ User-Agent:
- استخدم إصدارات حديثة من المتصفحات الشائعة: Chrome 120+، Firefox 121+، Safari 17+
- غير User-Agent عند تدوير IP - لا يجب أن يظهر IP واحد متصفحات مختلفة
- أضف User-Agents موبايل بنسبة 40-50% (نصف حركة مرور علي إكسبريس تأتي من الأجهزة المحمولة)
- انسخ مجموعة كاملة من الرؤوس من متصفح حقيقي: Accept، Accept-Language، Accept-Encoding، Connection، Upgrade-Insecure-Requests
مثال على الرؤوس الصحيحة لسطح المكتب:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
مثال لجهاز محمول:
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Mobile/15E148 Safari/604.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.9
Accept-Encoding: gzip, deflate, br
العمل مع الكوكيز والجلسات
تقوم علي إكسبريس بتعيين الكوكيز عند الزيارة الأولى: معرف الجلسة، إعدادات اللغة والعملة، الرموز لتتبع. تبدو المجمعات بدون كوكيز مشبوهة - يقوم المستخدم العادي بتجميعها أثناء التنقل في الموقع.
العمل الصحيح مع الكوكيز:
- قبل جمع البيانات، افتح الصفحة الرئيسية واحفظ جميع الكوكيز
- استخدم هذه الكوكيز لجميع الطلبات اللاحقة من نفس IP
- عند تغيير IP - ابدأ جلسة جديدة مع كوكيز جديدة
- احفظ الكوكيز بين تشغيلات المجمع - هذا يحاكي المستخدم العائد
- قم بتحديث الكوكيز كل 1-2 ساعة (افتح الصفحة الرئيسية مرة أخرى)
بصمة المتصفح وبصمة TLS
تقوم أنظمة مكافحة الروبوتات الحديثة بجمع بصمة رقمية للمتصفح - مجموعة من عشرات المعلمات، التي تحدد الجهاز بشكل فريد. حتى من IPs مختلفة، تعطي البصمة المتطابقة علامة على الروبوت.
ما الذي يدخل في بصمة المتصفح:
- دقة الشاشة وعمق اللون
- المنطقة الزمنية ولغة النظام
- قائمة الخطوط المثبتة
- بصمة WebGL وCanvas (طريقة فريدة لرسم الرسوم)
- سياق الصوت (بصمة AudioContext)
- قائمة ملحقات المتصفح
- دعم WebRTC، Battery API وغيرها من واجهات برمجة التطبيقات الحديثة
المكتبات HTTP البسيطة (requests، axios، curl) لا تحتوي على هذه المعلمات - تعمل على مستوى البروتوكول دون رسم. لجمع البيانات الجادة، تحتاج إلى أدوات مع متصفح كامل.
الحلول لمحاكاة المتصفح:
- Selenium + undetected-chromedriver - يشغل Chrome الحقيقي مع تعديلات لتجاوز الاكتشاف
- Puppeteer + puppeteer-extra-plugin-stealth - مكتبة Node.js مع ملحقات لتخفي علامات الأتمتة
- Playwright - بديل حديث لـ Selenium مع أداء أفضل
- متصفحات مكافحة الاكتشاف - Dolphin Anty، AdsPower، Multilogin (للاستخدام عبر الواجهة)
مهم: يتم أيضًا تحليل بصمة TLS (بصمة اتصال SSL). تستخدم الإصدارات القديمة من Python وNode.js مجموعات تشفير قديمة، مما يعطي علامة على الروبوت. استخدم الإصدارات الحديثة من المكتبات أو curl_cffi لمحاكاة المتصفحات الحديثة.
أدوات جاهزة لجمع بيانات علي إكسبريس
كتابة مجمع من الصفر لها معنى فقط للمهام المحددة. لجمع البيانات القياسية (المنتجات، الأسعار، التعليقات) هناك حلول جاهزة توفر أسابيع من التطوير.
خدمات تجارية مع API
1. ScraperAPI (scrape.do، scrapingbee.com)
خدمات سحابية تتولى جميع الأعمال المتعلقة بالبروكسي وتجاوز الحماية. ترسل لهم عنوان URL لمنتج علي إكسبريس، ويعيدون لك HTML أو JSON مع البيانات.
- المزايا: لا حاجة لبروكسي خاص، تجاوز تلقائي للكابتشا، مجمعات جاهزة لمواقع شائعة
- العيوب: مكلفة عند الأحجام الكبيرة (من 50 دولارًا لكل 100K طلب)، الاعتماد على خدمة خارجية
- متى تستخدم: مهام لمرة واحدة، نمذجة، أحجام صغيرة (حتى 10K منتج في الشهر)
2. Bright Data (luminati.io)
أكبر مزود بروكسي مع أدوات خاصة لجمع البيانات. يقدمون ليس فقط بروكسي، ولكن أيضًا مجموعات بيانات جاهزة من علي إكسبريس (قواعد بيانات محدثة للمنتجات).
- المزايا: مجموعة ضخمة من IP (72+ مليون سكنية)، بنية تحتية لعملاء المؤسسات
- العيوب: مكلفة جدًا (من 500 دولار في الشهر)، تسعير معقد
- متى تستخدم: الأعمال الكبيرة مع ميزانية، جمع بيانات مستمر بكميات كبيرة
حلول مفتوحة المصدر
1. Scrapy + scrapy-rotating-proxies
إطار عمل شائع لجمع البيانات بلغة Python. يدعم الطلبات غير المتزامنة، تدوير البروكسي تلقائيًا، التصدير إلى CSV/JSON/قاعدة بيانات.
مثال على إعداد البروكسي في Scrapy:
# settings.py
ROTATING_PROXY_LIST = [
'http://user:pass@proxy1.example.com:8000',
'http://user:pass@proxy2.example.com:8000',
'http://user:pass@proxy3.example.com:8000',
]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'scrapy_rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# إعدادات لتجاوز الحظر
ROTATING_PROXY_PAGE_RETRY_TIMES = 5
ROTATING_PROXY_BACKOFF_BASE = 300 # وقت حظر البروكسي بالثواني
2. Puppeteer + puppeteer-extra-plugin-stealth
للمواقع ذات الحماية العدوانية (مثل علي إكسبريس) تحتاج إلى متصفح كامل. يدير Puppeteer Chrome عبر بروتوكول DevTools، ويخفي ملحق stealth علامات الأتمتة.
// parser.js
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
(async () => {
const browser = await puppeteer.launch({
args: [
'--proxy-server=http://proxy.example.com:8000',
'--no-sandbox',
'--disable-setuid-sandbox'
]
});
const page = await browser.newPage();
// تفويض البروكسي
await page.authenticate({
username: 'user',
password: 'pass'
});
// إعداد عرض واقعي
await page.setViewport({
width: 1920,
height: 1080,
deviceScaleFactor: 1
});
// جمع بيانات المنتج
await page.goto('https://www.aliexpress.com/item/1234567890.html', {
waitUntil: 'networkidle2'
});
const productData = await page.evaluate(() => {
return {
title: document.querySelector('.product-title-text')?.innerText,
price: document.querySelector('.product-price-value')?.innerText,
rating: document.querySelector('.overview-rating-average')?.innerText
};
});
console.log(productData);
await browser.close();
})();
تطبيقات سطح المكتب للمستخدمين غير التقنيين
1. Octoparse
مجمع بصري بدون كود - انقر على عناصر الصفحة، ويتذكر البرنامج الهيكل ويجمع البيانات. دعم مدمج للبروكسي ومجدول مهام.
- المزايا: لا حاجة للبرمجة، يعمل مع المحتوى الديناميكي، إصدار سحابي للعمل في الخلفية
- العيوب: قيود في الإصدار المجاني (10K صفوف في الشهر)، أحيانًا لا تتعامل مع الحماية المعقدة
- السعر: من 75 دولارًا في الشهر لخطة Standard
2. ParseHub
نظير لـ Octoparse مع واجهة أبسط. يعمل بشكل جيد مع علي إكسبريس بفضل القوالب المدمجة للمواقع الشائعة.
- المزايا: خطة مجانية لـ 200 صفحة، إعداد بسيط للبروكسي
- العيوب: عمل بطيء في الإصدار المجاني، عدم وجود ميزات متقدمة (API، webhooks)
التوجيه الجغرافي: كيفية جمع الأسعار لدول مختلفة
تعرض علي إكسبريس أسعارًا مختلفة، تشكيلة وظروف شحن حسب دولة المستخدم. إذا كنت تعمل مع دروبشيبينغ دولي أو تقارن الأسعار لأسواق مختلفة، تحتاج إلى بروكسي من مناطق معينة.
كيف تحدد علي إكسبريس دولة المستخدم
تستخدم المنصة عدة مصادر للبيانات:
- عنوان IP - الطريقة الرئيسية، تحدد الدولة حسب تحديد موقع IP
- الكوكيز - تحتفظ بالدولة المختارة في aep_usuc_f (يمكن استبدالها)
- رأس Accept-Language - لغة المتصفح، ولكن ليست عامل حاسم
- العملة في URL - معلمات ?currency=USD أو النطاقات الفرعية (ru.aliexpress.com)
لجمع أسعار موثوقة لدولة معينة، يجب استخدام بروكسي من هذه المنطقة. استبدال الكوكيز فقط لا يعمل دائمًا - تعطي علي إكسبريس الأولوية لتحديد موقع IP.
المناطق الشائعة لجمع البيانات وخصائصها
| الدولة | خصائص الأسعار | لماذا تجمع البيانات |
|---|---|---|
| الولايات المتحدة | أسعار بالدولار الأمريكي، غالبًا أقل من أوروبا | دروبشيبينغ في الولايات المتحدة، مقارنة مع Amazon |
| روسيا | أسعار بالروبل، مراعاة الرسوم والضرائب | مقارنة مع Wildberries، Ozon |
| ألمانيا | أسعار باليورو، شحن سريع من مستودعات الاتحاد الأوروبي | دروبشيبينغ في أوروبا، eBay.de |
| البرازيل | أسعار مرتفعة بسبب الرسوم، لكن الطلب كبير | التجارة الإلكترونية المحلية (Mercado Livre) |
إعداد التوجيه الجغرافي عبر البروكسي
تسمح معظم مزودي البروكسي السكنية والمحمولة باختيار الدولة (وحتى المدينة) عبر معلمات الاتصال أو API.
مثال على اختيار الدولة عبر اسم مستخدم البروكسي:
# التنسيق: username-country-كود_الدولة
proxy_us = "http://username-country-us:password@gate.example.com:8000"
proxy_de = "http://username-country-de:password@gate.example.com:8000"
proxy_br = "http://username-country-br:password@gate.example.com:8000"
# جمع سعر للولايات المتحدة
response_us = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_us, "https": proxy_us}
)
# جمع سعر لألمانيا
response_de = requests.get(
"https://www.aliexpress.com/item/1234567890.html",
proxies={"http": proxy_de, "https": proxy_de}
)
قم أيضًا بتعديل الرؤوس حسب المنطقة:
- Accept-Language: en-US للولايات المتحدة، de-DE لألمانيا، pt-BR للبرازيل
- استخدم النطاق الفرعي المناسب: ru.aliexpress.com لروسيا، de.aliexpress.com لألمانيا
- تحقق من العملة في الرد - إذا رأيت عملة غير صحيحة، فهذا يعني أن التوجيه الجغرافي لم يعمل
الأخطاء الشائعة عند جمع البيانات وكيفية تجنبها
حتى مع البروكسيات الصحيحة والإعدادات، يمكن أن تتعرض للحظر بسبب الأخطاء في منطق الجمع. دعنا نناقش المشكلات الشائعة والحلول.
الخطأ 1: جمع البيانات بشكل عدواني للغاية
المشكلة: يقوم المجمع بإجراء 100 طلب في الدقيقة من IP واحد، محاولًا جمع البيانات بسرعة أكبر. تكتشف علي إكسبريس ذلك كهجوم DDoS وتحظر IP.
الحل: أضف تأخيرات وحدودًا على عدد الطلبات. بالنسبة للبروكسيات السكنية، فإن السرعة الآمنة هي 10-20 طلب في الدقيقة من IP واحد (طلب واحد كل 3-6 ثوانٍ). من الأفضل جمع البيانات لفترة أطول من فقدان البروكسيات.
الخطأ 2: تجاهل الكابتشا والأخطاء
المشكلة: يحصل المجمع على صفحة تحتوي على كابتشا، ولكنه يستمر في جمعها كمحتوى عادي. ونتيجة لذلك - آلاف السجلات الفارغة في قاعدة البيانات.
الحل: تحقق من استجابة الخادم قبل الجمع. إذا كانت هناك كلمات "كابتشا"، "تم رفض الوصول" أو رمز الاستجابة 403/429 في HTML - توقف عن استخدام هذا IP لمدة 1-2 ساعة.
def is_blocked(html):
blocked_keywords = ['captcha', 'access denied', 'too many requests']
return any(keyword in html.lower() for keyword in blocked_keywords)
response = requests.get(url, proxies=proxy)
if is_blocked(response.text):
print(f"Proxy {proxy} is blocked, switching...")
# استبعاد البروكسي من المجموعة لمدة ساعتين
blocked_proxies[proxy] = time.time() + 7200
continue
الخطأ 3: جمع بيانات قديمة
المشكلة: تقوم علي إكسبريس بتخزين الصفحات عبر CDN (Cloudflare). يحصل المجمع على بيانات عمرها 2-3 ساعات بدلاً من الأسعار الحالية.
الحل: أضف معلمة عشوائية إلى URL لتجاوز التخزين المؤقت، أو استخدم رأس Cache-Control: no-cache.
import random
import time
# إضافة timestamp إلى URL لتجاوز التخزين المؤقت
url = f"https://www.aliexpress.com/item/1234567890.html?_t={int(time.time())}"
# أو استخدم الرأس
headers = {
'Cache-Control': 'no-cache',
'Pragma': 'no-cache'
}
الخطأ 4: معالجة المحتوى الديناميكي بشكل غير صحيح
المشكلة: يتم تحميل الأسعار وخصائص المنتجات على علي إكسبريس عبر JavaScript بعد تحميل الصفحة. يحصل الطلب HTTP البسيط على قالب HTML فارغ بدون بيانات.
الحل: استخدم متصفح بدون واجهة (Selenium، Puppeteer، Playwright) يقوم بتنفيذ JavaScript وينتظر تحميل المحتوى بالكامل. أو ابحث عن نقطة نهاية API التي تعيد البيانات في JSON - غالبًا ما تكون متاحة عبر DevTools في Network.
الخطأ 5: عدم وجود تسجيل ومراقبة
المشكلة: يعمل المجمع لمدة أسبوع، يجمع البيانات، لكن لا أحد يتحقق من الجودة. يتبين أن 30% من السجلات فارغة بسبب التغييرات في هيكل الموقع.
الحل: قم بتسجيل جميع الأحداث المهمة - الطلبات الناجحة، الأخطاء، حظر البروكسي، تغييرات هيكل البيانات. قم بإعداد تنبيهات عند زيادة عدد الأخطاء فوق 10%.
قائمة التحقق قبل بدء المجمع:
✅ تم إعداد التأخيرات بين الطلبات (3-8 ثوانٍ للبروكسي السكنية)
✅ يعمل تدوير IP (لا يزيد عن 50-100 طلب لكل IP)
✅ User-Agent حديث ويتغير مع IP
✅ يتم حفظ الكوكيز وإعادة استخدامها
✅ هناك تحقق من الكابتشا والحظر
✅ تم إعداد التسجيل والمراقبة
✅ نجح التشغيل التجريبي على 100 منتج
الخاتمة
يتطلب جمع بيانات علي إكسبريس نهجًا شاملاً: البروكسيات الصحيحة هي جزء فقط من الحل. تحتاج إلى تدوير IP بشكل صحيح، محاكاة متصفح حقيقي، العمل مع الكوكيز والبصمة، وكذلك مراقبة جودة البيانات بشكل مستمر. يمكن أن يؤدي جمع البيانات العدواني للغاية إلى حظر حتى مع البروكسيات المكلفة، بينما يسمح الإعداد الصحيح بجمع البيانات لعدة أشهر دون مشاكل.
بالنسبة لمعظم المهام (مراقبة أسعار المنافسين، جمع الكتالوجات للدروبشيبينغ، تحليل الاتجاهات)، فإن الخيار الأمثل هو البروكسي السكنية مع تدوير كل 50-100 طلب. إنها توفر توازنًا بين سرعة العمل ومستوى الثقة من جانب علي إكسبريس. إذا كانت الميزانية محدودة وتحتاج إلى سرعة عالية - ابدأ ببروكسي مراكز البيانات، لكن كن مستعدًا لحظر أكثر تكرارًا وضرورة تدوير عدواني.
تذكر: جودة البروكسي أهم من عددها. 10 IP سكنية ذات جودة عالية مع إعداد صحيح ستعطي نتائج أفضل من 100 بروكسي مراكز بيانات رخيصة مع نسبة عالية من الحظر. استثمر الوقت في إعداد محاكاة المتصفح، التسجيل والمراقبة - ستحصل على عائد مستقر من عمل المجمع دون مشاكل مستمرة مع الكابتشا والحظر.