```html

बड़े अनुरोधों पर ब्लॉकिंग से बचाव: तकनीकें और उपकरण

खाता और आईपी पते की ब्लॉकिंग - वेब स्क्रैपिंग, ऑटोमेशन और सोशल मीडिया पर बड़े ऑपरेशनों में मुख्य समस्या है। आधुनिक एंटी-बॉट सिस्टम दर्जनों पैरामीटर का विश्लेषण करते हैं: अनुरोधों की आवृत्ति से लेकर ब्राउज़र के फिंगरप्रिंट तक। इस मार्गदर्शिका में, हम स्वचालन का पता लगाने के विशिष्ट तंत्र और उनके बायपास के व्यावहारिक तरीकों की व्याख्या करेंगे।

स्वचालन का पता लगाने के तंत्र

आधुनिक सुरक्षा प्रणालियाँ बॉट्स की पहचान के लिए बहु-स्तरीय विश्लेषण का उपयोग करती हैं। इन तंत्रों को समझना सही बायपास रणनीति चुनने के लिए महत्वपूर्ण है।

विश्लेषण के मुख्य पैरामीटर

आईपी प्रतिष्ठा: एंटी-बॉट सिस्टम आईपी पते के इतिहास, डेटा केंद्रों से संबंधितता, और काले सूचियों में उपस्थिति की जांच करते हैं। ज्ञात प्रॉक्सी पूल से आने वाले आईपी अधिक बार ब्लॉक होते हैं।

अनुरोधों की आवृत्ति (Request Rate): एक व्यक्ति शारीरिक रूप से प्रति मिनट 100 अनुरोध नहीं भेज सकता। सिस्टम न केवल कुल संख्या का विश्लेषण करते हैं, बल्कि समय में वितरण का भी - अनुरोधों के बीच समान अंतराल बॉट का संकेत देते हैं।

व्यवहार के पैटर्न: क्रियाओं की अनुक्रम, स्क्रॉलिंग की गहराई, माउस की गति, पृष्ठ पर समय। एक बॉट जो बिना किसी देरी के लिंक पर तुरंत जाता है, उसे आसानी से पहचाना जा सकता है।

तकनीकी फिंगरप्रिंट: यूजर-एजेंट, HTTP हेडर, हेडर का क्रम, TLS-फिंगरप्रिंट, कैनवास/वेबजीएल फिंगरप्रिंट। इन पैरामीटर में असंगतता एंटी-बॉट सिस्टम के लिए एक लाल झंडा है।

पैरामीटर	क्या विश्लेषण किया जाता है	पता लगाने का जोखिम
आईपी पता	प्रतिष्ठा, ASN, भू-स्थान	उच्च
यूजर-एजेंट	ब्राउज़र का संस्करण, OS, डिवाइस	मध्यम
TLS फिंगरप्रिंट	एन्क्रिप्शन सेट, एक्सटेंशन	उच्च
HTTP/2 फिंगरप्रिंट	हेडर का क्रम, सेटिंग्स	उच्च
कैनवास/वेबजीएल	ग्राफिक्स का रेंडरिंग	मध्यम
व्यवहार	क्लिक्स, स्क्रॉलिंग, समय	उच्च

दर सीमा और अनुरोधों की आवृत्ति का नियंत्रण

अनुरोधों की गति का नियंत्रण - ब्लॉकिंग से बचने की पहली पंक्ति है। प्रॉक्सी रोटेशन के साथ भी, अत्यधिक आक्रामक स्क्रैपिंग बैन का कारण बन सकती है।

गतिशील देरी

निश्चित अंतराल (जैसे, अनुरोधों के बीच ठीक 2 सेकंड) आसानी से पहचाने जाते हैं। सामान्य वितरण के साथ यादृच्छिक देरी का उपयोग करें:

import time
import random
import numpy as np

def human_delay(min_delay=1.5, max_delay=4.0, mean=2.5, std=0.8):
    """
    मानव व्यवहार की नकल करने के लिए सामान्य वितरण के साथ देरी उत्पन्न करना
    """
    delay = np.random.normal(mean, std)
    # सीमा निर्धारित करना
    delay = max(min_delay, min(delay, max_delay))
    
    # यथार्थता के लिए सूक्ष्म देरी जोड़ना
    delay += random.uniform(0, 0.3)
    
    time.sleep(delay)

# उपयोग
for url in urls:
    response = session.get(url)
    human_delay(min_delay=2, max_delay=5, mean=3, std=1)

अनुकूलन दर सीमा

एक अधिक उन्नत दृष्टिकोण - सर्वर के उत्तरों के आधार पर गति को अनुकूलित करना। यदि आप 429 (बहुत अधिक अनुरोध) या 503 कोड प्राप्त करते हैं, तो स्वचालित रूप से गति कम करें:

class AdaptiveRateLimiter:
    def __init__(self, initial_delay=2.0):
        self.current_delay = initial_delay
        self.min_delay = 1.0
        self.max_delay = 30.0
        self.error_count = 0
        
    def wait(self):
        time.sleep(self.current_delay + random.uniform(0, 0.5))
        
    def on_success(self):
        # सफल अनुरोधों पर धीरे-धीरे गति बढ़ाना
        self.current_delay = max(
            self.min_delay, 
            self.current_delay * 0.95
        )
        self.error_count = 0
        
    def on_rate_limit(self):
        # ब्लॉकिंग पर तेजी से धीमा करना
        self.error_count += 1
        self.current_delay = min(
            self.max_delay,
            self.current_delay * (1.5 + self.error_count * 0.5)
        )
        print(f"दर सीमा हिट। नई देरी: {self.current_delay:.2f}s")

# उपयोग
limiter = AdaptiveRateLimiter(initial_delay=2.0)

for url in urls:
    limiter.wait()
    response = session.get(url)
    
    if response.status_code == 429:
        limiter.on_rate_limit()
        time.sleep(60)  # पुनः प्रयास से पहले विराम
    elif response.status_code == 200:
        limiter.on_success()
    else:
        # अन्य त्रुटियों का प्रबंधन
        pass

व्यावहारिक सुझाव: विभिन्न साइटों के लिए आदर्श गति भिन्न होती है। बड़े प्लेटफार्म (Google, Facebook) एक आईपी से प्रति मिनट 5-10 अनुरोधों के लिए सहिष्णु होते हैं। छोटे साइटें पहले 20-30 अनुरोधों पर ही ब्लॉक कर सकती हैं। हमेशा सतर्कता से शुरू करें और धीरे-धीरे लोड बढ़ाएं, त्रुटियों की प्रतिशतता को ट्रैक करते हुए।

प्रॉक्सी रोटेशन और आईपी पते का प्रबंधन

बड़े अनुरोधों के लिए एक ही आईपी पते का उपयोग करना ब्लॉकिंग की गारंटी देता है। प्रॉक्सी रोटेशन लोड को वितरित करता है और पहचान के जोखिम को कम करता है।

रोटेशन रणनीतियाँ

1. अनुरोधों के अनुसार रोटेशन: प्रत्येक या हर N अनुरोध के बाद आईपी बदलना। खोज इंजनों के स्क्रैपिंग के लिए उपयुक्त, जहां प्रत्येक अनुरोध की गुमनामी महत्वपूर्ण है।

2. समय के अनुसार रोटेशन: हर 5-15 मिनट में आईपी बदलना। सामाजिक नेटवर्क के साथ काम करने के लिए प्रभावी, जहां सत्र की स्थिरता महत्वपूर्ण है।

3. स्टिकी सत्र: पूरी उपयोगकर्ता सत्र (प्राधिकरण, क्रियाओं का अनुक्रम) के लिए एक आईपी का उपयोग करना। CSRF सुरक्षा वाले साइटों के लिए महत्वपूर्ण है।

import requests
from itertools import cycle

class ProxyRotator:
    def __init__(self, proxy_list, rotation_type='request', rotation_interval=10):
        """
        rotation_type: 'request' (प्रत्येक अनुरोध) या 'time' (समय के अनुसार)
        rotation_interval: अनुरोधों की संख्या या सेकंड
        """
        self.proxies = cycle(proxy_list)
        self.current_proxy = next(self.proxies)
        self.rotation_type = rotation_type
        self.rotation_interval = rotation_interval
        self.request_count = 0
        self.last_rotation = time.time()
        
    def get_proxy(self):
        if self.rotation_type == 'request':
            self.request_count += 1
            if self.request_count >= self.rotation_interval:
                self.current_proxy = next(self.proxies)
                self.request_count = 0
                print(f"रोटेट किया गया: {self.current_proxy}")
                
        elif self.rotation_type == 'time':
            if time.time() - self.last_rotation >= self.rotation_interval:
                self.current_proxy = next(self.proxies)
                self.last_rotation = time.time()
                print(f"रोटेट किया गया: {self.current_proxy}")
                
        return {'http': self.current_proxy, 'https': self.current_proxy}

# उपयोग का उदाहरण
proxy_list = [
    'http://user:pass@proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'http://user:pass@proxy3.example.com:8000',
]

rotator = ProxyRotator(proxy_list, rotation_type='request', rotation_interval=5)

for url in urls:
    proxies = rotator.get_proxy()
    response = requests.get(url, proxies=proxies, timeout=10)

प्रॉक्सी के प्रकार का चयन

प्रॉक्सी का प्रकार	विश्वास का स्तर	गति	उपयोग
डेटा केंद्र	कम	उच्च	सरल स्क्रैपिंग, API
रिहायशी	उच्च	मध्यम	सोशल मीडिया, सुरक्षित साइटें
मोबाइल	बहुत उच्च	मध्यम	Instagram, TikTok, एंटी-फ्रॉड

सामाजिक नेटवर्क और गंभीर सुरक्षा वाले प्लेटफार्मों पर बड़े ऑपरेशनों के लिए रिहायशी प्रॉक्सी का उपयोग करें। ये सामान्य घरेलू कनेक्शन की तरह दिखते हैं और शायद ही कभी काले सूचियों में आते हैं। डेटा केंद्र कम सुरक्षित संसाधनों के लिए उपयुक्त हैं, जहां गति महत्वपूर्ण है।

ब्राउज़र फिंगरप्रिंटिंग और TLS फिंगरप्रिंट

आईपी रोटेशन के साथ भी, आपको ब्राउज़र और TLS कनेक्शन के तकनीकी फिंगरप्रिंट द्वारा पहचाना जा सकता है। ये पैरामीटर प्रत्येक ग्राहक के लिए अद्वितीय होते हैं और उनकी नकल करना कठिन होता है।

TLS फिंगरप्रिंटिंग

HTTPS कनेक्शन स्थापित करते समय, क्लाइंट समर्थित एन्क्रिप्शन और एक्सटेंशनों के सेट के साथ ClientHello भेजता है। यह संयोजन प्रत्येक पुस्तकालय के लिए अद्वितीय होता है। उदाहरण के लिए, Python requests OpenSSL का उपयोग करता है, जिसका फिंगरप्रिंट Chrome से आसानी से अलग किया जा सकता है।

समस्या: मानक पुस्तकालय (requests, urllib, curl) के फिंगरप्रिंट वास्तविक ब्राउज़रों से अलग होते हैं। Cloudflare, Akamai, DataDome जैसी सेवाएँ सक्रिय रूप से बॉट्स को ब्लॉक करने के लिए TLS फिंगरप्रिंटिंग का उपयोग करती हैं।

समाधान: ब्राउज़र के फिंगरप्रिंट की नकल करने वाली पुस्तकालयों का उपयोग करें। Python के लिए यह curl_cffi, tls_client या पूर्ण ब्राउज़र अनुकरण के लिए playwright/puppeteer है।

# स्थापना: pip install curl-cffi
from curl_cffi import requests

# Chrome 110 की नकल करना
response = requests.get(
    'https://example.com',
    impersonate="chrome110",
    proxies={'https': 'http://proxy:port'}
)

# विकल्प: tls_client
import tls_client

session = tls_client.Session(
    client_identifier="chrome_108",
    random_tls_extension_order=True
)

response = session.get('https://example.com')

HTTP/2 फिंगरप्रिंटिंग

TLS के अलावा, एंटी-बॉट सिस्टम HTTP/2 के पैरामीटर का विश्लेषण करते हैं: हेडर का क्रम, SETTINGS फ्रेम की सेटिंग्स, स्ट्रीम प्राथमिकताएँ। मानक पुस्तकालय Chrome या Firefox के सटीक हेडर क्रम का पालन नहीं करते हैं।

# Chrome के लिए सही हेडर क्रम
headers = {
    ':method': 'GET',
    ':authority': 'example.com',
    ':scheme': 'https',
    ':path': '/',
    'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...',
    'accept': 'text/html,application/xhtml+xml...',
    'sec-fetch-site': 'none',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'sec-fetch-dest': 'document',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'en-US,en;q=0.9',
}

कैनवास और वेबजीएल फिंगरप्रिंटिंग

ब्राउज़र GPU, ड्राइवर और OS के आधार पर ग्राफिक्स को अलग-अलग रेंडर करते हैं। साइटें इसे डिवाइस का अद्वितीय फिंगरप्रिंट बनाने के लिए उपयोग करती हैं। हेडलेस ब्राउज़रों (Selenium, Puppeteer) का उपयोग करते समय, स्वचालन के संकेतों को छिपाना महत्वपूर्ण है:

// Puppeteer: हेडलेस मोड को छिपाना
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');

puppeteer.use(StealthPlugin());

const browser = await puppeteer.launch({
    headless: true,
    args: [
        '--disable-blink-features=AutomationControlled',
        '--no-sandbox',
        '--disable-setuid-sandbox',
        `--proxy-server=${proxyUrl}`
    ]
});

const page = await browser.newPage();

// navigator.webdriver को ओवरराइड करना
await page.evaluateOnNewDocument(() => {
    Object.defineProperty(navigator, 'webdriver', {
        get: () => false,
    });
});

हेडर, कुकीज़ और सत्र प्रबंधन

HTTP हेडरों और कुकीज़ के साथ सही काम करना वास्तविक उपयोगकर्ता की नकल के लिए महत्वपूर्ण है। इन पैरामीटर में त्रुटियाँ ब्लॉकिंग का एक सामान्य कारण हैं।

अनिवार्य हेडर

ब्राउज़र Chrome की नकल के लिए न्यूनतम हेडर सेट:

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
    'Accept-Language': 'en-US,en;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'DNT': '1',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Cache-Control': 'max-age=0',
}

session = requests.Session()
session.headers.update(headers)

कुकीज़ का प्रबंधन

कई साइटें पहले दौरे पर ट्रैकिंग कुकीज़ स्थापित करती हैं और बाद के अनुरोधों पर उनकी उपस्थिति की जांच करती हैं। कुकीज़ की अनुपस्थिति या उनका असंगत होना बॉट का संकेत है।

import requests
import pickle

class SessionManager:
    def __init__(self, session_file='session.pkl'):
        self.session_file = session_file
        self.session = requests.Session()
        self.load_session()
        
    def load_session(self):
        """सहेजी गई सत्र को लोड करना"""
        try:
            with open(self.session_file, 'rb') as f:
                cookies = pickle.load(f)
                self.session.cookies.update(cookies)
        except FileNotFoundError:
            pass
            
    def save_session(self):
        """पुनः उपयोग के लिए कुकीज़ को सहेजना"""
        with open(self.session_file, 'wb') as f:
            pickle.dump(self.session.cookies, f)
            
    def request(self, url, **kwargs):
        response = self.session.get(url, **kwargs)
        self.save_session()
        return response

# उपयोग
manager = SessionManager('instagram_session.pkl')
response = manager.request('https://www.instagram.com/explore/')

महत्वपूर्ण: प्रॉक्सी रोटेशन के दौरान, यदि कुकीज़ किसी विशेष आईपी से बंधी हैं, तो उन्हें रीसेट करना न भूलें। आईपी और कुकीज़ (जैसे, अमेरिका के भू-स्थान के साथ कुकीज़ और जर्मनी से आईपी) का असंगत होना संदेह उत्पन्न करेगा।

रेफरर और मूल

Referer और Origin हेडर दिखाते हैं कि उपयोगकर्ता कहाँ से आया। इनकी अनुपस्थिति या गलत मान लाल झंडा है।

# सही अनुक्रम: मुख्य → श्रेणी → उत्पाद
session = requests.Session()

# चरण 1: मुख्य पृष्ठ पर जाना
response = session.get('https://example.com/')

# चरण 2: श्रेणी में जाना
response = session.get(
    'https://example.com/category/electronics',
    headers={'Referer': 'https://example.com/'}
)

# चरण 3: उत्पाद देखना
response = session.get(
    'https://example.com/product/12345',
    headers={'Referer': 'https://example.com/category/electronics'}
)

मानव व्यवहार की नकल

तकनीकी पैरामीटर केवल आधा काम हैं। आधुनिक एंटी-बॉट सिस्टम व्यवहार पैटर्न का विश्लेषण करते हैं: उपयोगकर्ता पृष्ठ के साथ कैसे इंटरैक्ट करता है, वह कितना समय बिताता है, माउस कैसे चलता है।

स्क्रॉलिंग और माउस की गति

Selenium या Puppeteer का उपयोग करते समय, यादृच्छिक माउस गति और पृष्ठ स्क्रॉलिंग जोड़ें:

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import random
import time

def human_like_mouse_move(driver):
    """पृष्ठ पर यादृच्छिक माउस गति"""
    action = ActionChains(driver)
    
    for _ in range(random.randint(3, 7)):
        x = random.randint(0, 1000)
        y = random.randint(0, 800)
        action.move_by_offset(x, y)
        action.pause(random.uniform(0.1, 0.3))
    
    action.perform()

def human_like_scroll(driver):
    """स्वाभाविक स्क्रॉलिंग की नकल करना"""
    total_height = driver.execute_script("return document.body.scrollHeight")
    current_position = 0
    
    while current_position < total_height:
        # यादृच्छिक स्क्रॉलिंग कदम
        scroll_step = random.randint(100, 400)
        current_position += scroll_step
        
        driver.execute_script(f"window.scrollTo(0, {current_position});")
        
        # विविधता के साथ विराम
        time.sleep(random.uniform(0.5, 1.5))
        
        # कभी-कभी थोड़ा पीछे स्क्रॉल करें (जैसे लोग करते हैं)
        if random.random() < 0.2:
            back_scroll = random.randint(50, 150)
            current_position -= back_scroll
            driver.execute_script(f"window.scrollTo(0, {current_position});")
            time.sleep(random.uniform(0.3, 0.8))

# उपयोग
driver = webdriver.Chrome()
driver.get('https://example.com')

human_like_mouse_move(driver)
time.sleep(random.uniform(2, 4))
human_like_scroll(driver)

पृष्ठ पर समय

वास्तविक उपयोगकर्ता पृष्ठ पर समय बिताते हैं: सामग्री पढ़ते हैं, छवियों को देखते हैं। एक बॉट जो तुरंत लिंक पर जाता है, उसे आसानी से पहचाना जा सकता है।

def realistic_page_view(driver, url, min_time=5, max_time=15):
    """
    सक्रियता के साथ यथार्थवादी पृष्ठ दृश्य
    """
    driver.get(url)
    
    # प्रारंभिक देरी (लोडिंग और "पढ़ाई")
    time.sleep(random.uniform(2, 4))
    
    # स्क्रॉलिंग
    human_like_scroll(driver)
    
    # अतिरिक्त सक्रियता
    total_time = random.uniform(min_time, max_time)
    elapsed = 0
    
    while elapsed < total_time:
        action_choice = random.choice(['scroll', 'mouse_move', 'pause'])
        
        if action_choice == 'scroll':
            # ऊपर/नीचे थोड़ा स्क्रॉल
            scroll_amount = random.randint(-200, 300)
            driver.execute_script(f"window.scrollBy(0, {scroll_amount});")
            pause = random.uniform(1, 3)
            
        elif action_choice == 'mouse_move':
            human_like_mouse_move(driver)
            pause = random.uniform(0.5, 2)
            
        else:  # pause
            pause = random.uniform(2, 5)
        
        time.sleep(pause)
        elapsed += pause

नेविगेशन पैटर्न

संदिग्ध पैटर्न से बचें: गहरे पृष्ठों पर सीधे जाना, मुख्य पृष्ठ की अनदेखी करना, बिना किसी अंतराल के सभी तत्वों का अनुक्रमिक रूप से दौरा करना।

अच्छी प्रथाएँ:

मुख्य पृष्ठ या लोकप्रिय श्रेणियों से शुरू करें
प्रत्यक्ष URL के बजाय साइट की आंतरिक नेविगेशन का उपयोग करें
कभी-कभी पीछे लौटें या अन्य श्रेणियों में जाएँ
देखने की गहराई में विविधता लाएँ: हमेशा अंत तक न पहुँचें
"त्रुटियाँ" जोड़ें: गैर-मौजूद लिंक पर जाना, वापस लौटना

क्लाउडफ्लेयर, डेटा डोम और अन्य सुरक्षा को बायपास करना

विशेष एंटी-बॉट सिस्टम एक समग्र दृष्टिकोण की आवश्यकता होती है। वे JavaScript चैलेंज, CAPTCHA, वास्तविक समय में व्यवहार का विश्लेषण करते हैं।

क्लाउडफ्लेयर

क्लाउडफ्लेयर कई सुरक्षा स्तरों का उपयोग करता है: ब्राउज़र इंटीग्रिटी चेक, JavaScript चैलेंज, CAPTCHA। बुनियादी सुरक्षा को बायपास करने के लिए सही TLS फिंगरप्रिंट और JavaScript को निष्पादित करना पर्याप्त है:

# विकल्प 1: cloudscraper (JS चैलेंजों को स्वचालित रूप से हल करना)
import cloudscraper

scraper = cloudscraper.create_scraper(
    browser={
        'browser': 'chrome',
        'platform': 'windows',
        'desktop': True
    }
)

response = scraper.get('https://protected-site.com')

# विकल्प 2: undetected-chromedriver (कठिन मामलों के लिए)
import undetected_chromedriver as uc

options = uc.ChromeOptions()
options.add_argument('--proxy-server=http://proxy:port')

driver = uc.Chrome(options=options)
driver.get('https://protected-site.com')

# चैलेंज पास करने की प्रतीक्षा
time.sleep(5)

# अनुरोधों के लिए कुकीज़ प्राप्त करना
cookies = driver.get_cookies()
session = requests.Session()
for cookie in cookies:
    session.cookies.set(cookie['name'], cookie['value'])

डेटा डोम

डेटा डोम वास्तविक समय में उपयोगकर्ता के व्यवहार का विश्लेषण करता है: माउस की गति, कीबोर्ड की आदतें, समय। बायपास करने के लिए एक पूर्ण ब्राउज़र की आवश्यकता होती है जो सक्रियता की नकल करता है:

from playwright.sync_api import sync_playwright
import random

def bypass_datadome(url, proxy=None):
    with sync_playwright() as p:
        browser = p.chromium.launch(
            headless=False,  # डेटा डोम हेडलेस का पता लगाता है
            proxy={'server': proxy} if proxy else None
        )
        
        context = browser.new_context(
            viewport={'width': 1920, 'height': 1080},
            user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'
        )
        
        page = context.new_page()
        
        # स्वचालन को छिपाने के लिए स्क्रिप्ट का इंजेक्शन
        page.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {get: () => false});
            window.chrome = {runtime: {}};
        """)
        
        page.goto(url)
        
        # मानव व्यवहार की नकल करना
        time.sleep(random.uniform(2, 4))
        
        # यादृच्छिक माउस गति
        for _ in range(random.randint(5, 10)):
            page.mouse.move(
                random.randint(100, 1800),
                random.randint(100, 1000)
            )
            time.sleep(random.uniform(0.1, 0.3))
        
        # स्क्रॉलिंग
        page.evaluate(f"window.scrollTo(0, {random.randint(300, 800)})")
        time.sleep(random.uniform(1, 2))
        
        content = page.content()
        browser.close()
        
        return content

CAPTCHA

CAPTCHA को स्वचालित रूप से हल करने के लिए पहचानने वाली सेवाओं (2captcha, Anti-Captcha) का उपयोग करें या बचने की रणनीतियाँ अपनाएँ:

अनुरोधों की आवृत्ति को उस स्तर तक कम करें जो CAPTCHA को ट्रिगर न करे
अच्छी प्रतिष्ठा वाले स्वच्छ रिहायशी आईपी का उपयोग करें
प्राधिकृत खातों के माध्यम से काम करें (इनका CAPTCHA थ्रेशोल्ड अधिक होता है)
समय के अनुसार लोड वितरित करें (पीक समय से बचें)

निगरानी और ब्लॉकिंग का प्रबंधन

सर्वोत्तम प्रथाओं के साथ भी, ब्लॉकिंग अनिवार्य है। महत्वपूर्ण है कि उन्हें जल्दी से पहचानें और सही तरीके से प्रबंधित करें।

ब्लॉकिंग संकेत

संकेत	विवरण	क्रिया
HTTP 429	बहुत अधिक अनुरोध	देरी बढ़ाएँ, आईपी बदलें
HTTP 403	प्रतिबंधित (आईपी बैन)	प्रॉक्सी बदलें, फिंगरप्रिंट की जांच करें
CAPTCHA	सत्यापन की आवश्यकता है	हल करें या सक्रियता कम करें
खाली प्रतिक्रिया	सामग्री लोड नहीं हो रही है	JavaScript, कुकीज़ की जांच करें
/blocked पर रीडायरेक्ट	स्पष्ट ब्लॉकिंग	पूर्ण रणनीति बदलें

पुनः प्रयास प्रणाली

import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session_with_retries():
    """
    स्वचालित पुनः प्रयासों और त्रुटियों के प्रबंधन के साथ सत्र
    """
    session = requests.Session()
    
    retry_strategy = Retry(
        total=5,
        backoff_factor=2,  # 2, 4, 8, 16, 32 सेकंड
        status_forcelist=[429, 500, 502, 503, 504],
        method_whitelist=["GET", "POST"]
    )
    
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    
    return session

def safe_request(url, session, max_attempts=3):
    """
    ब्लॉकिंग के प्रबंधन के साथ अनुरोध
    """
    for attempt in range(max_attempts):
        try:
            response = session.get(url, timeout=15)
            
            # ब्लॉकिंग की जांच
            if response.status_code == 403:
                print(f"आईपी ब्लॉक किया गया। प्रॉक्सी बदल रहा हूँ...")
                # प्रॉक्सी बदलने की लॉजिक
                continue
                
            elif response.status_code == 429:
                wait_time = int(response.headers.get('Retry-After', 60))
                print(f"दर सीमा। {wait_time}s प्रतीक्षा कर रहा हूँ...")
                time.sleep(wait_time)
                continue
                
            elif 'captcha' in response.text.lower():
                print("CAPTCHA का पता चला")
                # CAPTCHA को हल करने या छोड़ने की लॉजिक
                return None
                
            return response
            
        except requests.exceptions.Timeout:
            print(f"प्रयास {attempt + 1} पर टाइमआउट")
            time.sleep(5 * (attempt + 1))
            
        except requests.exceptions.ProxyError:
            print("प्रॉक्सी त्रुटि। रोटेट कर रहा हूँ...")
            # प्रॉक्सी बदलना
            continue
            
    return None

लॉगिंग और विश्लेषण

रणनीति को अनुकूलित करने के लिए मेट्रिक्स को ट्रैक करें:

import logging
from collections import defaultdict
from datetime import datetime

class ScraperMetrics:
    def __init__(self):
        self.stats = {
            'total_requests': 0,
            'successful': 0,
            'rate_limited': 0,
            'blocked': 0,
            'captcha': 0,
            'errors': 0,
            'proxy_failures': defaultdict(int)
        }
        
    def log_request(self, status, proxy=None):
        self.stats['total_requests'] += 1
        
        if status == 200:
            self.stats['successful'] += 1
        elif status == 429:
            self.stats['rate_limited'] += 1
        elif status == 403:
            self.stats['blocked'] += 1
            if proxy:
                self.stats['proxy_failures'][proxy] += 1
                
    def get_success_rate(self):
        if self.stats['total_requests'] == 0:
            return 0
        return (self.stats['successful'] / self.stats['total_requests']) * 100
        
    def print_report(self):
        print(f"\n=== स्क्रैपिंग रिपोर्ट ===")
        print(f"कुल अनुरोध: {self.stats['total_requests']}")
        print(f"सफलता दर: {self.get_success_rate():.2f}%")
        print(f"दर सीमा: {self.stats['rate_limited']}")
        print(f"ब्लॉक किया गया: {self.stats['blocked']}")
        print(f"CAPTCHA: {self.stats['captcha']}")
        
        if self.stats['proxy_failures']:
            print(f"\nसमस्या वाले प्रॉक्सी:")
            for proxy, count in sorted(
                self.stats['proxy_failures'].items(), 
                key=lambda x: x[1], 
                reverse=True
            )[:5]:
                print(f"  {proxy}: {count} विफलताएँ")

# उपयोग
metrics = ScraperMetrics()

for url in urls:
    response = safe_request(url, session)
    if response:
        metrics.log_request(response.status_code, current_proxy)
    
metrics.print_report()

अनुकूलित मापदंड: सफलता दर 95% से अधिक - उत्कृष्ट परिणाम। 80-95% - स्वीकार्य है, लेकिन सुधार की आवश्यकता है। 80% से कम - अपनी रणनीति पर पुनर्विचार करें: शायद बहुत आक्रामक दर सीमा, खराब प्रॉक्सी या फिंगरप्रिंटिंग में समस्याएँ हैं।

निष्कर्ष

सुरक्षा उपायों के बावजूद, बड़े अनुरोधों पर ब्लॉकिंग से बचना चुनौतीपूर्ण हो सकता है। सही रणनीतियों और उपकरणों का उपयोग करके, आप अपने स्क्रैपिंग प्रयासों को अधिक प्रभावी और सुरक्षित बना सकते हैं।

```

मासिक अनुरोधों के दौरान ब्लॉक होने से कैसे बचें