Bloga geri dön

Forum ve ilan panolarını tarama: Proxy kullanarak verileri engellenmeden nasıl toplayabilirsiniz

Forum ve ilan panolarından veri toplama için kapsamlı rehber: proxy nasıl seçilir, döngü nasıl ayarlanır ve Avito, forum.ru ve diğer platformlarda veri çekme sırasında engellerden nasıl kaçınılır.

📅7 Mart 2026
```html

Forumlar ve ilan panolarından veri toplama, pazarlamacılar, piyasa analistleri ve işletme sahipleri için kritik bir görevdir. Rakiplerin fiyatlarını izlemek için Avito'dan veri çekmek, sektörel forumlardan iletişim bilgileri toplamak, özel platformlardaki yorumları analiz etmek - bu görevlerin hepsi tek bir soruna dayanıyor: siteler otomatik veri toplamayı aktif olarak engelliyor. Bu yazıda, proxy üzerinden istikrarlı bir veri çekme ayarlamanın ve yasaklardan nasıl kaçınılacağının yollarını inceleyeceğiz.

Forumlar ve ilan panoları neden veri çekmeyi engelliyor

Platform sahipleri, verilerini birkaç nedenle koruyor. İlk olarak, toplu veri çekimi sunucular üzerinde yük oluşturuyor - bir veri çekici saatte binlerce istek üretebilir, bu da sitenin yüzlerce kullanıcı tarafından aynı anda ziyaret edilmesine eşdeğerdir. İkinci olarak, toplanan veriler genellikle rakipler tarafından kullanılıyor: Avito'daki fiyatlar izleme sistemlerine, forumlardaki iletişim bilgileri ise soğuk satış veritabanlarına giriyor.

Modern koruma sistemleri birçok parametreyi analiz ediyor: bir IP'den gelen isteklerin sıklığı, davranış kalıpları (veri çekici sayfaları çok hızlı ve sıralı açıyor), tarayıcı başlıkları, JavaScript'in varlığı. Örneğin, Avito çok katmanlı bir koruma kullanıyor: User-Agent kontrolü, çerezlerin analizi, tarayıcı parmak izi, şüpheli etkinlikte CAPTCHA.

Sizi tespit edecek tipik işaretler:

  • Tek IP adresi - tüm istekler tek bir IP'den geliyorsa, bu anında yasaklanma demektir
  • Yüksek istek sıklığı - sıradan bir kullanıcı saniyede 10 sayfa açamaz
  • Çerezler ve JavaScript yokluğu - basit betikler JS'yi çalıştırmaz ve çerezleri kaydetmez
  • Şüpheli User-Agent - eski tarayıcı sürümleri veya başlıkların uyumsuzluğu
  • Sayfaların sıralı gezilmesi - veri çekimi sıkı bir sırayla (sayfa 1, 2, 3...) doğal görünmüyor

Forumlar için hangi proxy'ler uygundur

Proxy türünün seçimi, veri hacmine, bütçeye ve hedef sitenin koruma seviyesine bağlıdır. Üç ana seçeneği ve bunların veri çekimindeki kullanımını inceleyelim.

Proxy Türü Hız Site Güveni En İyi Kullanım
Veri Merkezi Proxy'leri Çok yüksek (100+ Mbit/s) Düşük (kolayca tespit edilir) Korumasız küçük forumlar, arşiv veri çekimi
Konut Proxy'leri Orta (10-50 Mbit/s) Yüksek (gerçek ev IP'leri) Avito, büyük forumlar, korumalı siteler
Mobil Proxy'ler Orta (5-30 Mbit/s) Maksimum (mobil operatör IP'leri) Sert korumalı platformlar, iletişim bilgileri toplama

Veri Merkezi Proxy'leri - en ucuz seçenektir, basit görevler için uygundur. Küçük bir tematik forumu veya ciddi bir koruması olmayan bir ilan panosunu çekmek istiyorsanız, bu yeterlidir. Hız, saatte on binlerce sayfayı işleme kapasitesi sunar. Ancak Avito, YouDo, forum.ru ve diğer büyük platformlar bu tür IP'leri hızla tespit eder ve yasaklar.

Konut Proxy'leri - çoğu görev için fiyat ve kalite açısından optimal dengeyi sağlar. Bu, sitelerin sıradan ziyaretçilerden ayırt edemediği gerçek ev kullanıcılarının IP'leridir. Avito, Yandex.Hizmetler, büyük forumlar için standart bir seçimdir. Önemli bir nokta: konut proxy'leri genellikle trafik başına satılır, bu nedenle isteklerinizi optimize edin - gereksiz resimleri ve betikleri yüklemeyin.

Mobil Proxy'ler - karmaşık durumlar için maksimum güvenilirlik sağlar. Mobil operatörlerin IP'leri (MTS, Beeline, MegaFon) en yüksek güven seviyesine sahiptir, çünkü tek bir IP altında binlerce gerçek kullanıcı olabilir (CGNAT teknolojisi). Sert korumalı platformlar için veya kritik verileri yasak riski olmadan toplamak için kullanın.

Avito'dan veri çekme: özellikler ve ayarlar

Avito, Rusya'daki en korumalı platformlardan biridir. Anti-veri çekme sistemi, JavaScript kontrolü, tarayıcı parmak izi, davranış analizi, en küçük şüphe durumunda CAPTCHA içerir. Basit bir requests betiği çalışmaz - üçüncü istekte boş bir sayfa veya CAPTCHA alırsınız.

Avito'da istikrarlı veri çekimi için gerekenler:

Zorunlu bileşenler:
1. Her 5-10 dakikada bir döngü yapan konut veya mobil proxy'ler
2. JavaScript'i çalıştırmak için Headless tarayıcı (Selenium, Puppeteer, Playwright)
3. Gerçekçi tarayıcı başlıkları ve güncel Chrome sürümüne ait User-Agent
4. İstekler arasında gecikmeler: sayfa başına 3-7 saniye
5. Oturumlar arasında çerezleri saklama

Tipik bir görev - rakip fiyatlarını izlemek. Her gün kategorinizdeki ilanları toplamanız ve değişiklikleri takip etmeniz gerekiyor. 500-1000 ilan içeren bir kategori için yaklaşık 50-100 isteğe ihtiyacınız olacak (sayfalama ve ürün kartları dikkate alındığında). Doğru ayarlarla bu 10-15 dakika ve 1-2 GB konut proxy trafiği alacaktır.

Avito için veri çekici ayarlama adımları:

  1. Proxy alın - döngü yapan konut IP'leri için bir havuz sipariş edin. Günlük bir kategoriyi izlemek için ayda 10-20 GB trafik yeterlidir.
  2. Headless tarayıcıyı ayarlayın - Selenium veya Puppeteer kullanın. Önemli: headless modunu etkinleştirin, ancak tespit aşmak için parametreler ekleyin (window.navigator.webdriver = false).
  3. Tarayıcıda proxy'yi ayarlayın - tarayıcıyı başlatırken proxy verilerini iletin. Selenium için bu parametreler --proxy-server, Puppeteer için ise puppeteer.launch() içindeki args'dir.
  4. Gerçekçi davranış ekleyin - rastgele gecikmeler 3-7 saniye, veri toplamadan önce sayfayı kaydırma, fare hareketi (Selenium için).
  5. Çerezleri saklayın - ilk ziyaretten sonra çerezleri saklayın ve sonraki oturumlarda kullanın. Bu, şüphe uyandırmayı azaltır.
  6. IP'yi düzenli olarak değiştirin - her 5-10 dakikada veya her 20-30 istekte bir döngü. Tüm veri çekimi için tek bir IP kullanmayın.

Yeni başlayanların kritik hatası - çok hızlı veri çekmektir. Proxy ile bile, sayfaları her saniye açarsanız, sistem davranış kalıbından botu tespit eder. Sıradan bir kullanıcı bir ilanı 10-30 saniye okur, aşağı kaydırır, aramaya geri döner. Veri çekiciniz bunu taklit etmelidir: gecikmeler, kaydırma, bazen komşu kategorilere geçiş.

Forumlardan veri toplama: stratejiler ve araçlar

Forumlar koruma seviyesine göre farklılık gösterir. phpBB veya vBulletin üzerindeki eski forumlar genellikle ciddi bir anti-bot korumasına sahip değildir - veri merkezi proxy'leri ve basit bir veri çekici yeterlidir. Modern platformlar (forum.ru, özel sektörel forumlar) Cloudflare veya kendi koruma sistemlerini kullanır.

Forumların veri çekimindeki tipik görevler:

  • İletişim bilgilerini toplama - kullanıcıların imzalarından ve mesajlarından e-posta, telefon, Telegram
  • Marka anmalarını izleme - şirketiniz veya rakipleriniz hakkında yorumları takip etme
  • Duygu analizi - ürünler, hizmetler, sektördeki trendler hakkında görüşleri toplama
  • Potansiyel müşteri arama - sorununuz için çözüm arayan kişiler (örneğin, inşaat forumlarında yüklenici arayanlar)

Küçük forumlar (10.000 sayfaya kadar) için hazır araçlar uygundur: Octoparse, ParseHub, WebHarvy. Görsel bir arayüze sahiptirler - toplamak istediğiniz öğelere tıklıyorsunuz ve araç bir veri çekici oluşturuyor. Ayarlarda proxy, gecikmeler belirtirsiniz ve veri toplamaya başlarsınız.

Büyük projeler (yüz binlerce sayfa) için özel bir veri çekici gerekir. Popüler çerçeveler: Scrapy (Python), Puppeteer (JavaScript), Playwright (tüm dillerin desteği). Bunlar, gezinti mantığını esnek bir şekilde ayarlamanıza, hata işleme yapmanıza ve proxy havuzu üzerinden dağıtılmış veri çekimi gerçekleştirmenize olanak tanır.

Sektörel forum için veri çekme stratejisi örneği:

Görev: inşaat forumundan uzmanların iletişim bilgilerini toplamak (50.000 kullanıcı, 500.000 mesaj).

1. 50-100 IP'lik bir havuz ile konut proxy'leri kullanın
2. Kullanıcı listesini (50.000 profil) saatte 500 profil hızıyla çekin (7 saniye gecikme)
3. Her 100 profilde IP'yi değiştirin (her 12 dakikada bir)
4. Profillerden e-posta, web sitesi, iletişim bilgileri içeren imzaları çıkarın
5. Toplam süre: 100 saat (4 gün kesintisiz çalışma)
6. Trafik: yaklaşık 20-30 GB konut proxy

Önemli bir nokta: birçok forum, iletişim bilgilerini veya gizli bölümleri görüntülemek için kayıt olmayı gerektirir. Önceden birkaç hesap oluşturun (manuel olarak, farklı IP'lerden), bunları 1-2 hafta bekletin, birkaç mesaj gönderin. Bu hesapları veri çekimi için kullanın - yetkili bir kullanıcı daha az şüphe uyandırır.

IP döngüsü ve oturum yönetimi

Doğru IP döngüsü, uzun vadeli istikrarlı veri çekiminin anahtarıdır. İki ana yaklaşım vardır: zamana göre döngü ve istek sayısına göre döngü.

Zamana göre döngü: IP'yi her N dakikada bir değiştirirsiniz. Tahmin edilebilirliğin önemli olduğu görevler için uygundur. Örneğin, Avito'yu her 5 dakikada bir çekiyorsanız IP değiştirerek - bu, bir adresten gelen istek limitini aşmamanızı garanti eder. Dezavantajı: veri çekici çökerse veya yavaşlarsa, IP'yi boşa kaybedersiniz.

İstek sayısına göre döngü: IP'yi her N istekte bir değiştirirsiniz (örneğin, her 20-50 sayfada bir). Proxy'lerin daha verimli kullanımıdır, ancak doğru sayım gerektirir. Eğer site IP başına saatte 100 isteği sınırlıyorsa, döngüyü 80 istekte ayarlayın - hatalar için bir pay bırakmış olursunuz.

Platform Tavsiye Edilen Döngü İstekler Arası Gecikme
Avito Her 5-10 dakikada bir veya 20-30 istekte bir 3-7 saniye
YouDo, Profi.ru Her 10-15 dakikada bir veya 40-50 istekte bir 4-8 saniye
Cloudflare ile Forumlar Her 15-20 dakikada bir veya 60-80 istekte bir 5-10 saniye
Basit Forumlar (phpBB, vBulletin) Her 30-60 dakikada bir veya 200-300 istekte bir 2-5 saniye

Oturum yönetimi: IP'yi değiştirdiğinizde, oturumu (çerezler, localStorage) sıfırlayıp sıfırlamayacağınıza karar verin. Yetkili veri çekimi için (forumlar, kişisel hesaplar) oturumu saklayın, ancak IP'yi daha az değiştirin - aksi takdirde site, hesabın hacklendiğini şüphelenebilir (farklı şehirlerden girişler). Kamu verileri için (yetkilendirme olmadan Avito) IP değiştiğinde her şeyi sıfırlayın - her IP yeni bir kullanıcı gibi görünür.

Gelişmiş bir teknik - yapışkan oturumlar (sticky sessions). Bazı proxy sağlayıcıları, IP'yi 10-30 dakika "sabitlemenize" izin verir. Tek bir IP alırsınız, mantıksal görev çerçevesinde (örneğin, Avito'nun bir kategorisini çekme) tüm istekleri bu IP üzerinden yaparsınız, ardından bir sonraki kategori için yeni bir IP'ye geçersiniz. Bu, görüntüleme sırasında IP'yi değiştirmekten daha doğaldır.

Proxy için popüler veri çekme araçlarının ayarlanması

Popüler veri çekme araçlarında proxy ayarlarını inceleyelim. Kendi veri çekicilerini yazan teknik uzmanlar için örnekler.

Scrapy (Python): proxy döngüsü için middleware ekleyin. settings.py dosyasında bir proxy listesi oluşturun ve her istekte otomatik döngü için RandomProxy middleware kullanın.

# settings.py
ROTATING_PROXY_LIST = [
    'http://user:pass@proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'http://user:pass@proxy3.example.com:8000',
]

DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

Puppeteer (JavaScript): tarayıcıyı başlatırken proxy'yi iletin. Döngü için bir proxy havuzu oluşturun ve her yeni tarayıcı başlatıldığında rastgele birini seçin.

const puppeteer = require('puppeteer');

const proxyList = [
  'proxy1.example.com:8000',
  'proxy2.example.com:8000'
];

const proxy = proxyList[Math.floor(Math.random() * proxyList.length)];

const browser = await puppeteer.launch({
  args: [
    `--proxy-server=${proxy}`,
    '--no-sandbox'
  ]
});

// Proxy yetkilendirmesi
const page = await browser.newPage();
await page.authenticate({
  username: 'user',
  password: 'pass'
});

Selenium (Python): proxy'yi Chrome seçenekleri aracılığıyla ayarlayın. HTTP yetkilendirmesi için bir uzantı kullanın veya kimlik bilgilerini URL'de iletin.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://user:pass@proxy.example.com:8000')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-blink-features=AutomationControlled')

driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.avito.ru/moskva/kvartiry')

Hazır veri çekiciler (Octoparse, ParseHub): görev ayarlarında "Proxy" veya "IP Rotation" bölümünü bulun. Proxy listesini host:port:user:pass formatında ekleyin veya döngü için API URL'sini belirtin. "Her istekte döngü" veya "Her N dakikada döngü" seçeneğini etkinleştirin.

Anti-bot korumalarını aşma teknikleri

Proxy'ler IP yasaklama sorununu çözer, ancak modern koruma sistemleri birçok başka parametreyi analiz eder. İşte anti-bot sistemlerini aşmak için bir dizi önlem.

1. Gerçekçi User-Agent ve başlıklar: güncel tarayıcı sürümlerini kullanın. Şu anda Chrome 120 çıktıysa, Chrome 90'dan User-Agent koymayın. Başlıkların uyumunu kontrol edin: eğer User-Agent "Windows" diyorsa ve sec-ch-ua-platform başlığı "Linux" diyorsa - tespit edilirsiniz.

# 2024 yılı için iyi bir başlık seti
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
    'Accept-Encoding': 'gzip, deflate, br',
    'DNT': '1',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}

2. Headless tarayıcıların tespitini aşma: Selenium ve Puppeteer varsayılan olarak otomasyon belirtilerine sahiptir (navigator.webdriver özelliği = true). Bu belirtileri gizlemek için stealth eklentileri veya yamaları kullanın.

// Puppeteer Stealth Eklentisi
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

const browser = await puppeteer.launch({headless: true});

3. JavaScript Parmak İzi: siteler tarayıcı parmak izini toplar (canvas fingerprint, WebGL, yazı tipleri, ekran çözünürlüğü). Bu parametrelerin rastgeleleştirilmesi veya gerçek tarayıcı profilleri kullanılması için önlemler alın. Araçlar: FingerprintJS Randomizer, Multilogin (hazır profillerle platform).

4. CAPTCHA işleme: eğer CAPTCHA ortaya çıkarsa, tanıma hizmetlerini kullanın: 2Captcha, Anti-Captcha, CapMonster. Bunlar 1000 CAPTCHA için $1-3 arasında maliyetlidir. API ile entegrasyon 10-15 dakika sürer. reCAPTCHA v2/v3 için hazır kütüphaneler mevcuttur.

5. Davranış kalıpları: eylemlerinize rastgelelik ekleyin. Sayfaları tam olarak her 5 saniyede bir açmayın - 3 ile 8 saniye arasında değiştirin. Bazen 30-60 saniye bekleyerek uzun bir sayfayı okuduğunuzu taklit edin. Forumlarda bazen kullanıcı profillerine geçin, sadece konuları toplamayın.

Önemli: Bir sitenin koruma seviyesi ne kadar yüksekse, veri çekici o kadar yavaş çalışmalıdır. Avito için tek bir akışla saatte 500-1000 sayfa optimaldir. Daha fazlasına ihtiyacınız varsa, farklı proxy havuzları ile birden fazla paralel veri çekici başlatın, ancak her biri yavaş ve doğal çalışmalıdır.

Sonuç

Forumlar ve ilan panolarından veri çekme, kapsamlı bir yaklaşım gerektiren bir görevdir. Proxy'ler IP yasaklama sorununu çözer, ancak istikrarlı çalışma için doğru başlıklar, gerçekçi davranış, parmak izi aşma ve akıllı döngü gereklidir. Proxy türünün seçimi, hedef sitenin koruma seviyesine bağlıdır: basit forumlar için veri merkezleri yeterlidir, Avito ve büyük platformlar için konut veya mobil IP'ler gereklidir.

Başarılı veri çekiminin ana ilkeleri: yavaş ve doğal olmak, düzenli IP döngüsü, karmaşık siteler için headless tarayıcılar kullanmak, gerektiğinde CAPTCHA işlemek. Hız peşinde koşmayın - aylarca saatte 500 sayfa toplamak, iki gün içinde yasaklanmaktan daha iyidir.

Avito, YouDo, büyük forumlar veya ciddi korumaya sahip platformları veri çekmeyi planlıyorsanız, konut proxy'lerini kullanmanızı öneririz - bunlar güvenilirlik ve maliyet açısından optimal dengeyi sağlar. Özellikle korumalı platformlar veya kritik verileri toplamak için mobil proxy'ler en yüksek güven seviyesini sunar.

```