Bloga geri dön

Sosyal Medya ve Yorumculardan Duygu Analizi İçin Veri Toplama: Araçlar ve Yöntemler

Duygu analizi için veri toplama kapsamlı rehberi: hangi kaynakların kullanılacağı, sosyal medya ve inceleme sitelerinin engellenmeden nasıl taranacağı ve istikrarlı çalışma için hangi proxy'lerin seçileceği.

📅9 Mart 2026
```html

Duygu analizi (sentiment analysis), pazarlamacıların müşterilerin markaya, ürüne veya hizmete nasıl baktığını anlamalarına yardımcı olur. Ancak kaliteli bir analiz, doğru toplanmış verilere sahip olmadan mümkün değildir. Bu rehberde, duygu analizi için bilgiyi nereden ve nasıl toplayacağımızı, hangi araçları kullanacağımızı ve tarama sırasında engellerden nasıl kaçınacağımızı inceleyeceğiz.

Duygu analizi için temel veri kaynakları

Kaliteli bir duygu analizi için çeşitli veri kaynaklarına ihtiyaç vardır. Farklı kanallardan topladığınız bilgi ne kadar fazla olursa, markanızın algısı o kadar doğru olur.

Kaynak Veri tipi Toplama zorluğu Analiz için değeri
Sosyal medya (VK, Telegram) Yorumlar, gönderiler, bahsetmeler Orta Yüksek
Pazar yerleri (Wildberries, Ozon) Müşteri yorumları, puanlamalar Yüksek Çok yüksek
Yorum siteleri (Irecommend, Otzovik) Ayrıntılı yorumlar Orta Yüksek
Haber portalları Makaleler, yorumlar Düşük Orta
Forumlar ve SSS siteleri Tartışmalar, sorular Orta Orta
YouTube Video yorumları Orta Yüksek

Çoğu marka için öncelikli kaynaklar pazar yerleri ve sosyal medyadır; çünkü müşteri görüşlerinin büyük çoğunluğu burada toplanmaktadır. Yorum siteleri daha ayrıntılı geri bildirim sağlar, ancak genellikle veri hacmi daha düşüktür.

Sosyal medyadan veri toplama

Sosyal medya, duygu analizi için altın bir kaynaktır. İnsanlar markalar hakkında özgürce görüşlerini ifade eder, ürün kullanımı deneyimlerini paylaşır ve reklam gönderilerinin altında yorum bırakırlar.

VKontakte

VK, kamuya açık verileri toplamak için API sağlar, ancak istek sayısında sınırlamalar vardır. Kapsamlı bir izleme için web arayüzü üzerinden tarama yapılması gerekecektir. Toplanacak temel veri türleri:

  • Markanızın veya rakiplerinizin gönderileri altındaki yorumlar
  • Kamuya açık gönderilerde ve gruplarda markanın bahsedilmesi
  • Tematik topluluklardaki yorumlar (örneğin, nişiniz için "Dinlenildi")
  • Sektörel gruplardaki tartışmalar

Önemli bir nokta: VK, otomatik veri toplamaya karşı aktif olarak mücadele etmektedir. Proxy olmadan tarama yaparsanız, hızla CAPTCHA veya geçici bir engelleme alırsınız. İstikrarlı bir çalışma için Rus IP adresleriyle konut proxy'leri kullanın; bu proxy'ler normal kullanıcıları taklit eder ve nadiren engellenir.

Telegram

Telegram, kamuoyunu izlemek için önemli bir kanal haline geldi. Burada birkaç yaklaşım bulunmaktadır:

  • Telegram Resmi API'si — kamuya açık kanallardan ve sohbetlerden mesajları toplamanıza olanak tanır. Uygulama kaydı ve API anahtarları almayı gerektirir.
  • Tarama için kütüphaneler — örneğin, Python için Telethon veya Pyrogram. API ile çalışmayı kolaylaştırır ve veri toplama işlemini otomatikleştirir.
  • Bahsetmeleri izleme — markanızın kamuya açık kanallarda nerede ve nasıl bahsedildiğini takip edin.

Telegram, VK'den daha az agresif bir şekilde taramayı engeller, ancak yine de büyük ölçekli görevler için proxy kullanmak önemlidir — özellikle aynı anda yüzlerce kanalı izliyorsanız.

YouTube

Ürün inceleme videolarının altındaki yorumlar, ayrıntılı görüşlerin değerli bir kaynağıdır. YouTube Data API, yorumları yasal olarak toplamanıza olanak tanır, ancak istek sayısında kotalar vardır. Bu kotaları aşmak için:

  • Birden fazla API anahtarı oluşturun ve bunları döndürün
  • Proxy ile web arayüzü üzerinden tarama yapın
  • Maksimum verimlilik için her iki yaklaşımı birleştirin

Pazar yerlerinden ve yorum sitelerinden yorum tarama

Pazar yerlerindeki yorumlar, e-ticaret için duygu analizi için en yapılandırılmış ve ilgili veri kaynağıdır. Burada müşteriler, satın alma işlemlerinden hemen sonra puanlama ve ayrıntılı yorumlar bırakmaktadır.

Wildberries

Wildberries, taramaya karşı aktif bir koruma mekanizması uygular. Tek bir IP adresinden yorum toplamaya çalıştığınızda hızla engellenirsiniz. Platformun izlediği tipik bot belirtileri:

  • Çok hızlı istekler (saniyede 1-2'den fazla)
  • Tüm isteklere aynı User-Agent kullanımı
  • Çerezlerin ve oturum geçmişinin olmaması
  • Veri merkezlerinden gelen istekler (konut adresleri değil)

Wildberries'de başarılı bir tarama için:

  1. Konut proxy'leri kullanın — gerçek kullanıcıların IP'lerine sahip olup, şüphe uyandırmazlar. Rus pazar yerlerinde tarama yapmak için Rus IP'leri gereklidir.
  2. Proxy döngüsü ayarlayın — her 20-30 istekte veya her 5-10 dakikada bir IP değiştirin.
  3. Gecikmeler ekleyin — istekler arasında 2-5 saniye bekleyin, insan davranışını taklit edin.
  4. User-Agent döndürün — her istek için farklı tarayıcılar ve sürümler kullanın.
  5. Çerezleri saklayın — her proxy adresi için oturumu sürdürün.

Tavsiye: Pazar yerleri için tarama yaparken, engellerden korunmak için hazır araçlar kullanmak, kendi scriptlerinizi yazmaktan daha iyidir. Bu, zaman kazandırır ve yasaklanma riskini azaltır.

Ozon

Ozon, benzer koruma mekanizmaları kullanır, ancak Wildberries kadar agresif değildir. Taramanın temel özellikleri:

  • Yorumlar AJAX istekleri ile dinamik olarak yüklenir — ağ trafiğini analiz etmeniz gerekir
  • Sayfalama vardır — bir ürün yüzlerce yoruma sahip olabilir, onlarca sayfada
  • Yorumlar, parametreler (kalite, açıklamaya uygunluk vb.) üzerinden puanlamalar içerir — değerli yapılandırılmış bilgi

Yandex.Market

Yandex.Market, botlara karşı katı bir koruma sistemine sahiptir. Burada konut proxy'leri kullanmak zorunludur, çünkü veri merkezi IP'leri neredeyse anında engellenir. Market'teki yorumlar özellikle değerlidir, çünkü genellikle ürün kullanım deneyimlerini ayrıntılı bir şekilde içerir.

Yorum siteleri (Irecommend, Otzovik, Otzovik.ru)

Uzmanlaşmış yorum platformları, en ayrıntılı görüşleri sunar — kullanıcılar deneyimlerini anlatan tam makaleler yazar. Buradaki tarama genellikle pazar yerlerine göre daha kolaydır, ancak yine de büyük ölçekli veri toplama için proxy gerektirir.

Haber siteleri ve forumları izleme

Haber portalları ve forumlar, sektörünüz ve markanız hakkında daha geniş bir bağlamda kamuoyunu anlamanızı sağlar.

Haber siteleri

Haberleri izlemek için kullanın:

  • RSS beslemeleri — birçok haber sitesi, son yayınlarla birlikte RSS sağlar. Bu, veri toplamanın yasal ve kullanışlı bir yoludur.
  • Google News API — markanızın haberlerdeki bahsedilmesini dünya genelinde aramanıza olanak tanır.
  • Yorumları tarama — haber makalelerinin altında genellikle değerli içgörülerle tartışmalar gelişir.

Forumlar ve topluluklar

Tematik forumlar (örneğin, otomotiv, teknik, kadın) uzman görüşleri ve ayrıntılı tartışmalar içerir. Forumları taramak genellikle teknik olarak daha kolaydır, ancak yapılandırılmamış format nedeniyle veri sonrası işleme için daha fazla zaman alır.

Veri toplama otomasyonu için araçlar

Araç seçimi, teknik becerilerinize, bütçenize ve görev ölçeğinize bağlıdır.

Kod olmadan hazır izleme servisleri

Servis Veri kaynakları Özellikler
Brand Analytics Sosyal medya, haberler, forumlar Yerleşik duygu analizi, pahalı
IQBuzz Sosyal medya, medya Rus pazarında iyi
Babkee Pazar yerlerinden yorumlar E-ticaret üzerine uzmanlaşma
Popsters Sosyal medya Rakip içerik analizi

Hazır servisler kullanışlıdır, ancak pahalıdır ve veriler üzerinde tam kontrol sağlamaz. Özel görevler veya büyük hacimler için kendi veri toplama sisteminizi ayarlamak daha kârlıdır.

Kendi tarama araçları

Teknik detaylarla ilgilenmeye hazırsanız, işte popüler araçlar:

  • Octoparse — kod olmadan görsel tarayıcı. Veri toplama işlemini sayfadaki öğelere tıklayarak ayarlarsınız. Proxy ve görev zamanlayıcısını destekler.
  • ParseHub — Octoparse'a benzer, JavaScript ile dinamik sitelerle iyi çalışır.
  • Scrapy (Python) — kendi tarayıcılarınızı yazmak için güçlü bir çerçeve. Programlama becerileri gerektirir, ancak maksimum esneklik sağlar.
  • Beautiful Soup + Requests (Python) — statik siteleri taramak için basit bir kombinasyon.
  • Selenium / Puppeteer — tarayıcıyı kontrol etmek için araçlar. Bot koruması ve karmaşık JavaScript mantığına sahip siteler için gereklidir.

Sosyal medya için özel API'ler

Birçok platform resmi API'ler sunar:

  • VK API — kamuya açık gönderileri, yorumları, topluluk bilgilerini almanıza olanak tanır
  • Telegram API — kamuya açık kanallardan ve sohbetlerden mesajlara erişim sağlar
  • YouTube Data API — yorumları, video ve kanal bilgilerini toplar

API'ler, yasal ve yapılandırılmış olmaları açısından kullanışlıdır, ancak istek sayısında sınırlamalar vardır ve her zaman gerekli verilere erişim sağlamazlar.

Tarama için neden proxy gereklidir

Proxy olmadan tarama yapmak, yüzlerce insanı tek bir noktadan gizlice fotoğraflamaya çalışmak gibidir. Hızla fark edilir ve gitmeniz istenir. Proxy, birkaç kritik sorunu çözer:

Rate limiting (istek kısıtlamalarını) aşma

Çoğu site, bir IP adresinden gelen istek sayısını sınırlar. Örneğin, Wildberries, saatte 50-100 istektan sonra IP'yi engelleyebilir. Proxy ile yükü onlarca veya yüzlerce IP adresine dağıtarak bu limitleri aşarsınız.

Engellerden kaçınma

Siteler, botları belirlemek için karmaşık algoritmalar kullanır. Tüm istekleriniz tek bir IP'den gelirse, bu otomasyonun açık bir işareti olur. Proxy, farklı konumlardan farklı kullanıcılar tarafından yapılan istekleri taklit eder.

Coğrafi olarak spesifik içeriğe erişim

Bazı yorumlar ve yorumlar yalnızca belirli bölgelerdeki kullanıcılara gösterilebilir. Örneğin, pazar yerlerinde fiyatlar ve yorumlar Moskova ve diğer bölgeler için farklılık gösterebilir. İhtiyaç duyulan şehirlerden gelen proxy'ler, tam bir tabloya erişim sağlar.

Hangi proxy türünü seçmeli

Proxy türü Artıları Eksileri Ne zaman kullanılmalı
Konut Gerçek kullanıcıların IP'leri, yasaklama riski minimum Diğer türlerden daha pahalı Pazar yerleri, güçlü korumaya sahip sosyal medya
Mobil Mobil operatörlerin IP'leri, neredeyse yasaklanmazlar En pahalı, havuzda daha az IP Instagram, TikTok, mobil uygulamalar
Veri merkezleri Hızlı, ucuz Kolayca proxy olarak belirlenir, sık sık engellenir Koruması olmayan basit siteler, haber portalları

Duygu analizi için en iyi seçim, konut proxy'leridir. Maliyet ve güvenilirlik arasında bir denge sağlarlar. Rus pazar yerleri ve sosyal medya için Rus IP adreslerine sahip proxy'ler seçin.

Veri toplama sisteminin ayarlanması: adım adım talimat

Wildberries'den yorumları taramak için Octoparse ve konut proxy'leri kullanarak veri toplama sisteminin ayarlanmasını inceleyelim.

Adım 1: Proxy hazırlığı

  1. Rus IP adreslerine sahip konut proxy'leri satın alın (istikrarlı çalışma için en az 10-20 adres)
  2. Proxy listesini şu formatta alın: IP:PORT:USERNAME:PASSWORD
  3. Her proxy'nin çalışabilirliğini çevrimiçi kontrol hizmetleriyle kontrol edin

Adım 2: Octoparse ayarları

  1. Octoparse'ı resmi web sitesinden indirin ve kurun
  2. Yeni bir tarama görevi oluşturun: Wildberries'deki ürün sayfasının URL'sini girin
  3. Ürün sayfasındaki yorumlar bölümüne gidin
  4. Octoparse görsel düzenleyicisinde toplanması gereken öğeleri seçin:
    • Yorum metni
    • Puan (yıldız sayısı)
    • Yayın tarihi
    • Yazar adı
    • Artılar ve eksiler (varsa)
  5. Tüm sayfalardan yorum toplamak için sayfalama ayarlarını yapın

Adım 3: Octoparse'da proxy bağlantısı

  1. Görev ayarlarını açın → "Proxy" bölümüne gidin
  2. "Rotate proxy" (proxy döngüsü) modunu seçin
  3. Proxy listenizi içe aktarın
  4. Döngü aralığını ayarlayın: her 20-30 istekte veya her 5 dakikada bir
  5. Proxy'lerin çalışmasını yerleşik test aracıyla kontrol edin

Adım 4: Tarama parametrelerini ayarlama

  1. İstekler arasında gecikme ayarlayın: 3-5 saniye (insan davranışını taklit etme)
  2. Ekstra maskeleme için User-Agent döngüsünü etkinleştirin
  3. Hata işleme ayarlarını yapın: IP engellendiğinde otomatik olarak bir sonraki proxy'ye geçin
  4. Limitler ayarlayın: döngüden önce bir IP'den maksimum 50-100 yorum

Adım 5: Başlatma ve izleme

  1. Görevi test modunda 10-20 yorum üzerinde başlatın
  2. Toplanan verilerin kalitesini kontrol edin: tüm alanlar doğru bir şekilde doldurulmuş mu
  3. Her şey çalışıyorsa — tam ölçekli veri toplamaya başlayın
  4. Süreci izleyin: hata ve engelleme sayısını takip edin
  5. Verileri CSV veya veritabanına otomatik olarak dışa aktarma ayarlarını yapın

Önemli: İlk başlatmayı her zaman küçük bir ölçekte yapın. Bu, tüm proxy trafiğinizi harcamadan veya toplu engellemeler almadan ayarlarla ilgili sorunları belirlemenizi sağlar.

Adım 6: Veri sonrası işleme

Verileri topladıktan sonra, analiz için temizlemek ve hazırlamak gerekir:

  1. Yorumların kopyalarını kaldırın
  2. Metni HTML etiketlerinden ve özel karakterlerden temizleyin
  3. Tarihleri tek bir formatta normalleştirin
  4. Boş alanları kontrol edin
  5. Analiz sisteminiz için formatta dışa aktarın (CSV, JSON, veritabanı)

En iyi uygulamalar ve sık yapılan hatalar

Ne yapmalı (en iyi uygulamalar)

  • Küçükten başlayın — önce bir kaynaktan veri toplamayı ayarlayın, süreci düzeltin, sonra diğer platformlara ölçeklendirin.
  • Meta verileri toplayın — sadece yorum metnini değil, tarih, yazar, puan, beğeni sayısını da saklayın. Bu, derinlemesine analiz için önemlidir.
  • Verileri düzenli olarak güncelleyin — duygu zamanla değişir. Yeni yorumları günde veya haftada bir otomatik olarak toplamayı ayarlayın.
  • Yedeklemeler yapın — işlenmeden önce ham verileri saklayın. Analiz algoritması değişirse, eski verileri yeniden işleyebilirsiniz.
  • Süreci belgeleyin — tarayıcı ayarlarını, veri kaynaklarını, toplama sürelerini kaydedin. Bu, analiz ve ölçeklendirme sırasında yardımcı olur.
  • Kaliteyi izleyin — düzenli olarak toplanan verilerin rastgele bir örneğini doğruluğunu kontrol edin.

Nelerden kaçınılmalı (sık yapılan hatalar)

  • Proxy olmadan tarama — IP engellemesine hızlı bir yoldur. Küçük hacimler için bile en az birkaç proxy kullanın.
  • Çok agresif tarama — her saniye istek yapmak şüphe uyandırır. 2-5 saniye arasında rastgele gecikmeler ekleyin.
  • Sosyal medya için veri merkezi proxy kullanımı — Instagram, Facebook, VK bunları kolayca belirler ve engeller. Sosyal medya için yalnızca konut veya mobil proxy kullanın.
  • robots.txt'yi göz ardı etme — bu yasal bir gereklilik olmasa da, kaba bir ihlal IP engeline neden olabilir.
  • Kişisel verileri toplama — e-posta, telefon ve diğer özel bilgileri toplamayın. Bu, veri koruma yasalarını ihlal eder.
  • Hata işleme eksikliği — tarayıcı, 404 hatalarını, zaman aşımını, sayfa yapısındaki değişiklikleri düzgün bir şekilde işlemelidir.
  • Yetersiz proxy döngüsü — bir proxy'yi çok uzun süre kullanıyorsanız, engellenir. IP'yi her 20-50 istekte bir değiştirin.

Performans optimizasyonu

Büyük veri hacimlerini (günde binlerce yorum) toplamak için:

  • Paralelleştirme — aynı anda birden fazla tarama işlemi başlatın, her biri kendi proxy'si ile
  • Görev kuyrukları — tarama görevlerini yönetmek için Celery gibi sistemler kullanın (Python için)
  • Önbellekleme — zaten toplanmış sayfaları saklayın, tekrar taramaktan kaçının
  • Artımlı toplama — yalnızca son başlatmadan bu yana yeni yorumları toplayın, hepsini yeniden değil

Hukuki yönler

Tarama, yasaların gri alanında yer alır. Riskleri en aza indirmek için:

  • Sadece kamuya açık verileri toplayın (giriş olmadan)
  • Toplanan verileri satmayın
  • Verileri yalnızca iç analiz ve ürün geliştirme için kullanın
  • Analizden önce kişisel verileri (isimler, fotoğraflar) silin
  • Web sitelerinin sunucularına makul bir yük sağladığınızdan emin olun

Sonuç

Duygu analizi için veri toplama, müşterilerin markanıza olan tutumunu anlamanın temelidir. Doğru ayarlanmış bir veri toplama sistemi, sosyal medya, pazar yerleri ve diğer kaynaklardan sürekli güncel bilgi akışı sağlar.

Bu rehberden çıkarılacak ana noktalar:

  • Çeşitli veri kaynakları kullanın — sosyal medya, pazar yerleri, yorum siteleri, forumlar
  • Kendi seviyenize uygun araçları seçin: hızlı başlangıç için hazır servisler, esneklik için kendi tarayıcılarınızı
  • Konut proxy'leri — korumalı platformlarda istikrarlı tarama için zorunludur
  • Sistemi kademeli olarak ayarlayın: önce bir kaynak, sonra ölçeklendirme
  • Duygu dinamiklerini izlemek için düzenli veri toplama işlemini otomatikleştirin

Öncelikle işiniz için en önemli olan bir veya iki kaynaktan tarama yapmaya başlayın. Süreci düzeltin, otomasyonu ayarlayın ve yalnızca sonra yeni platformlar ekleyin. Veri kalitesi, miktarından daha önemlidir — 1000 doğru ve ilgili yorum almak, 10000 gereksiz ve kopya yorum almaktan daha iyidir.

Eğer Rus pazar yerlerinden veya sosyal medyadan veri toplamayı planlıyorsanız, Rus IP'leri ile konut proxy'leri kullanmanızı öneririz — bunlar engellemeler olmadan istikrarlı çalışma sağlar ve coğrafi olarak spesifik içeriğe erişim imkanı sunar. Mobil uygulamalar ve Instagram gibi platformlar için mobil proxy'ler kullanmak, normal kullanıcılar ile ayırt edilmesi neredeyse imkansızdır.

```