Duygu analizi (sentiment analysis), pazarlamacıların müşterilerin markaya, ürüne veya hizmete nasıl baktığını anlamalarına yardımcı olur. Ancak kaliteli bir analiz, doğru toplanmış verilere sahip olmadan mümkün değildir. Bu rehberde, duygu analizi için bilgiyi nereden ve nasıl toplayacağımızı, hangi araçları kullanacağımızı ve tarama sırasında engellerden nasıl kaçınacağımızı inceleyeceğiz.
Duygu analizi için temel veri kaynakları
Kaliteli bir duygu analizi için çeşitli veri kaynaklarına ihtiyaç vardır. Farklı kanallardan topladığınız bilgi ne kadar fazla olursa, markanızın algısı o kadar doğru olur.
| Kaynak | Veri tipi | Toplama zorluğu | Analiz için değeri |
|---|---|---|---|
| Sosyal medya (VK, Telegram) | Yorumlar, gönderiler, bahsetmeler | Orta | Yüksek |
| Pazar yerleri (Wildberries, Ozon) | Müşteri yorumları, puanlamalar | Yüksek | Çok yüksek |
| Yorum siteleri (Irecommend, Otzovik) | Ayrıntılı yorumlar | Orta | Yüksek |
| Haber portalları | Makaleler, yorumlar | Düşük | Orta |
| Forumlar ve SSS siteleri | Tartışmalar, sorular | Orta | Orta |
| YouTube | Video yorumları | Orta | Yüksek |
Çoğu marka için öncelikli kaynaklar pazar yerleri ve sosyal medyadır; çünkü müşteri görüşlerinin büyük çoğunluğu burada toplanmaktadır. Yorum siteleri daha ayrıntılı geri bildirim sağlar, ancak genellikle veri hacmi daha düşüktür.
Sosyal medyadan veri toplama
Sosyal medya, duygu analizi için altın bir kaynaktır. İnsanlar markalar hakkında özgürce görüşlerini ifade eder, ürün kullanımı deneyimlerini paylaşır ve reklam gönderilerinin altında yorum bırakırlar.
VKontakte
VK, kamuya açık verileri toplamak için API sağlar, ancak istek sayısında sınırlamalar vardır. Kapsamlı bir izleme için web arayüzü üzerinden tarama yapılması gerekecektir. Toplanacak temel veri türleri:
- Markanızın veya rakiplerinizin gönderileri altındaki yorumlar
- Kamuya açık gönderilerde ve gruplarda markanın bahsedilmesi
- Tematik topluluklardaki yorumlar (örneğin, nişiniz için "Dinlenildi")
- Sektörel gruplardaki tartışmalar
Önemli bir nokta: VK, otomatik veri toplamaya karşı aktif olarak mücadele etmektedir. Proxy olmadan tarama yaparsanız, hızla CAPTCHA veya geçici bir engelleme alırsınız. İstikrarlı bir çalışma için Rus IP adresleriyle konut proxy'leri kullanın; bu proxy'ler normal kullanıcıları taklit eder ve nadiren engellenir.
Telegram
Telegram, kamuoyunu izlemek için önemli bir kanal haline geldi. Burada birkaç yaklaşım bulunmaktadır:
- Telegram Resmi API'si — kamuya açık kanallardan ve sohbetlerden mesajları toplamanıza olanak tanır. Uygulama kaydı ve API anahtarları almayı gerektirir.
- Tarama için kütüphaneler — örneğin, Python için Telethon veya Pyrogram. API ile çalışmayı kolaylaştırır ve veri toplama işlemini otomatikleştirir.
- Bahsetmeleri izleme — markanızın kamuya açık kanallarda nerede ve nasıl bahsedildiğini takip edin.
Telegram, VK'den daha az agresif bir şekilde taramayı engeller, ancak yine de büyük ölçekli görevler için proxy kullanmak önemlidir — özellikle aynı anda yüzlerce kanalı izliyorsanız.
YouTube
Ürün inceleme videolarının altındaki yorumlar, ayrıntılı görüşlerin değerli bir kaynağıdır. YouTube Data API, yorumları yasal olarak toplamanıza olanak tanır, ancak istek sayısında kotalar vardır. Bu kotaları aşmak için:
- Birden fazla API anahtarı oluşturun ve bunları döndürün
- Proxy ile web arayüzü üzerinden tarama yapın
- Maksimum verimlilik için her iki yaklaşımı birleştirin
Pazar yerlerinden ve yorum sitelerinden yorum tarama
Pazar yerlerindeki yorumlar, e-ticaret için duygu analizi için en yapılandırılmış ve ilgili veri kaynağıdır. Burada müşteriler, satın alma işlemlerinden hemen sonra puanlama ve ayrıntılı yorumlar bırakmaktadır.
Wildberries
Wildberries, taramaya karşı aktif bir koruma mekanizması uygular. Tek bir IP adresinden yorum toplamaya çalıştığınızda hızla engellenirsiniz. Platformun izlediği tipik bot belirtileri:
- Çok hızlı istekler (saniyede 1-2'den fazla)
- Tüm isteklere aynı User-Agent kullanımı
- Çerezlerin ve oturum geçmişinin olmaması
- Veri merkezlerinden gelen istekler (konut adresleri değil)
Wildberries'de başarılı bir tarama için:
- Konut proxy'leri kullanın — gerçek kullanıcıların IP'lerine sahip olup, şüphe uyandırmazlar. Rus pazar yerlerinde tarama yapmak için Rus IP'leri gereklidir.
- Proxy döngüsü ayarlayın — her 20-30 istekte veya her 5-10 dakikada bir IP değiştirin.
- Gecikmeler ekleyin — istekler arasında 2-5 saniye bekleyin, insan davranışını taklit edin.
- User-Agent döndürün — her istek için farklı tarayıcılar ve sürümler kullanın.
- Çerezleri saklayın — her proxy adresi için oturumu sürdürün.
Tavsiye: Pazar yerleri için tarama yaparken, engellerden korunmak için hazır araçlar kullanmak, kendi scriptlerinizi yazmaktan daha iyidir. Bu, zaman kazandırır ve yasaklanma riskini azaltır.
Ozon
Ozon, benzer koruma mekanizmaları kullanır, ancak Wildberries kadar agresif değildir. Taramanın temel özellikleri:
- Yorumlar AJAX istekleri ile dinamik olarak yüklenir — ağ trafiğini analiz etmeniz gerekir
- Sayfalama vardır — bir ürün yüzlerce yoruma sahip olabilir, onlarca sayfada
- Yorumlar, parametreler (kalite, açıklamaya uygunluk vb.) üzerinden puanlamalar içerir — değerli yapılandırılmış bilgi
Yandex.Market
Yandex.Market, botlara karşı katı bir koruma sistemine sahiptir. Burada konut proxy'leri kullanmak zorunludur, çünkü veri merkezi IP'leri neredeyse anında engellenir. Market'teki yorumlar özellikle değerlidir, çünkü genellikle ürün kullanım deneyimlerini ayrıntılı bir şekilde içerir.
Yorum siteleri (Irecommend, Otzovik, Otzovik.ru)
Uzmanlaşmış yorum platformları, en ayrıntılı görüşleri sunar — kullanıcılar deneyimlerini anlatan tam makaleler yazar. Buradaki tarama genellikle pazar yerlerine göre daha kolaydır, ancak yine de büyük ölçekli veri toplama için proxy gerektirir.
Haber siteleri ve forumları izleme
Haber portalları ve forumlar, sektörünüz ve markanız hakkında daha geniş bir bağlamda kamuoyunu anlamanızı sağlar.
Haber siteleri
Haberleri izlemek için kullanın:
- RSS beslemeleri — birçok haber sitesi, son yayınlarla birlikte RSS sağlar. Bu, veri toplamanın yasal ve kullanışlı bir yoludur.
- Google News API — markanızın haberlerdeki bahsedilmesini dünya genelinde aramanıza olanak tanır.
- Yorumları tarama — haber makalelerinin altında genellikle değerli içgörülerle tartışmalar gelişir.
Forumlar ve topluluklar
Tematik forumlar (örneğin, otomotiv, teknik, kadın) uzman görüşleri ve ayrıntılı tartışmalar içerir. Forumları taramak genellikle teknik olarak daha kolaydır, ancak yapılandırılmamış format nedeniyle veri sonrası işleme için daha fazla zaman alır.
Veri toplama otomasyonu için araçlar
Araç seçimi, teknik becerilerinize, bütçenize ve görev ölçeğinize bağlıdır.
Kod olmadan hazır izleme servisleri
| Servis | Veri kaynakları | Özellikler |
|---|---|---|
| Brand Analytics | Sosyal medya, haberler, forumlar | Yerleşik duygu analizi, pahalı |
| IQBuzz | Sosyal medya, medya | Rus pazarında iyi |
| Babkee | Pazar yerlerinden yorumlar | E-ticaret üzerine uzmanlaşma |
| Popsters | Sosyal medya | Rakip içerik analizi |
Hazır servisler kullanışlıdır, ancak pahalıdır ve veriler üzerinde tam kontrol sağlamaz. Özel görevler veya büyük hacimler için kendi veri toplama sisteminizi ayarlamak daha kârlıdır.
Kendi tarama araçları
Teknik detaylarla ilgilenmeye hazırsanız, işte popüler araçlar:
- Octoparse — kod olmadan görsel tarayıcı. Veri toplama işlemini sayfadaki öğelere tıklayarak ayarlarsınız. Proxy ve görev zamanlayıcısını destekler.
- ParseHub — Octoparse'a benzer, JavaScript ile dinamik sitelerle iyi çalışır.
- Scrapy (Python) — kendi tarayıcılarınızı yazmak için güçlü bir çerçeve. Programlama becerileri gerektirir, ancak maksimum esneklik sağlar.
- Beautiful Soup + Requests (Python) — statik siteleri taramak için basit bir kombinasyon.
- Selenium / Puppeteer — tarayıcıyı kontrol etmek için araçlar. Bot koruması ve karmaşık JavaScript mantığına sahip siteler için gereklidir.
Sosyal medya için özel API'ler
Birçok platform resmi API'ler sunar:
- VK API — kamuya açık gönderileri, yorumları, topluluk bilgilerini almanıza olanak tanır
- Telegram API — kamuya açık kanallardan ve sohbetlerden mesajlara erişim sağlar
- YouTube Data API — yorumları, video ve kanal bilgilerini toplar
API'ler, yasal ve yapılandırılmış olmaları açısından kullanışlıdır, ancak istek sayısında sınırlamalar vardır ve her zaman gerekli verilere erişim sağlamazlar.
Tarama için neden proxy gereklidir
Proxy olmadan tarama yapmak, yüzlerce insanı tek bir noktadan gizlice fotoğraflamaya çalışmak gibidir. Hızla fark edilir ve gitmeniz istenir. Proxy, birkaç kritik sorunu çözer:
Rate limiting (istek kısıtlamalarını) aşma
Çoğu site, bir IP adresinden gelen istek sayısını sınırlar. Örneğin, Wildberries, saatte 50-100 istektan sonra IP'yi engelleyebilir. Proxy ile yükü onlarca veya yüzlerce IP adresine dağıtarak bu limitleri aşarsınız.
Engellerden kaçınma
Siteler, botları belirlemek için karmaşık algoritmalar kullanır. Tüm istekleriniz tek bir IP'den gelirse, bu otomasyonun açık bir işareti olur. Proxy, farklı konumlardan farklı kullanıcılar tarafından yapılan istekleri taklit eder.
Coğrafi olarak spesifik içeriğe erişim
Bazı yorumlar ve yorumlar yalnızca belirli bölgelerdeki kullanıcılara gösterilebilir. Örneğin, pazar yerlerinde fiyatlar ve yorumlar Moskova ve diğer bölgeler için farklılık gösterebilir. İhtiyaç duyulan şehirlerden gelen proxy'ler, tam bir tabloya erişim sağlar.
Hangi proxy türünü seçmeli
| Proxy türü | Artıları | Eksileri | Ne zaman kullanılmalı |
|---|---|---|---|
| Konut | Gerçek kullanıcıların IP'leri, yasaklama riski minimum | Diğer türlerden daha pahalı | Pazar yerleri, güçlü korumaya sahip sosyal medya |
| Mobil | Mobil operatörlerin IP'leri, neredeyse yasaklanmazlar | En pahalı, havuzda daha az IP | Instagram, TikTok, mobil uygulamalar |
| Veri merkezleri | Hızlı, ucuz | Kolayca proxy olarak belirlenir, sık sık engellenir | Koruması olmayan basit siteler, haber portalları |
Duygu analizi için en iyi seçim, konut proxy'leridir. Maliyet ve güvenilirlik arasında bir denge sağlarlar. Rus pazar yerleri ve sosyal medya için Rus IP adreslerine sahip proxy'ler seçin.
Veri toplama sisteminin ayarlanması: adım adım talimat
Wildberries'den yorumları taramak için Octoparse ve konut proxy'leri kullanarak veri toplama sisteminin ayarlanmasını inceleyelim.
Adım 1: Proxy hazırlığı
- Rus IP adreslerine sahip konut proxy'leri satın alın (istikrarlı çalışma için en az 10-20 adres)
- Proxy listesini şu formatta alın:
IP:PORT:USERNAME:PASSWORD - Her proxy'nin çalışabilirliğini çevrimiçi kontrol hizmetleriyle kontrol edin
Adım 2: Octoparse ayarları
- Octoparse'ı resmi web sitesinden indirin ve kurun
- Yeni bir tarama görevi oluşturun: Wildberries'deki ürün sayfasının URL'sini girin
- Ürün sayfasındaki yorumlar bölümüne gidin
- Octoparse görsel düzenleyicisinde toplanması gereken öğeleri seçin:
- Yorum metni
- Puan (yıldız sayısı)
- Yayın tarihi
- Yazar adı
- Artılar ve eksiler (varsa)
- Tüm sayfalardan yorum toplamak için sayfalama ayarlarını yapın
Adım 3: Octoparse'da proxy bağlantısı
- Görev ayarlarını açın → "Proxy" bölümüne gidin
- "Rotate proxy" (proxy döngüsü) modunu seçin
- Proxy listenizi içe aktarın
- Döngü aralığını ayarlayın: her 20-30 istekte veya her 5 dakikada bir
- Proxy'lerin çalışmasını yerleşik test aracıyla kontrol edin
Adım 4: Tarama parametrelerini ayarlama
- İstekler arasında gecikme ayarlayın: 3-5 saniye (insan davranışını taklit etme)
- Ekstra maskeleme için User-Agent döngüsünü etkinleştirin
- Hata işleme ayarlarını yapın: IP engellendiğinde otomatik olarak bir sonraki proxy'ye geçin
- Limitler ayarlayın: döngüden önce bir IP'den maksimum 50-100 yorum
Adım 5: Başlatma ve izleme
- Görevi test modunda 10-20 yorum üzerinde başlatın
- Toplanan verilerin kalitesini kontrol edin: tüm alanlar doğru bir şekilde doldurulmuş mu
- Her şey çalışıyorsa — tam ölçekli veri toplamaya başlayın
- Süreci izleyin: hata ve engelleme sayısını takip edin
- Verileri CSV veya veritabanına otomatik olarak dışa aktarma ayarlarını yapın
Önemli: İlk başlatmayı her zaman küçük bir ölçekte yapın. Bu, tüm proxy trafiğinizi harcamadan veya toplu engellemeler almadan ayarlarla ilgili sorunları belirlemenizi sağlar.
Adım 6: Veri sonrası işleme
Verileri topladıktan sonra, analiz için temizlemek ve hazırlamak gerekir:
- Yorumların kopyalarını kaldırın
- Metni HTML etiketlerinden ve özel karakterlerden temizleyin
- Tarihleri tek bir formatta normalleştirin
- Boş alanları kontrol edin
- Analiz sisteminiz için formatta dışa aktarın (CSV, JSON, veritabanı)
En iyi uygulamalar ve sık yapılan hatalar
Ne yapmalı (en iyi uygulamalar)
- Küçükten başlayın — önce bir kaynaktan veri toplamayı ayarlayın, süreci düzeltin, sonra diğer platformlara ölçeklendirin.
- Meta verileri toplayın — sadece yorum metnini değil, tarih, yazar, puan, beğeni sayısını da saklayın. Bu, derinlemesine analiz için önemlidir.
- Verileri düzenli olarak güncelleyin — duygu zamanla değişir. Yeni yorumları günde veya haftada bir otomatik olarak toplamayı ayarlayın.
- Yedeklemeler yapın — işlenmeden önce ham verileri saklayın. Analiz algoritması değişirse, eski verileri yeniden işleyebilirsiniz.
- Süreci belgeleyin — tarayıcı ayarlarını, veri kaynaklarını, toplama sürelerini kaydedin. Bu, analiz ve ölçeklendirme sırasında yardımcı olur.
- Kaliteyi izleyin — düzenli olarak toplanan verilerin rastgele bir örneğini doğruluğunu kontrol edin.
Nelerden kaçınılmalı (sık yapılan hatalar)
- Proxy olmadan tarama — IP engellemesine hızlı bir yoldur. Küçük hacimler için bile en az birkaç proxy kullanın.
- Çok agresif tarama — her saniye istek yapmak şüphe uyandırır. 2-5 saniye arasında rastgele gecikmeler ekleyin.
- Sosyal medya için veri merkezi proxy kullanımı — Instagram, Facebook, VK bunları kolayca belirler ve engeller. Sosyal medya için yalnızca konut veya mobil proxy kullanın.
- robots.txt'yi göz ardı etme — bu yasal bir gereklilik olmasa da, kaba bir ihlal IP engeline neden olabilir.
- Kişisel verileri toplama — e-posta, telefon ve diğer özel bilgileri toplamayın. Bu, veri koruma yasalarını ihlal eder.
- Hata işleme eksikliği — tarayıcı, 404 hatalarını, zaman aşımını, sayfa yapısındaki değişiklikleri düzgün bir şekilde işlemelidir.
- Yetersiz proxy döngüsü — bir proxy'yi çok uzun süre kullanıyorsanız, engellenir. IP'yi her 20-50 istekte bir değiştirin.
Performans optimizasyonu
Büyük veri hacimlerini (günde binlerce yorum) toplamak için:
- Paralelleştirme — aynı anda birden fazla tarama işlemi başlatın, her biri kendi proxy'si ile
- Görev kuyrukları — tarama görevlerini yönetmek için Celery gibi sistemler kullanın (Python için)
- Önbellekleme — zaten toplanmış sayfaları saklayın, tekrar taramaktan kaçının
- Artımlı toplama — yalnızca son başlatmadan bu yana yeni yorumları toplayın, hepsini yeniden değil
Hukuki yönler
Tarama, yasaların gri alanında yer alır. Riskleri en aza indirmek için:
- Sadece kamuya açık verileri toplayın (giriş olmadan)
- Toplanan verileri satmayın
- Verileri yalnızca iç analiz ve ürün geliştirme için kullanın
- Analizden önce kişisel verileri (isimler, fotoğraflar) silin
- Web sitelerinin sunucularına makul bir yük sağladığınızdan emin olun
Sonuç
Duygu analizi için veri toplama, müşterilerin markanıza olan tutumunu anlamanın temelidir. Doğru ayarlanmış bir veri toplama sistemi, sosyal medya, pazar yerleri ve diğer kaynaklardan sürekli güncel bilgi akışı sağlar.
Bu rehberden çıkarılacak ana noktalar:
- Çeşitli veri kaynakları kullanın — sosyal medya, pazar yerleri, yorum siteleri, forumlar
- Kendi seviyenize uygun araçları seçin: hızlı başlangıç için hazır servisler, esneklik için kendi tarayıcılarınızı
- Konut proxy'leri — korumalı platformlarda istikrarlı tarama için zorunludur
- Sistemi kademeli olarak ayarlayın: önce bir kaynak, sonra ölçeklendirme
- Duygu dinamiklerini izlemek için düzenli veri toplama işlemini otomatikleştirin
Öncelikle işiniz için en önemli olan bir veya iki kaynaktan tarama yapmaya başlayın. Süreci düzeltin, otomasyonu ayarlayın ve yalnızca sonra yeni platformlar ekleyin. Veri kalitesi, miktarından daha önemlidir — 1000 doğru ve ilgili yorum almak, 10000 gereksiz ve kopya yorum almaktan daha iyidir.
Eğer Rus pazar yerlerinden veya sosyal medyadan veri toplamayı planlıyorsanız, Rus IP'leri ile konut proxy'leri kullanmanızı öneririz — bunlar engellemeler olmadan istikrarlı çalışma sağlar ve coğrafi olarak spesifik içeriğe erişim imkanı sunar. Mobil uygulamalar ve Instagram gibi platformlar için mobil proxy'ler kullanmak, normal kullanıcılar ile ayırt edilmesi neredeyse imkansızdır.