Coğrafi Etiketli Twitter Verileri için Dağıtık Duygu Analizi

Sosyal medya üzerinde paylaşım miktarı hızla arttığı için araştırmacılara veri kaynağı olmaktadır. Aynı zamanda bu verinin incelenmesi ve analiz edilmesi hükümetler ve şirketler için önemlidir. Artan veri miktarıyla birlikte analiz hızlarının da artması gerekmektedir. Bu çalışmada büyük sosyal medya verisi üzerinde dağıtık yapay zeka tahmini yapılmıştır. Değerlendirme amacıyla verinin normal tahmin süresi ve dağıtık tahmin süresi karşılaştırılmıştır. Dağıtık tahmin için Spark kullanılmıştır. Veri olarak Twitter üzerinden il bazlı çekilen 16 milyon tweet kullanılmıştır. Dağıtık tahmin amacıyla, önceden eğitilmiş BERT modeline hassas ayar yapılarak duygu analiz modeli üretilmiştir. Yapay zeka tahmininin çıktısı olarak 81 il için duygu analizleri çıkarılmıştır.


alternative

Veri Haritası

alternative



Şehir Bazlı Veri Sayıları

Şehir Tweet Sayısı
Adana 754922
Adıyaman 324034
Afyonkarahisar 337301
Ağrı 175573
Aksaray 305239
Amasya 250350
Ankara 1054767
Antalya 888494
Ardahan 88390
Artvin 155056
Aydın 179194
Balıkesir 174962
Bartın 175027
Batman 152618
Bayburt 154106
Bilecik 153412
Bingöl 124883
Bitlis 164351
Bolu 176681
Burdur 162017
Bursa 188502
Çanakkale 191517
Çankırı 203021
Çorum 159380
Denizli 180426
Diyarbakır 154140
Düzce 171285
Edirne 189467
Elazığ 166779
Erzincan 165682
Erzurum 155764
Eskişehir 196189
Gaziantep 170970
Giresun 164283
Gümüşhane 118561
Hakkari 118727
Hatay 176004
Iğdır 132836
Isparta 156393
İstanbul 222137
İzmir 206820
Kahramanmaraş 160972
Karabük 165247
Karaman 154118
Kars 141955
Kastamonu 202311
Kayseri 179373
Kırıkkale 157763
Kırklareli 166062
Kırşehir 145177
Kilis 138311
Kocaeli 184651
Konya 169324
Kütahya 159605
Malatya 172500
Manisa 178634
Mardin 154912
Mersin 172327
Muğla 174975
Muş 123740
Nevşehir 168445
Niğde 157988
Ordu 175115
Osmaniye 158027
Rize 184130
Sakarya 173399
Samsun 187747
Siirt 162174
Sinop 155254
Sivas 163256
Şanlıurfa 165453
Şırnak 152283
Tekirdağ 176874
Tokat 163623
Trabzon 192104
Tunceli 155569
Uşak 150583
Van 147715
Yalova 178279
Yozgat 147090
Zonguldak 158710
-------------- -------------
Toplam 16116035

Duygu Analiz Modeli Detayları

Model İsmi BERTurk
Eğitim Verisi 1800
Test Verisi 200
Learning Rate 5e-5
Epoch 3
Batch Size 6
F1 Skoru 93.7

Tüm veriyi ve duygu analiz modelini indirmek için formu doldurunuz.

Sonuçlar

Sonuç olarak, metin verisi üzerinde yapay zeka tahmini yapabilmek amacıyla Türkiye'nin tüm illerinden büyük bir metin verisi oluşturulmuştur. Yapay zeka tahmini yapabilmek için, Türkçe duygu analiz modeli eğitilmiştir. Çekilen veriler duygu analizi modeli kullanılarak önce normal bir şekilde, ardından Spark kullanılarak dağıtık bir şekilde tahmin edilmiştir. Çıkan sonuca göre tüm veri üzerinde tahmin hızı 479 kat hızlandırılmıştır. Bununla birlikte dağıtma sayısına bağlı hızlanma sayısı incelenmiştir ve dağıtma sayısının oldukça önemli etkisi olduğu görülmüştür. Ayrıca duygu analizi sonuçları sayesinde Türkiye'deki tüm illerin mutluluk analizleri hesaplanmıştır. Gerçek zamanlı metin sınıflandırma ve yapay zeka çalışmalarının bu yöntem sayesinde hız kazanacağı gösterilmiştir. Gelecek çalışmalarda dağıtık tahminleme yaparken GPU kullanımı ve Spark kullanımının farkları araştırılabilir. Ayrıca şehir bazlı duygu analizi gerçek zamanlı olarak yapılarak, günlük ve haftalık duygu değişimleri ve bunun sebepleri incelenebilir.



Hızlandırma Sonuçları

Partition Sayısı 10.000 Veri 50.000 Veri
1 621 5782
2 342 2703
4 223 1386
8 100 701
16 57 352
32 38 182
64 35 99
128 23 58
256 22 39
512 21 28
1024 19 24


Tüm Veri Üzerinde Hızlanma

Partition Sayısı Süre
1 1.093.560 saniye
1024 2282 saniye



Duygu Analiz Sonuçları

alternative