Coğrafi Etiketli Twitter Verileri için Dağıtık Duygu Analizi
SonuçlarSosyal medya üzerinde paylaşım miktarı hızla arttığı için araştırmacılara veri kaynağı olmaktadır. Aynı zamanda bu verinin incelenmesi ve analiz edilmesi hükümetler ve şirketler için önemlidir. Artan veri miktarıyla birlikte analiz hızlarının da artması gerekmektedir. Bu çalışmada büyük sosyal medya verisi üzerinde dağıtık yapay zeka tahmini yapılmıştır. Değerlendirme amacıyla verinin normal tahmin süresi ve dağıtık tahmin süresi karşılaştırılmıştır. Dağıtık tahmin için Spark kullanılmıştır. Veri olarak Twitter üzerinden il bazlı çekilen 16 milyon tweet kullanılmıştır. Dağıtık tahmin amacıyla, önceden eğitilmiş BERT modeline hassas ayar yapılarak duygu analiz modeli üretilmiştir. Yapay zeka tahmininin çıktısı olarak 81 il için duygu analizleri çıkarılmıştır.
Şehir | Tweet Sayısı |
---|---|
Adana | 754922 |
Adıyaman | 324034 |
Afyonkarahisar | 337301 |
Ağrı | 175573 |
Aksaray | 305239 |
Amasya | 250350 |
Ankara | 1054767 |
Antalya | 888494 |
Ardahan | 88390 |
Artvin | 155056 |
Aydın | 179194 |
Balıkesir | 174962 |
Bartın | 175027 |
Batman | 152618 |
Bayburt | 154106 |
Bilecik | 153412 |
Bingöl | 124883 |
Bitlis | 164351 |
Bolu | 176681 |
Burdur | 162017 |
Bursa | 188502 |
Çanakkale | 191517 |
Çankırı | 203021 |
Çorum | 159380 |
Denizli | 180426 |
Diyarbakır | 154140 |
Düzce | 171285 |
Edirne | 189467 |
Elazığ | 166779 |
Erzincan | 165682 |
Erzurum | 155764 |
Eskişehir | 196189 |
Gaziantep | 170970 |
Giresun | 164283 |
Gümüşhane | 118561 |
Hakkari | 118727 |
Hatay | 176004 |
Iğdır | 132836 |
Isparta | 156393 |
İstanbul | 222137 |
İzmir | 206820 |
Kahramanmaraş | 160972 |
Karabük | 165247 |
Karaman | 154118 |
Kars | 141955 |
Kastamonu | 202311 |
Kayseri | 179373 |
Kırıkkale | 157763 |
Kırklareli | 166062 |
Kırşehir | 145177 |
Kilis | 138311 |
Kocaeli | 184651 |
Konya | 169324 |
Kütahya | 159605 |
Malatya | 172500 |
Manisa | 178634 |
Mardin | 154912 |
Mersin | 172327 |
Muğla | 174975 |
Muş | 123740 |
Nevşehir | 168445 |
Niğde | 157988 |
Ordu | 175115 |
Osmaniye | 158027 |
Rize | 184130 |
Sakarya | 173399 |
Samsun | 187747 |
Siirt | 162174 |
Sinop | 155254 |
Sivas | 163256 |
Şanlıurfa | 165453 |
Şırnak | 152283 |
Tekirdağ | 176874 |
Tokat | 163623 |
Trabzon | 192104 |
Tunceli | 155569 |
Uşak | 150583 |
Van | 147715 |
Yalova | 178279 |
Yozgat | 147090 |
Zonguldak | 158710 |
-------------- | ------------- |
Toplam | 16116035 |
Model İsmi | BERTurk |
Eğitim Verisi | 1800 |
Test Verisi | 200 |
Learning Rate | 5e-5 |
Epoch | 3 |
Batch Size | 6 |
F1 Skoru | 93.7 |
Sonuç olarak, metin verisi üzerinde yapay zeka tahmini yapabilmek amacıyla Türkiye'nin tüm illerinden büyük bir metin verisi oluşturulmuştur. Yapay zeka tahmini yapabilmek için, Türkçe duygu analiz modeli eğitilmiştir. Çekilen veriler duygu analizi modeli kullanılarak önce normal bir şekilde, ardından Spark kullanılarak dağıtık bir şekilde tahmin edilmiştir. Çıkan sonuca göre tüm veri üzerinde tahmin hızı 479 kat hızlandırılmıştır. Bununla birlikte dağıtma sayısına bağlı hızlanma sayısı incelenmiştir ve dağıtma sayısının oldukça önemli etkisi olduğu görülmüştür. Ayrıca duygu analizi sonuçları sayesinde Türkiye'deki tüm illerin mutluluk analizleri hesaplanmıştır. Gerçek zamanlı metin sınıflandırma ve yapay zeka çalışmalarının bu yöntem sayesinde hız kazanacağı gösterilmiştir. Gelecek çalışmalarda dağıtık tahminleme yaparken GPU kullanımı ve Spark kullanımının farkları araştırılabilir. Ayrıca şehir bazlı duygu analizi gerçek zamanlı olarak yapılarak, günlük ve haftalık duygu değişimleri ve bunun sebepleri incelenebilir.
Partition Sayısı | 10.000 Veri | 50.000 Veri |
---|---|---|
1 | 621 | 5782 |
2 | 342 | 2703 |
4 | 223 | 1386 |
8 | 100 | 701 |
16 | 57 | 352 |
32 | 38 | 182 |
64 | 35 | 99 |
128 | 23 | 58 |
256 | 22 | 39 |
512 | 21 | 28 |
1024 | 19 | 24 |
Partition Sayısı | Süre |
---|---|
1 | 1.093.560 saniye |
1024 | 2282 saniye |
Copyright © 2022