Türkiye'deki Veri Madenciliği Uygulamaları

 

Pek çok alanda yaygın bir şekilde kullanılmaya başlanan veri madenciliği, günümüzün en çok kullanılan uygulama alanlarından birisi olmuştur. Her geçen sene kendisine daha fazla kullanım alanı bulmakla birlikte, kolay uygulanabilirliği ve etkili sonuçlar ortaya çıkarması sayesinde, firma yöneticileri tarafından en çok başvurulan yöntemlerden bir tanesi olmuştur. Alanyazın taramasıyla ulaşılan veri madenciliği ile gerçekleştirilmiş bazı uygulamalar şu şekilde özetlenebilir.


 

Veri madenciliğinde kullanılan teknikler ve uygulaması
  • Elif Özge Özdamar (2002) tarafından gerçekleştirilen bu çalışmada, veri madenciliğinde kullanılan teknikler açıklanmış ve uygulamaları gerçekleştirilmiştir. Ayrıca bu çalışmada IBM intelligent Miner programı ile satışlara yönelik veri madenciliği analizleri gerçekleştirilmiştir [1].
Öğrenci işleri otomasyonu üzerinde veri madenciliği çalışması
  • Konya Selçuk Üniversitesi’nde Onur İnan (2003) tarafından, hazırlık sınıfı, birinci sınıf ve mezun durumunda olan öğrenciler üzerinde, üniversite veri tabanındaki veriler kullanılarak veri madenciliği uygulaması gerçekleştirilmiştir. Bu uygulama sayesinde, öğrencilerin başarılarını etkileyen etmenler, başarı düzeyleri, üniversiteyi kazanan öğrenci portföyleri ve mezun olamayan öğrencilerin okulu bitirmelerini etkileyen etmenler üzerinde çalışmalar gerçekleştirilmiş ve sonuçları yorumlanmıştır [2].
Mobil sistemlerde veri madenciliği kullanılarak kullanıcı hareketlerinin tahmini
  • Gökhan Yavaş (2003) tarafından gerçekleştirilen bu çalışmada, mobil kullanıcıların hareket modellerinin veri madenciliği kullanılarak çıkarılması ve bu modeller kullanılarak mobil kullanıcıların daha sonraki hareketlerinin tahmin edilmesi için yeni bir algoritma geliştirilmiştir. Üç aşamadan oluşan bu algoritmanın ilk aşamasında kullanıcı hareket modelleri, kullanıcıların önceden kaydedilmiş mobil yörüngelerinden veri madenciliği kullanılarak çıkarılmaktadır. İkinci aşamada bulunan hareket modellerinden hareket kuralları üretilmekte, son aşamada ise bu hareket kuralları kullanıcının bir sonraki hücreler arası hareketinin tahmini için kullanılmaktadır. Sunulan algoritmanın performansı simülasyonlar yardımıyla iki farklı tahmin yöntemiyle karşılaştırılmıştır. Performans sonuçları algoritmanın diğer yöntemlerden daha doğru tahminler yapabildiğini göstermektedir [3].
Veri madenciliği ve bir e-ticaret uygulaması

Anarberk Kalıkov (2006) tarafından, bir yayınevi firmasının İnternet sitesindeki veriler dikkate alınarak, veri madenciliği birliktelik kuralları tekniği ile sepet ve sipariş tabloları incelenmiştir. Hangi ürünlerin kategorisinin değiştirilmesi gerektiği, kullanıcıların meslek ve ilgi alanı dağılımları, müşteri ilgi alanlarına göre satış grafikleri ve kullanıcıların ödeme seçenekleri ile ilgili bir veri madenciliği uygulaması gerçekleştirilmiştir [4].

Uzaktan eğitimde öğrencilerin ders çalışma etkinliklerinin log verileri analizi ile incelenmesi
  • Serdar Çiftci (2006) tarafından gerçekleştirilen çalışmada, uzaktan eğitime katılan öğrencilerin ders çalışma etkinliklerinin nasıl değerlendirilebileceğinin ortaya konulması amaçlanmıştır. Ayrıca yapılan anketler ve log dosyaları karşılaştırılarak, sonuçların farklı olup olmadıkları incelenmiştir. Bu çalışmada ayrıca, öğrencilerin öğretim materyali ile olan etkileşimine ait bilgilerinin tutulduğu veri tabanlarındaki log kayıtları analiz edilmiştir [5].
Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan müşteri analizi ve müşteri bölümlenmesi
  • Sinem Akbulut (2006) tarafından yapılan bir çalışmada, bir kozmetik markasının müşteri grupları ve ayrılma eğilimi gösteren müşteri kesiti belirlenerek; bu müşterilere özel pazarlama stratejileri geliştirilmesi hedeflenmektedir. Bölümlenme için kümeleme teknikleri, ayrılacak müşteri kesitini belirlemek için sınıflama teknikleri kullanılmıştır [6].
Dağıtık zaman-mekan verilerinde gizliliği koruyan veri madenciliği
  • Ali İnan (2006) tarafından yapılan bu çalışmada zaman-mekan nitelikleri olan veriler için bir gizliliği koruyan veri madenciliği tekniği ve iki ön-işleme tekniği önerilmiştir: (1) Dağıtık kümeleme, (2) Merkezi anonimleştirme ve (3) Dağıtık anonimleştirme. Önerilen tekniklerin güvenlik ve performans analizleri de yapılmış ve sonuçta mantıklı varsayımlar altında minimum mahrem bilgi kaybıyla veri madenciliğinin mümkün olduğu gözlemlenmiştir [7].
Asenkron motorlarda veri madenciliği ile hata tespiti
  • Kıyas Kayaalp (2007) tarafından yapılan bu çalışmada, veri madenciliği tekniği ile üç fazlı asenkron motordaki sargı spirleri arasında oluşabilecek kısa devre veya yalıtım bozuklukları ve motor milinde oluşabilecek mekanik dengesizlik hatalarının tespiti amaçlanmıştır [8].
Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği ile analizi
  • Y. Ziya Ayık, Abdülkadir Özdemir ve Uğur Yavuz (2007) tarafından yapılan bu çalışmada, Atatürk Üniversitesi öğrencilerinin mezun oldukları lise türleri ve lise mezuniyet dereceleri ile kazandıkları fakülteler arasındaki ilişki, veri madenciliği teknikleri kullanılarak incelenmiştir. Elde edilen sonuçların, üniversiteyi sonraki yıllarda tercih edecek öğrenci profilinin belirlenmesine yardımcı olması amaçlanmıştır [9].
Veri madenciliği ile deprem verilerinin analizi
  • N. Duru ve M. Canbay (2007) tarafından gerçekleştirilen bu çalışma, deprem verileri kullanılarak seçilen bir bölgeye ait sismik tehlikenin diğer deyişle gerçekleşme olasılığının veri madenciliği yönünden ele alınarak incelenmesini kapsamaktadır. Çalışma sonuçları Jeofizik sonuçlar ile korele edilerek doğruluk payı da araştırılmıştır. Gelecek her 10 yıl için % sismik tehlike değeri artış göstererek devam etmiştir. Örneğin, 6 magnitüdündeki bir depremin olma olasılığı 10 yıl içinde %27 iken, 30 yıl içinde %60 ve 60 yıl için de %80‟leri bulmaktadır. Bu değerler daha önce çalışma bölgesinde yapılmış çalışmalarla uyum göstermektedir. Ancak burada unutulmaması gereken bu çalışmanın deprem tahmini için kullanılan tekniklerden sadece birisi olduğu ve bu çalışmanın konusu itibariyle çalışma bölgelerinin tektonik özelliklerini hiç irdelemeden dahi olsa olumlu sonuçlara varılabilmesinin mümkün olduğunun gösterilebilmesidir. Ayrıca yapılan çalışmanın sonuçlarının büyük bölgelere göre küçük bölgelerde daha iyi sonuç verdiğinin görülmesidir. Uygulama, dünya ölçeğindeki her noktanın analizini yapacak şekilde geliştirilmiş olup, ihtiyaç halinde programa eklemeler yapmak suretiyle başka bu tür çalışmalar yapacak şekilde tasarlanmıştır. Sonuç olarak, bu çalışma türünden bazı istatistik yöntemlerin de kullanılabilirliği ve faydalı olabileceği ve veri miktarının önemli bir kriter olduğu, ne kadar çok veri üzerinde çalışılırsa o derece başarılı sonuçlar alınmasının mümkün olacağı söylenebilir [10].
Birliktelik kuralı yöntemi için bir veri madenciliği yazılımı tasarımı ve uygulaması
  • Feridun Cemal Özçakır ve A. Yılmaz Çamurcu (2007) tarafından gerçekleştirilen bu çalışmada, bir firmanın pastane satış verileri üzerinde veri madenciliği uygulamak için birliktelik kuralları ile bir yazılım tasarlanmıştır. Tasarlanan yazılımda Apriori algoritması kullanılmıştır. Uygulanan Apriori algoritması ile farklı zaman dilimi, farklı satış lokasyonu girdi değerleri doğrultusunda birlikte satın alınan ürünler ile ilgili bağıntılar olduğu gözlemlenmiştir. Genelde aynı ürün grubuna ait ürünlerin, en sık birlikte satın alınan ürünler olduğu görülmüştür [11].
Veri madenciliğinde yaşam çözümlemesi: Kredi kartı sahipleri ile ilgili bir uygulama
  • Bu çalışmada Nihal Ata, Erengül Özkök ve Uğur Karabey (2007), yaşam çözümlemesi yöntemlerini veri madenciliği konusu çerçevesinde ele aldıktan sonra kredi kartı sahiplerine ait bir veri kümesi için yaşam olasılıkları, hazard olasılıkları ve regresyon modellerini incelemişlerdir. Uygulamada öncelikle yaşam olasılıkları 5'er yıllık 3 dönem (5, 10, 15) için elde edilmiştir. Daha sonra, yaşam ve hazard olasılıklarına ait grafikler verilmiş ve müşteri kaybı açısından yorumlanmıştır. Müşterilerin kredi kartını kullanmayı bırakmasını etkileyen risk faktörleri ise regresyon modelleri ile belirlenmeye çalışılmıştır. Weibull regresyon modelinin veri kümesi için en uygun regresyon modeli olduğu sonucuna ulaşılmıştır. Buna göre çalışmada yaş, gelir ve medeni durumun, müşterilerin kredi kartı kullanmayı bırakmalarını etkileyen önemli risk faktörleri olduğu görülmüştür [12].
KxKNN: K-means ve Ken yakın komşu yöntemleri ile ağlarda nüfuz tespiti
  • Bu çalışmada Sibel Kırmızıgül Çalışkan ve İbrahim Soğukpınar (2008), veri madenciliği yöntemlerinden “K-means” ve “K en yakın komşu” yöntemlerinin iyileştirilmesi amacıyla; nüfuz tespiti için kümelemeyi ve sınıflandırmayı, denetimli ve denetimsiz öğrenimi, K-means ve Ken yakın komşu yöntemlerini bir arada kullanan hibrit bir yapı geliştirmişlerdir. Geliştirilen uygulamada en hızlı sonucu veren K-means uygulaması ile test kümesi daha küçük alt kümelere ayrılarak, K en yakın komşu yönteminin zaman karmaşası ve bellek gereksinimi azaltılmıştır [13].
Türkiye’de bir havayolu işletmesine ait parça söküm raporlarına ilişkin veri madenciliği uygulaması
  • Feyza Gürbüz, Lale Özbakır ve Hüseyin Yapıcı (2008) tarafından gerçekleştirilen bu çalışmada, Türkiye‟de bir hava yolu işletmesinin parça söküm raporları üzerinde veri madenciliği çalışması gerçekleştirilmiştir. Çalışmanın amacı, uçaklarda kullanılan parçaların, herhangi bir arıza oluşmadan önce düzeltici ve önleyici işlemlerin yapılması için ikaz seviyelerinin tespit edilmesine yönelik kural geliştirmektir. Sonuç olarak parçaların ikaz seviyelerini temsil edecek anlamlı bir kural elde edilmiş ve bulunan kurallar doğrulukları ve güvenilirlikleri bakımından test edilmiştir [14].
Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama
  • Ali Sait Albayrak ve Şebnem Koltan Yılmaz (2009) tarafından gerçekleştirilen bu çalışmada, İMKB 100 endeksinde sanayi ve hizmet sektörlerinde faaliyet gösteren 173 işletmenin 2004–2006 yıllarına ait yıllık finansal göstergelerinden yararlanarak veri madenciliği tekniklerinden birisi olan karar ağaçları tekniği uygulanmıştır. Seçilen finansal göstergelere göre sanayi ve hizmet sektörlerinde faaliyet gösteren firmaları ayıran en önemli değişkenler saptanmıştır [15].
Türkiye’de yerli ve yabancı ticaret bankalarının finansal etkinliğe göre sınıflandırılması: Karar ağacı, lojistik regresyon ve diskriminant analizi modellerinin bir karşılaştırması
  • Bu çalışmada Ali Sait Albayrak (2009), yerli ve yabancı olarak önceden grup üyeliği belirlenmiş bankaların sınıflandırmasında yaygın olarak kullanılan veri madenciliği tekniklerinden diskriminant, lojistik regresyon ve karar ağacı modellerini karşılaştırmıştır. Üç sınıflandırma tekniği, bankalarla ilgili seçilmiş likidite, gelir-gider, karlılık ve faaliyet oranları kullanılarak karşılaştırılmaktadır. Araştırmanın sonuçları, bankaların sınıflandırmasında karar ağacı modelinin geleneksel diskriminant ve lojistik regresyon modellerine üstünlük sağlayarak alternatif etkili bir sınıflandırma tekniği olarak kullanılabileceğini göstermektedir [16].
Öğrenci seçme sınavında (ÖSS) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti
  • Ahmet Selman Bozkır, Ebru Sezer ve Bilge Gök (2009) tarafından gerçekleştirilen bu çalışmada, ÖSYM tarafından 2008 ÖSS adayları için resmi İnternet sitesi üzerinden yapılan anket verileri üzerinde veri madenciliği yöntemleri kullanılarak, öğrencilerin başarılarını etkileyen faktörler araştırılmıştır. Araştırma kapsamında, Ortaöğretim Başarı Puanı (OBP) tüm öğrencilerin ÖSS’de ortak başarı ölçütü olarak ele alınırsa bu puan türüne etkiyen en önemli beş faktörün yaş, okul türü, sanat derslerine ilgi, matematik dersi için harcanan ödev zamanı ve fen bilgisi laboratuar kullanım oranı olduğu görülmüştür. Diğer tüm puan türlerinde de yaşın önemli bir etken olduğu görülmüştür. Ayrıca okullarda sunulan teknik imkânların ÖSS başarısı üzerinde önemli etkileri tespit edilmiştir. Özellikle kümeleme analizinde görüldüğü üzere öğrencinin sahip olduğu sosyal, kültürel ve ekonomik imkânların ÖSS başarısına büyük katkısı bulunduğu tespit edilmiştir. Sanat derslerine gösterilen ilginin OBP üzerindeki dikkat çekici etkisi ve dershaneye gitme oranının başarı üzerindeki etkisinin beklenenden düşük çıkması araştırmanın sonucunda elde edilen ilginç bulgulardan birkaçı olmuştur. Bu araştırmada, veri madenciliği yöntemlerinden karar ağaçları ve kümeleme kullanılmıştır [17].
Hileli finansal tabloların tespitinde veri madenciliği tekniklerinin kullanımı: İmalat firmaları üzerine bir uygulama
  • H. Ali Ata ve İbrahim H. Seyrek (2009) tarafından gerçekleştirilen bu çalışmada, denetçiler tarafından yaygın olarak bilinmeyen bazı veri madenciliği teknikleri, finansal tablolardaki hileleri tespit etmeye yardımcı olmak üzere kullanılmıştır. Çalışma İMKB’de işlem gören ve imalat sektöründe faaliyet gösteren 100 firmanın bilgilerine dayalı olarak gerçekleştirilmiştir. Araştırma sonucunda kaldıraç oranı ve aktif karlılık oranının finansal tablo hilesini tespit etmede önemli finansal oranlar olduğu belirlenmiştir [18].

Veri Madenciliği Yöntemi ile GSM Şebekerinin Performans Analizi

  • 2011 yılında Serkan Savaş ve Nurettin Topaloğlu tarafından gerçekleştirilen bu çalışmada, farklı GSM şebekelerinin çekim gücü verilerini cep telefonlarından alarak veri tabanı oluşturan bir program geliştirilmiştir. Programın rastgele seçilen bir güzergâh olan Kızılcahamam ilçesi ile Gazi Üniversitesi Merkez Kampüsü arasında çalıştırılmasıyla elde edilen verilerden bir veri bankası oluşturulmuştur. Bu veriler, veri madenciliği yöntemlerinden iki aşamalı kümeleme tekniği kullanılarak analiz edilmiştir. Bu çalışmanın sonunda; A, B ve C şebekelerinin performansları belirlenmiş olup, sinyal gücü temel alındığında A şebekesinin en yüksek çekim gücüne ve istikrarlı çekim düzeyine, sinyal gücü aralıkları sınıflandırıldığında ise B şebekesinin en yüksek iyi sinyal oranına sahip olduğu gözlenmiştir [19].

Ayrıca tüm bu araştırmaların daha ayrıntılı verildiği makalemi de buradan inceleyebilirsiniz.

KAYNAKLAR

[1] Özdamar, E.Ö., “Veri madenciliğinde kullanılan teknikler ve bir uygulama”, Yüksek Lisans Tezi, Mimar Sinan Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 50–65 (2002).
[2] İnan, O., “Veri madenciliği”, Yüksek Lisans Tezi, Selçuk Üniversitesi Fen Bilimleri Enstitüsü, Konya, 1–50 (2003).
[3] Yavaş, G., “Using a data mining approach for the prediction of user movements in mobile environments”, Yüksek Lisans Tezi, Bilkent University Institute of Engineering and Science, Ankara, 1–5 (2003).
[4] Kalıkov, A., “Veri madenciliği ve bir e-ticaret uygulaması”, Yüksek Lisans Tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 1–41 (2006).
[5] Çiftci, S., “Uzaktan eğitimde öğrencilerin ders çalışma etkinliklerinin log verilerinin analiz edilerek incelenmesi”, Yüksek Lisans Tezi, Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara, 1–5 (2006).
[6] Akbulut, S., “Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan müşteri analizi ve müşteri segmentasyonu”, Yüksek Lisans Tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 1–25 (2006).
[7] İnan, A., “Privacy preserving distributed spatio-temporal data mining”, Yüksek Lisans Tezi, Sabancı University Engineering and Natural Sciences, İstanbul, 1–5 (2006).
[8] Kayaalp, K., “Asenkron motorlarda veri madenciliği ile hata tespiti”, Yüksek Lisans Tezi, Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü, Isparta, 1–45 (2007).
[9] Ayık, Y.Z., Özdemir, A. ve Yavuz, U., “Lise türü ve lise mezuniyet başarısının kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi”, Sosyal Bilimler Enstitüsü Dergisi, 10(2): 441–454 (2007).
[10] Duru, N. ve Canbay, M., “Veri madenciliği ile deprem verilerinin analizi”, International Earthquake Symposium, Kocaeli, 556–560, (2007).
[11] Özçakır, F.C. ve Çamurcu, A. Y., “Birliktelik kuralı yöntemi için bir veri madenciliği yöntemi tasarımı ve uygulaması”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 6(12): 21–37 (2007).
[12] Ata, N., Özkök, E. ve Karabey, U., “Survival data mining: an application to credit card holders”, Sigma Mühendislik ve Fen Bilimleri Dergisi, 26(1): 33–42 (2008).
[13] Çalışkan, S.K. ve Soğukpınar, İ.,”KxKNN: K-Means ve k en yakın komşu yöntemleri ile ağlarda nüfuz tespiti”, 2. Ağ ve Bilgi Güvenliği Sempozyumu, Girne, 120–124 (2008).
[14] Gürbüz, F., Özbakır, L. ve Yapıcı, H., “Türkiye‟de bir havayolu işletmesine ait parça söküm raporlarına ilişkin veri madenciliği uygulaması”, Gazi Üniversitesi Mimarlık Mühendislik Fakültesi Dergisi, 24(1): 73–78 (2009).
[15] Albayrak, A.S. ve Yılmaz, Ş.K., “Veri madenciliği: karar ağacı algoritmaları ve ĠMKB verileri üzerine bir uygulama”, S.D.Ü. İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(1): 31–52 (2009).
[16] Albayrak, A.S., “Classification of domestic and foreign commercial banks in Turkey based on financial efficiency: a comparison of decision tree, logistic regression and discriminant analysis models”, S.D.Ü. İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(2): 113–139 (2009).
[17] Bozkir, A.S., Sezer, E. ve Gök, B., “Öğrenci seçme sınavında (ÖSS) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti”, 5. Uluslararası İleri Teknolojiler Sempozyumu (IATS’09), Karabük, 37–43 (2009).
[18] Ata, A.H. ve Seyrek, İ.H., “The use of data mining techniques in detecting fraudulent financial statements: an application on manufacturing firms”, S.D.Ü. İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(2): 157–170 (2009).
[19] Savaş, S. Ve Topaloğlu, N. (2011), Veri madenciliği yöntemi ile GSM şebekelerinin performans alalizi, Gazi Üniv. Müh. Mim. Fak. Der, 26(4), 741–751.

Hiç yorum yok:

Yorum Gönder