Veri Madenciliği Yöntemleri

 Veri madenciliğinde kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki ana başlık altında incelenmektedir [1].

Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçlan bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır.

Veri madenciliğinde kullanılan yöntemler [2]  

Ayrıca veri madenciliği yöntemlerini denetimli ve denetimsiz olmak üzere iki ana kategoriye ayıranlar da vardır. Veri madenciliğinde iyi tanımlanmış veya kesin bir hedef olduğunda denetimli (supervised) ifadesi kullanılır. Elde edilmesi istenen sonuç için özel bir tanımlama yapılmamışsa veya belirsizlik söz konusu ise denetimsiz (unsupervised) ifadesi kullanılır.

Denetimli ve denetimsiz ifadeleri birbirinin tersidir. Denetimli ve denetimsiz yöntemler sürecin tamamı açısından değerlendirildiğinde;

  • Denetimsiz yöntemler daha çok veriyi anlamaya, tanımaya, keşfetmeye yönelik olarak kullanılan ve sonraki uygulanacak yöntemler için fikir vermeyi amaçlamaktadır.
  • Denetimli yöntemler ise veriden bilgi ve sonuç çıkarmaya yönelik kullanılmaktadır, denilebilir. Bu nedenle denetimsiz bir yöntemle elde edilen bir bilgi veya sonucu, eğer mümkünse denetimli bir yöntemle teyit etmek, elde edilen bulguların doğruluğu ve geçerliliği açısından önem taşımaktadır.

Denetimsiz yöntemlere örnek olarak Faktör Analizi (Factor Analysis), Temel Bileşenler Analizi (Principle Component Analysis), Hiyerarşik Kümeleme (Hierarchical Clustering), K-En Yakın Komşuluk (K-Nearest Neighbor), K-Ortalamalar Kümelemesi (K-Means Clustering), İki Aşamalı Kümeleme (Two Step Cluster), Kohonen Ağları (Kohonen Nets) veya Kendi Kendini Düzenleyen Haritalar (Self-Organizing Maps), Aykırılık Saptama (Anomaly Detection) ve Özellik Seçimi (Feature Selection) algoritmaları sayılabilir [3].

Denetimli Veri Madenciliği tekniklerine karar ağacı algoritmaları arasında yer alan Ki-Kare Otomatik Etkileşim Detektörü (Chi-Square Automatic Interaction Detector/CHAID), Ayrıntılı Ki-Kare Otomatik Etkileşim Detektörü (Exhaustive Chi-Square Automatic Interaction Detector/E-CHAID), Sınıflama ve Regresyon Ağacı (Classification and Regression Tree/CRT), Hızlı, Yansız, Etkili İstatistik Ağacı (Quick, Unbiased, Efficient Statistical Tree/QUEST), C5.0 ile Yapay Sinir Ağları, Doğrusal Regresyon Analizi ve Lojistik Regresyon Modelleri ile Birliktelik Kuralları (Association Rules) arasında yer alan Genelleştirilmiş Kural Çıkarsama (Generalized Rule Induction/GRI), Apriori ve CARMA algoritmaları örnek olarak sayılabilir [3].

Veri madenciliği ile ilgili kullanılan pek çok yöntemin yanına hemen her geçen gün yeni yöntem ve algoritmalar eklenmektedir. Bunlardan bir kısmı onlarca yıldır kullanılan klasik teknikler diyebileceğimiz ağırlıklı olarak istatistiksel yöntemlerdir. Diğer yöntemler de genellikle istatistiği temel alan ama daha çok makine öğrenimi ve yapay zekâ destekli yeni nesil yöntemlerdir.

Veri madenciliği modelleri, gördükleri işlevlere göre temel olarak 3 grupta toplanır. Bunlar:

1- Sınıflama (Classification) ve Regresyon (Regression),

2- Kümeleme (Clustering),

3- Birliktelik Kuralları (Association Rules)’dır.

Sınıflama ve regresyon modelleri tahmin edici, kümeleme ve birliktelik kuralları modelleri tanımlayıcı modellerdir.

Modellerin açıklamalarını bir sonraki Post’ta bulabilirsiniz…

[1] Zhong, N. — Zhou, L., “Methodologies for knowledge discovery and data mining”, Third pacific-asia conference Pakdd-99, Beijing China, (1999).

[2] Kaya, H. ve Köymen, K., “Veri madenciliği kavramı ve uygulama alanları”, Doğu Anadolu Bölgesi Araştırmaları, 159–164 (2008).

[3] Albayrak, A.S. ve Akbulut, R., “Sermaye yapısını belirleyen faktörüler: ĠMKB sanayi ve hizmet sektörlerinde işlem gören işletmeler üzerine bir inceleme”, Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, 22: 22 (2008).


 

Hiç yorum yok:

Yorum Gönder