Veri Madenciliğini Etkileyen Etmenler
Veri madenciliği temel olarak beş ana faktörden etkilenir [1]:
Veri
Veri madenciliğinin bu kadar gelişmesindeki en önemli faktördür. Son yirmi beş yılda sayısal verinin hızla artması, veri madenciliğindeki gelişmeleri hızlandırmıştır. Bir taraftan veri tabanlarında hızla artmakta olan veriler bulunmakta iken diğer taraftan bu verilerle uğraşan bilim adamları, mühendisler ve istatistikçilerin sayısı aynı kalmış veya sağlanan yetkin kişi artışı veri artışına yetişememiştir. Bu yüzden, verileri analiz etme yöntemleri ve teknikleri otomatikleştirilmiş olarak geliştirilme ihtiyacı doğmuştur.
Donanım
Veri madenciliği, sayısal ve istatistiksel olarak büyük veri kümeleri üzerinde yoğun işlemler yapmayı gerektirir. Gelişen bellek kapasitesi ve işlem hızı sayesinde, birkaç yıl önce madencilik yapılamayan veriler üzerinde çalışmak mümkün hale gelmiştir.
Bilgisayar ağları
Yeni nesil İnternet, çok yüksek hızlarda bilgiye erişime izin vermektedir. Böyle bir bilgisayar ağı ortamında, dağıtık verileri analiz etmek ve farklı algoritmaları kullanmak mümkün olmaktadır. Bundan 20 yıl önceki bilgisayar ağları teknolojisinde hayal edilemeyenler artık yapılabilmekte ve buna bağlı olarak, veri madenciliğine uygun ağların tasarımı da oluşturulabilmektedir.
Bilimsel hesaplamalar
Bilim adamları ve mühendisler, simülasyonu, bilimin üçüncü yolu olarak görmektedirler. Veri madenciliği ve bilgi keşfi; teori, deney ve simülasyonu birbirine bağlamada önemli bir rol almaktadır.
Ticari eğilimler
Günümüzde, işletmeler rekabet ortamında varlıklarını koruyabilmek için daha hızlı hareket etmeli, daha yüksek kalitede hizmet sunmalı, bütün bunları yaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmalıdır. Bu tip hedef ve kısıtların yer aldığı iş dünyasında veri madenciliği, temel teknolojilerden biri haline gelmiştir. Çünkü veri madenciliği sayesinde müşterilerin ve müşteri faaliyetlerinin yarattığı fırsatlar daha kolay tespit edilebilmekte ve riskler daha açık görülebilmektedir.
Veri Madenciliğinde Karşılaşılan Problemler
Büyük hacimli verilerin bulunduğu veri ortamlarında büyük sorunlar ortaya çıkabilir. Bu sebeple küçük veri kümelerinde, benzetim ortamlarında hazırlanmış veri madenciliği sistemleri, büyük hacimli, eksik, gürültülü, boş, atık, aykırı veya belirsiz veri kümelerinin bulunduğu ortamlarda yanlış çalışabilir. Bu nedenle veri madenciliği sistemleri hazırlanırken bu sorunların çözülmesi gerekmektedir. Veri madenciliği uygulamalarında karşılaşılabilecek sorunlar söyledir.
Artık veri
Artık veri, problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir. Problemde belirtilen veri kümesi, eldeki probleme uygun olmayan veya artık nitelikler içerebilir. Bu durum pek çok işlem sırasında karşımıza çıkabilir. Örneğin, eldeki problem ile ilgili veriyi elde etmek için iki ilişkiyi birleştirirsek elde edilen ilişkide kullanıcının farkında olmadığı artık nitelikler bulunur. Artık nitelikleri elemek için geliştirilmiş algoritmalar özellik seçimi olarak adlandırılır Özellik seçimi, tümevarıma dayalı öğrenmede budama öncesi yapılan işlem, hedef bağlamı tanımlamak için yeterli ve gerekli olan niteliklerin küçük bir alt kümesinin seçimi problemidir. Özellik seçimi yalnız arama uzayını küçültmekle kalmayıp, sınıflama işleminin kalitesini de arttırır [2].
Belirsizlik
Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir. Veri tahmini, bir keşif sisteminde önemli bir husustur.
Boş veri
Bir veri tabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş değer, tanımı gereği kendisi de dahil olmak üzere hiçbir değere eşit olmayan değerdir. Bir çokluda eğer bir nitelik değeri boş ise o nitelik bilinmeyen ve uygulanamaz bir değere sahiptir. Bu durum ilişkisel veri tabanlarında sıkça karşımıza çıkmaktadır. Bir ilişkide yer alan tüm çoklular, niteliğin değeri boş olsa bile aynı sayıda niteliğe sahip olmalıdır. Örneğin, kişisel bilgisayarların özelliklerini tutan bir ilişkide bazı model bilgisayarlar için ses kartı modeli niteliğinin değeri boş olabilir [3].
Dinamik veri
Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir. Bu durum bilgi keşfi yöntemleri için önemli sakıncalar doğurmaktadır. İlk olarak sadece okuma yapan ve uzun süre çalışan bilgi keşfi yöntemi, bir veri tabanı uygulaması olarak mevcut veri tabanı ile birlikte çalıştırıldığında mevcut uygulamanın da performansı ciddi ölçüde düşer. Diğer bir sakınca ise, veri tabanında bulunan verilerin kalıcı olduğu varsayılıp, çevrim dışı veri üzerinde bilgi keşif yöntemi çalıştırıldığında, değişen verinin elde edilen örüntülere yansıması gerekmektedir. Bu işlem, bilgi keşfi yönteminin ürettiği örüntüleri zaman içinde değişen veriye göre sadece ilgili örüntüleri yığmalı olarak günleme yeteneğine sahip olmasını gerektirir [3].
Eksik veri
Evrendeki her nesnenin ayrıntılı bir biçimde tanımlandığı ve bu nesnelerin alabileceği değerler kümesinin belirli olduğu varsayılsın. Verilen bir bağlamda her bir nesnenin tanımı kesin ve yeterli olsa idi sınıflama işlemi basitçe nesnelerin alt kümelerinden faydalanılarak yapılırdı. Bununla birlikte, veriler kurum ihtiyaçları göz önünde bulundurularak düzenlenip toplandığından, mevcut veri bilgi keşfi açısından uygun olmayabilir [3].
Örneğin, otomobil arızalarının çözümlenmesi için tek bir otomobil markasının verileri kullanılarak hazırlanan bir veri madenciliği uygulaması, diğer marka otomobiller için doğru çözümler üretemezdi. Bu gibi koşullarda bilgi keşfi modeli belirli bir güvenlik (veya doğruluk) derecesinde tahmini kararlar alabilmelidir.
Eksik veriler veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır. Eksik veriler olduğunda yapılması gerekenler şunlardır:
- Eksik veri içeren kayıt veya kayıtlar çıkarılabilir.
- Değişkenin ortalaması eksik verilerin yerine kullanılabilir.
- Var olan verilere dayalı olarak en uygun değer kullanılabilir.
Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemler yaratmaktadır. Çünkü istatistiksel analizler ve bu analizlerin yapılmasına imkan veren ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu analizler, eksik veri içeren veri kümelerine uygulandıklarında istatistiklerin geçerliliğini düşürmektedir [4].
Farklı tipteki verileri ele alma
Gerçek hayattaki uygulamalar makine öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri türleri değil, aynı zamanda tam sayı, kesirli sayılar, çoklu ortam verisi, coğrafi bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir. Kullanılan verinin saklandığı ortam, düz bir kütük veya ilişkisel veri tabanında yer alan tablolar olacağı gibi, nesneye yönelik veri tabanları, çoklu ortam veri tabanları, coğrafik veri tabanları vb. olabilir. Saklandığı ortama göre veri, basit tipte olabileceği gibi karmaşık veri tipleri (çoklu ortam verisi, zaman içeren veri, yardımlı metin, coğrafi, vb.) de olabilir. Bununla birlikte veri tipi çeşitliliğinin fazla olması bir veri madenciliği algoritmasının tüm veri tiplerini ele alabilmesini olanaksızlaştırmaktadır. Bu yüzden veri tipine özgü adanmış veri madenciliği algoritmaları geliştirilmektedir [5].
Gürültülü ve kayıp değerler
Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültü denir. Büyük veri tabanlarında pek çok niteliğin değeri yanlış olabilir. Veri toplanması esnasında oluşan hatalara ölçümden kaynaklanan hatalar da dâhil olmaktadır. Bu hataların sonucu olarak veri madenciliğinde birçok niteliğin değeri yanlış olabilir ve bu yanlışlardan dolayı veri madenciliği amacına tam olarak ulaşmayabilir. Bu bilgi yanlışlığı ölçüm hatalarından ya da öznel yaklaşımdan kaynaklanıyor olabilir.
Günümüzde kullanılan ticari ilişkisel veri tabanları, veri girişi sırasında oluşan hataları otomatik biçimde gidermek konusunda az bir destek sağlamaktadır. Eğer veri kümesi gürültülü ise sistem bozuk veriyi tanımalı ve ihmal etmelidir. Deneysel sonuçlar, etiketli öğrenmede makine öğrenim tekniklerinin etiket niteliği üzerindeki gürültülere, diğer koşul niteliklerinde sunulan gürültülere kıyasla, daha duyarlı olduklarını göstermiştir. Buna karşın eğitim kümesindeki nesnelerin nitelikleri üzerindeki en çok %10'luk gürültü miktarı ayıklanabilmektedir [3].
Sınırlı bilgi
Veri tabanları genel olarak basit öğrenme işlerini sağlayan özellik veya nitelikleri sunmak gibi veri madenciliği dışındaki amaçlar için hazırlanmışlardır. Bu yüzden, öğrenme görevini kolaylaştıracak bazı özellikler bulunmayabilir. Bir veri tabanı öngörü oluşturmak için yeterli bilgileri barındırmıyorsa veri tabanından bilgi keşfi yapılamaz. Yetersiz veri problemlere sebep olmaktadır çünkü bazı veriler geçerli etki alanında sunulamaz.
Veri tabanı boyutu
Veri tabanı boyutları büyük bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiĢtir. Aynı algoritmaların yüzlerce kat büyük örneklemlerde kullanılabilmesi için çok dikkat gerekmektedir. Örneklemin büyük olması, tahminlerin doğruluğu açısından bir avantaj olsa da dikkatsizlikten kaynaklanacak hatalar göz ardı edilemez.
KAYNAKLAR
[1] Akpınar, H., “Veri tabanlarında bilgi keĢfi ve veri madenciliği”. İ.Ü. İşletme Fakültesi Dergisi, 29(1): 1–22 (2000).
[2] İnan, O., “Veri madenciliği”, Yüksek Lisans Tezi, Selçuk Üniversitesi Fen Bilimleri Enstitüsü, Konya, 1–50 (2003).
[3] Sever, H. ve Oğuz, B., “Veri tabanlarında bilgi keşfine formel bir yaklaşım”, Bilgi Dünyası, 3(2): 173–204 (2002).
[4] İnternet: Hacettepe Üniversitesi “Veri Madenciliğine Giriş” http://yunus.hacettepe.edu.tr/~hcingi/ist376a/6Bolum.doc (2011).
[5] Ching, J.Y., Wong, A.K.C. ve Chan, K.C.C., “Class-dependent discretization for inductive learning from continuous and mixed mode data”, IEEE Transactions on Knowledge and Data Engineering, 17(7): 641–651(1995).
Hiç yorum yok:
Yorum Gönder