Dünya çapında bir yarışma olan ImageNet yarışması ile birlikte daha da rekabetçi bir hale gelen derin öğrenme mimarileri, her geçen yıl değişen katman sayıları ve başarım oranlarıyla gittikçe daha da artıyor. Bu yarışın fitilini AlexNet mimarisi ateşlemiştir demek yanlış bir söylem olmaz. Bu sebeple aşağıda örnek katman açıklaması AlexNet mimarisi üzerinde gerçekleştirilmiş, diğer mimarilerde ise genel açıklama yapılmıştır.
AlexNet: ILSVRC-2012 yarışmasını kazanan görüntü sınıflandırması için derin konvolüsyonel sinir ağıdır. İlk beş tanesi konvolüsyonel, son üç tanesi ise tam bağlı katman olan sekiz katmandan oluşmaktadır. Bu katmanlar arasında “pooling” ve “aktivasyon” katmanları da bulunmaktadır. Ayrıca giriş ve çıkış katmanları da bulunmaktadır. AlexNet mimarisi, 1000 nesneyi sınıflandıracak şekilde tasarlanmış ve nesne tanımlamada hata oranı %26,2’den %15,3’e düşürülmüştür. Şekil’de AlexNet mimarisi gösterilmiştir [1].
AlexNet mimarisi |
AlexNet katmanları a) 1. katman b) 2. katman c) 6. Katman
Birinci katman konvolüsyonel katmandır.
- Giriş görüntü boyutu: 224 x 224 x 3
- Filtre sayısı: 96
- Filtre boyutu: 11 x 11 x 3
- Adım uzunluğu: 4
Katman Çıktısı
- 224/4 x 224/4 x 96 = 55 x 55 x 96
- 2 GPU ile bölününce her bir GPU için 55 x 55 x 48
İkinci katman, konvolüsyon ile takip edilen bir Max Pooling katmanıdır.
- Giriş görüntü boyutu: 55 x 55 x 96
- Max Pooling: 55/2 x 55/2 x 96 = 27 x 27 x 96
- Filtre sayısı: 256
- Filtre boyutu: 5 x 5 x 48
Katman Çıktısı
- 55/2 x 55/2 x 96 = 27 x 27 x 96
- 2 GPU ile bölününce her bir GPU için 27 x 27 x 128
Üçüncü, dördüncü ve beşinci katmanlar benzer şekilde ilerlemektedir. Altıncı katman tam bağlı katmandır.
Altıncı katmanda giriş, 13 x 13 x 128 olarak bir vektöre dönüştürülür ve 2048 ile çarpılır:
(13 x 13 x 128) x 2048
Burada GEMV (General Matrix Vector Multiply) kullanılır.
Vektör X = 1 x (13x13x128)
Matrix A = (13x13x128) x 2048
Çıktı: 1 x 2048
Yedinci ve sekizinci katmanlar da benzer şekilde ilerler.
ZFNet: AlexNet’in ImageNet yarışmasını kazanmasından sonra, bu mimariden esinlenerek geliştirilen ZFNet [2] 2013 yılında ImageNet yarışmasının kazananı olmuştur. Bu mimariyle nesne tanımada hata oranı %11,2’ye indirilmiştir. AlexNet’ten farkı; filtre boyutunu 7x7 ve adım sayısını iki olarak belirlemesidir. Burada, birinci konvolüsyon katmanındaki daha küçük bir filtre boyutunun, giriş boyutundaki birçok orijinal piksel bilgisinin korunmasına yardımcı olması amaçlanmıştır. Ek olarak, “Çapraz Entropi”, “Olasılıksal Eğim İniş” ve “ReLU” algoritmalarını kendi mimarisinde kullanmıştır. ZFNet mimarisi 7 katmandan oluşmaktadır. Şekilde ZFNet mimarisi gösterilmiştir.
ZFNet mimarisi |
GoogLeNet mimarisi
RestNet: 152 katmandan oluşan ResNet daha önceki mimarilerden daha derin bir yapıya sahiptir. ImageNet yarışmasında 2015 yılında %3,57 top-5 hata oranı elde ederek kazanan olmuştur. Bu oran, insan hata oranını da geçerek büyük bir başarı anlamına gelmektedir. Mimariyi oluşturan Residual bloklarda, x girişi konvolüsyon-ReLUkonvolüsyon serisinden sonra bir F(x) sonucu üretmektedir. Bu sonuç daha sonra orijinal x girişine eklenerek H(x) = F (x) + x olarak ifade edilir. 34 Katmanlık örnek bir ResNet mimarisi ve Residual blok yapısı Şekilde sırasıyla gösterilmiştir [4].
a) RestNet 34 katmanlık mimari b) Residual blok
VGG16 — VGG19: VGGNet mimarisi 16 ve 19 katmanlı olmak üzere iki farklı türü vardır; VGG16, VGG19. Katman sayısı ağırlık katmanlarının sayısına göre belirlenmiştir. VGG16 mimarisi ImageNet 2014 yarışmasında daha iyi sonuçlar elde etmek için kullanılan 13 konvolüsyon 3 tam bağlı katmanından oluşmakta olan bir mimaridir [5]. MaxPooling, FullyConnectedLayer, ReLULayer, DropOutLayer ve SoftmaxLayer katmanlarıyla birlikte toplamda 41 katman yer almaktadır. Girdi katmanında yer alacak görüntü 224x224x3 boyutundadır. Son katman ise sınıflandırma katmanıdır [6].
VGGNet mimarisi tüm katmanlarında 3x3 filtre kullanır ve Konvolüsyon-ReLU katmanlarını havuzlama katmanından önce üst üste kullanır. Diğer derin mimarilerdeki gibi VGG mimarisinde de giriş katmanından çıkışa doğru matrislerin yükseklik ve genişlik boyutları azalırken derinlik değeri artar. 2014 yılında %7,3 top-5 hata oranı elde etmiştir. Şekilde VGGNet mimarisi gösterilmiştir [5].
VGGNet mimarisi |
Dünden Bugüne Yapay Zeka
KAYNAKLAR
[1] Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). 25th International Conference on Neural Information Processing Systems. ImageNet Classification with Deep Convolutional, 1097–1105. Lake Tahoe, Nevada: NIPS’12 Proceedings.
[2] Zeiler, M. D., and Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. Computer Vision — ECCV 2014, 818–833. doi: 10.1007/978–3–319–10590-1_53
[3] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., and Rabinovich, A. (2015). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Going deeper with convolutions, 1–9. Boston, MA, USA: IEEE. doi:10.1109/CVPR.2015.7298594
[4] He, K., Zhang, X., Ren, S., and Sun, J. (2016). 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Deep Residual Learning for Image Recognition,1–12. Las Vegas, NV, USA: IEEE. doi: 10.1109/CVPR.2016.90
[5] Simonyan, K., and Zisserman, A. (2014). Very Deep Convolutional Networks for Large-Scale Image Recognition. Web: https://arxiv.org/abs/1409.1556
[6] Doğan, F., ve Türkoğlu, İ. (2018). Derin Öğrenme Algoritmalarının Yaprak Sınıflandırma Başarımlarının Karşılaştırılması. Sakarya Universıty Journal Of Computer And Informatıon Scıences, 1, 10–21.
[7] Savaş, S. (2019), Karotis Arter Intima Media Kalınlığının Derin Öğrenme ile Sınıflandırılması, Gazi Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı, Doktora Tezi, Ankara.
Hiç yorum yok:
Yorum Gönder