Bilgi Paylaştıkça Çoğalır: Derin Öğrenme Mimarileri

Derin Öğrenme Mimarileri

Dünya çapında bir yarışma olan ImageNet yarışması ile birlikte daha da rekabetçi bir hale gelen derin öğrenme mimarileri, her geçen yıl değişen katman sayıları ve başarım oranlarıyla gittikçe daha da artıyor. Bu yarışın fitilini AlexNet mimarisi ateşlemiştir demek yanlış bir söylem olmaz. Bu sebeple aşağıda örnek katman açıklaması AlexNet mimarisi üzerinde gerçekleştirilmiş, diğer mimarilerde ise genel açıklama yapılmıştır.

AlexNet: ILSVRC-2012 yarışmasını kazanan görüntü sınıflandırması için derin konvolüsyonel sinir ağıdır. İlk beş tanesi konvolüsyonel, son üç tanesi ise tam bağlı katman olan sekiz katmandan oluşmaktadır. Bu katmanlar arasında “pooling” ve “aktivasyon” katmanları da bulunmaktadır. Ayrıca giriş ve çıkış katmanları da bulunmaktadır. AlexNet mimarisi, 1000 nesneyi sınıflandıracak şekilde tasarlanmış ve nesne tanımlamada hata oranı %26,2’den %15,3’e düşürülmüştür. Şekil’de AlexNet mimarisi gösterilmiştir [1].

AlexNet mimarisi

AlexNet diyagramında problemin iki bölüme ayrılarak yarısının GPU1 ve diğer yarısının da GPU2 üzerinde çalıştırıldığı görülmektedir. Böylece iletişim yükü düşük tutulur ve bu da genel olarak iyi bir performans elde edilmesine yardımcı olur. İki kanaldan işleyen veriler sadece üçüncü özellik çıkarımı katmanında çaprazlanır.

AlexNet katmanları a) 1. katman b) 2. katman c) 6. Katman

Birinci katman konvolüsyonel katmandır.

Giriş görüntü boyutu: 224 x 224 x 3
Filtre sayısı: 96
Filtre boyutu: 11 x 11 x 3
Adım uzunluğu: 4

Katman Çıktısı

224/4 x 224/4 x 96 = 55 x 55 x 96
2 GPU ile bölününce her bir GPU için 55 x 55 x 48

İkinci katman, konvolüsyon ile takip edilen bir Max Pooling katmanıdır.

Giriş görüntü boyutu: 55 x 55 x 96
Max Pooling: 55/2 x 55/2 x 96 = 27 x 27 x 96
Filtre sayısı: 256
Filtre boyutu: 5 x 5 x 48

Katman Çıktısı

55/2 x 55/2 x 96 = 27 x 27 x 96
2 GPU ile bölününce her bir GPU için 27 x 27 x 128

Üçüncü, dördüncü ve beşinci katmanlar benzer şekilde ilerlemektedir. Altıncı katman tam bağlı katmandır.

Altıncı katmanda giriş, 13 x 13 x 128 olarak bir vektöre dönüştürülür ve 2048 ile çarpılır:

(13 x 13 x 128) x 2048

Burada GEMV (General Matrix Vector Multiply) kullanılır.

Vektör X = 1 x (13x13x128)

Matrix A = (13x13x128) x 2048

Çıktı: 1 x 2048

Yedinci ve sekizinci katmanlar da benzer şekilde ilerler.

ZFNet: AlexNet’in ImageNet yarışmasını kazanmasından sonra, bu mimariden esinlenerek geliştirilen ZFNet [2] 2013 yılında ImageNet yarışmasının kazananı olmuştur. Bu mimariyle nesne tanımada hata oranı %11,2’ye indirilmiştir. AlexNet’ten farkı; filtre boyutunu 7x7 ve adım sayısını iki olarak belirlemesidir. Burada, birinci konvolüsyon katmanındaki daha küçük bir filtre boyutunun, giriş boyutundaki birçok orijinal piksel bilgisinin korunmasına yardımcı olması amaçlanmıştır. Ek olarak, “Çapraz Entropi”, “Olasılıksal Eğim İniş” ve “ReLU” algoritmalarını kendi mimarisinde kullanmıştır. ZFNet mimarisi 7 katmandan oluşmaktadır. Şekilde ZFNet mimarisi gösterilmiştir.

ZFNet mimarisi

GoogLeNet: GoogleNet, Inception modüllerinden oluşturulan karmaşık bir yapıda olup ImageNet yarışmasının 2014 yılı kazananıdır. Daha önceki çalışmalardan farklı olarak hazırlanan ağın derinliği ve genişliği arttırılırken hesaplama maliyeti de düşük tutulmuştur. Mimari 22 katmandan oluşmaktadır. Kaliteyi optimize etmek için, mimari kararlar Hebbian ilkesine ve çok ölçekli işlemenin sezgisine dayandırılmıştır. Yarışmada %6,67 oranında top-5 hata oranı elde etmiştir. Şekilde GoogLeNet mimarisi gösterilmiştir [3].

GoogLeNet mimarisi

RestNet: 152 katmandan oluşan ResNet daha önceki mimarilerden daha derin bir yapıya sahiptir. ImageNet yarışmasında 2015 yılında %3,57 top-5 hata oranı elde ederek kazanan olmuştur. Bu oran, insan hata oranını da geçerek büyük bir başarı anlamına gelmektedir. Mimariyi oluşturan Residual bloklarda, x girişi konvolüsyon-ReLUkonvolüsyon serisinden sonra bir F(x) sonucu üretmektedir. Bu sonuç daha sonra orijinal x girişine eklenerek H(x) = F (x) + x olarak ifade edilir. 34 Katmanlık örnek bir ResNet mimarisi ve Residual blok yapısı Şekilde sırasıyla gösterilmiştir [4].

a) RestNet 34 katmanlık mimari b) Residual blok

VGG16 — VGG19: VGGNet mimarisi 16 ve 19 katmanlı olmak üzere iki farklı türü vardır; VGG16, VGG19. Katman sayısı ağırlık katmanlarının sayısına göre belirlenmiştir. VGG16 mimarisi ImageNet 2014 yarışmasında daha iyi sonuçlar elde etmek için kullanılan 13 konvolüsyon 3 tam bağlı katmanından oluşmakta olan bir mimaridir [5]. MaxPooling, FullyConnectedLayer, ReLULayer, DropOutLayer ve SoftmaxLayer katmanlarıyla birlikte toplamda 41 katman yer almaktadır. Girdi katmanında yer alacak görüntü 224x224x3 boyutundadır. Son katman ise sınıflandırma katmanıdır [6].

VGGNet mimarisi tüm katmanlarında 3x3 filtre kullanır ve Konvolüsyon-ReLU katmanlarını havuzlama katmanından önce üst üste kullanır. Diğer derin mimarilerdeki gibi VGG mimarisinde de giriş katmanından çıkışa doğru matrislerin yükseklik ve genişlik boyutları azalırken derinlik değeri artar. 2014 yılında %7,3 top-5 hata oranı elde etmiştir. Şekilde VGGNet mimarisi gösterilmiştir [5].

VGGNet mimarisi

Dünden Bugüne Yapay Zeka

KAYNAKLAR

[1] Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). 25th International Conference on Neural Information Processing Systems. ImageNet Classification with Deep Convolutional, 1097–1105. Lake Tahoe, Nevada: NIPS’12 Proceedings.
[2] Zeiler, M. D., and Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. Computer Vision — ECCV 2014, 818–833. doi: 10.1007/978–3–319–10590-1_53
[3] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., and Rabinovich, A. (2015). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Going deeper with convolutions, 1–9. Boston, MA, USA: IEEE. doi:10.1109/CVPR.2015.7298594
[4] He, K., Zhang, X., Ren, S., and Sun, J. (2016). 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Deep Residual Learning for Image Recognition,1–12. Las Vegas, NV, USA: IEEE. doi: 10.1109/CVPR.2016.90
[5] Simonyan, K., and Zisserman, A. (2014). Very Deep Convolutional Networks for Large-Scale Image Recognition. Web: https://arxiv.org/abs/1409.1556
[6] Doğan, F., ve Türkoğlu, İ. (2018). Derin Öğrenme Algoritmalarının Yaprak Sınıflandırma Başarımlarının Karşılaştırılması. Sakarya Universıty Journal Of Computer And Informatıon Scıences, 1, 10–21.
[7] Savaş, S. (2019), Karotis Arter Intima Media Kalınlığının Derin Öğrenme ile Sınıflandırılması, Gazi Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Ana Bilim Dalı, Doktora Tezi, Ankara.

Bilgi Paylaştıkça Çoğalır

Derin Öğrenme Mimarileri

KAYNAKLAR

Hiç yorum yok:

Yorum Gönder