AlexNet yapay zeka ve görüntü işleme teknolojilerinde nasıl bir devrim yarattı?

Toronto Üniversitesi araştırmacıları tarafından geliştirilen AlexNet mimarisi, derin öğrenme yöntemlerinin gücünü kanıtlayarak bilgisayarlı görü alanında modern dönemi başlatan temel yapı taşı haline gelmiştir.

Yapay zeka ve bilgisayarlı görü tarihinin en önemli kırılma noktalarından biri olarak kabul edilen AlexNet, 2012 yılında geliştirildi. Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton tarafından Toronto Üniversitesi’nde tasarlanan bu mimari, ImageNet Büyük Ölçekli Görsel Tanıma Yarışması’nı (ILSVRC) kazanarak adını duyurdu. Bu başarı, önceki yaklaşımlara kıyasla elde edilen dramatik performans artışı sayesinde tüm dünyanın dikkatini ‘derin öğrenme’ alanına çekti.

AlexNet’in 8 katmanlı mimari yapısı. Diyagram, ham görüntü verisinden özelliklerin çıkarıldığı beş evrişimli katmanı (C1-C5) ve sınıflandırmanın yapıldığı üç tam bağlantılı katmanı (FC6-FC8) filtre boyutlarıyla birlikte göstermektedir.

AlexNet öncesinde bilgisayarlı görü sistemleri, genellikle insanlar tarafından manuel olarak tasarlanan özellik çıkarım yöntemlerine dayanıyordu. SIFT veya SURF gibi kenar dedektörleri ve özellik tanımlayıcıları, görüntüleri anlamlandırmak için standart bir yaklaşımdı. Ancak bu yöntemler, karmaşık nesneleri sınıflandırmada ve genelleştirmede sınırlı bir başarı sunabiliyordu. AlexNet, bu paradigmayı değiştirerek özelliklerin veriden otomatik olarak öğrenilebileceğini kanıtladı. AlexNet architecture diagram showing layers resmi

Derin Evrişimli Sinir Ağları (CNN) sınıfında yer alan AlexNet, toplamda sekiz eğitilebilir katmandan oluşmaktadır. Bu katmanların beşi evrişimli (convolutional) katmanlar iken, üçü tam bağlantılı (fully connected) katmanlardır. Mimarinin bu derinliği, o dönem için oldukça yenilikçi bir yaklaşımdı ve modelin görüntülerin hiyerarşik özelliklerini, basit kenarlardan karmaşık nesne formlarına kadar öğrenmesine olanak tanıdı.

Modelin başarısındaki en kritik teknik detaylardan biri, aktivasyon fonksiyonu olarak ReLU (Rectified Linear Unit) kullanılmasıydı. Geleneksel sigmoid veya tanh fonksiyonlarına kıyasla ReLU, eğitim sürecini önemli ölçüde hızlandırdı. Bu tercih, derin ağlarda sıkça karşılaşılan “kaybolan gradyan” probleminin aşılmasına yardımcı olarak modelin daha hızlı ve verimli bir şekilde yakınsamasını sağladı.

Yaklaşık 60 milyon parametreye ve 650.000 nörona sahip olan AlexNet için en büyük risklerden biri aşırı öğrenme (overfitting) sorunuydu. Araştırmacılar, bu devasa ağı eğitirken ezberlemeyi önlemek adına “Dropout” tekniğini kullandı. Bu yöntem, eğitim sırasında nöronların rastgele bir kısmının devre dışı bırakılmasını sağlayarak, ağın daha sağlam ve genellenebilir özellikler öğrenmesini zorunlu kıldı.

AlexNet’in başarısı sadece mimari tasarımla sınırlı kalmadı; donanım kullanımı açısından da bir devrim niteliğindeydi. Büyük veri setlerini işlemek için GPU (Grafik İşlemci Birimi) gücünün kullanılması, modelin eğitilmesini mümkün kılan en önemli faktörlerdendi. ImageNet gibi devasa veri setleri ve paralel işlem gücü birleştiğinde, derin öğrenmenin geleneksel yöntemlerden çok daha üstün olduğu tescillendi.

Bu mimarinin ortaya koyduğu başarı, VGGNet, GoogLeNet ve ResNet gibi daha sonraki birçok modern mimarinin temelini oluşturdu. Nesne tespiti, görüntü segmentasyonu ve sınıflandırma gibi birçok bilgisayarlı görü görevi, AlexNet’in açtığı yoldan ilerleyerek derin öğrenme tabanlı sistemlere evrildi. Bugün kullanılan pek çok yapay zeka sistemi, 2012’de atılan bu temel üzerine inşa edilmeye devam etmektedir.