ConvNeXt, klasik konvolüsyonel sinir ağlarını (CNN) modern derin öğrenme yaklaşımlarıyla yeniden tasarlayan bir mimaridir. 2022 yılında Facebook AI (Meta AI) araştırmacıları tarafından önerilen bu model, Transformer tabanlı modellerin başarısından ilham alarak saf konvolüsyonel bir yapının da güncel mimari ve optimizasyon teknikleriyle çok güçlü sonuçlar elde edebileceğini göstermiştir. ConvNeXt, ImageNet ve diğer görsel benchmark'larda Vision Transformer (ViT) gibi mimarilerle rekabet edecek düzeyde performans sunmaktadır.
Modern Konvolüsyonel Ağ Tasarımı
ConvNeXt, klasik ResNet mimarisini temel alır ancak çok sayıda mimari iyileştirme ve modernizasyon içerir. Bu güncellemeler, Transformer'larla rekabet edebilecek düzeyde doğruluk sağlar. ConvNeXt’in başarısı, geleneksel CNN yapılarının hâlâ rekabetçi olabileceğini göstermesi bakımından literatürde önemli bir dönüm noktasıdır.
Mimarideki Güncellemeler
ConvNeXt mimarisinde yapılan başlıca iyileştirmeler şunlardır:
Derinlik Artırımı
ResNet-50 gibi modellerde 50 katman varken, ConvNeXt mimarisinde bu derinlik 100+ seviyelere çıkartılmıştır. Derin modellerin eğitimi için LayerNorm gibi normalizasyon teknikleri tercih edilir.
Patchify Girdiler
Transformer mimarilerinde olduğu gibi, ConvNeXt de görüntüyü belirli boyutta yama (patch) parçalarına ayırarak işler. Bu, modelin büyük ölçekli yapay sinir ağlarıyla daha tutarlı bir biçimde çalışmasını sağlar.
Grouped Convolution
ConvNeXt, kanal sayısının gruplara ayrılması yoluyla grup konvolüsyonları uygular. Bu da modelin hem hesaplama verimliliğini artırır hem de model kapasitesini büyütmeden daha fazla özellik çıkarımı sağlar.
Layer Normalization
Batch Normalization yerine Layer Normalization tercih edilmiştir. Bu yöntem, Transformer tabanlı yapılarda yaygın olarak kullanılmaktadır ve özellikle büyük batch boyutlarında daha kararlı öğrenme sağlar.
GELU Aktivasyonu
ReLU yerine GELU (Gaussian Error Linear Unit) aktivasyon fonksiyonu tercih edilmiştir. GELU, Transformer mimarilerinde standartlaşmış ve doğruluk artışına katkı sağlamıştır.
Konvolüsyonel Alternatifin Dirilişi
ConvNeXt mimarisi, “Vision with ConvNets” başlıklı çalışmayla sunulmuş ve CNN'lerin hâlâ çok güçlü olduklarını ortaya koymuştur. Özellikle ViT mimarilerine kıyasla daha hızlı eğitim süresi ve daha az donanım ihtiyacı ile öne çıkar.
ResNet, Swin Transformer ve ConvNeXt için blok tasarımları (Akademik Yayın)
ConvNeXt mimarisinde, modern konvolüsyonel bloklar Transformer’lardan esinlenilerek düzenlenmiş, ancak tamamen konvolüsyonel yapıya sadık kalınmıştır.
ConvNeXt Model Ailesi
ConvNeXt mimarisi, farklı kapasite seviyelerine göre ölçeklendirilmiş modeller sunar:
Model | Parametre Sayısı | ImageNet Top-1 (%) |
ConvNeXt-Tiny | 28.6M | 81.3% |
ConvNeXt-Small | 50.2M | 82.3% |
ConvNeXt-Base | 88.5M | 85.3% |
ConvNeXt-Large | 197.7M | 86.3% |
ConvNeXt-XLarge | 350.1M | 86.7% |
Uygulama Alanları
- Görüntü sınıflandırma
- Nesne tespiti
- Görüntü segmentasyonu
- Tıbbi görüntü analizi
- Endüstriyel kalite kontrol