Lion (Evolved Sign Momentum Optimizer), 2023 yılında Google DeepMind araştırmacıları tarafından tanıtılan yeni nesil bir optimizasyon algoritmasıdır. Adı “Evolved Sign Momentum” kavramına dayanan Lion (Layer-wise Optimizer), özellikle büyük ölçekli modellerde verimli, doğru ve düşük kaynak tüketimli optimizasyon sağlamayı hedefler. Özellikle transformer tabanlı büyük dil modelleri gibi yoğun hesaplama gerektiren ağlarda dikkat çekici başarılar elde etmiştir.
Lion Optimizasyon Algoritması
Temel Yaklaşım
Lion, klasik optimizasyon yöntemlerinin (örneğin Adam, SGD) aksine, ağırlıkların güncellenmesinde yalnızca gradyanların işaretini kullanır. Bu yaklaşım, hem hafıza verimliliğini artırır hem de kararsızlıkları (oscillation) azaltır.
Formül düzeyinde Lion algoritması şu şekilde ifade edilir:
Burada:
- : momentum vektörü
- : momentum katsayısı
- : öğrenme oranı
- : parametrelerin mevcut gradyanı
Özellikle dikkat edilmesi gereken nokta, parametre güncellemesinin gradyan büyüklüğüne değil sadece yönüne (işaretine) bağlı olmasıdır.
Özellikleri
Avantajları
- Hafıza dostu: Adam gibi kare gradyanlar tutmak yerine sadece momentum izlediği için bellek tasarrufu sağlar.
- Yüksek doğruluk: Özellikle Vision Transformer (ViT) ve LLM gibi modellerde güçlü sonuçlar vermektedir.
- Basit ve etkili: Sign kullanımı ile parametre güncellemeleri sadeleşir.
- Hızlı yakınsama: Daha düşük adım sayısıyla yüksek doğruluk elde edilebilir.
Dezavantajları
- Yaygın kullanımda yeni: Diğer optimizasyon yöntemlerine göre daha az test edilmiştir.
- Gradyan büyüklüğü kaybı: Yönsel güncelleme, bazı durumlarda öğrenmeyi yavaşlatabilir.
Uygulama Alanları
- Büyük dil modelleri (LLM)
- Görsel transformer mimarileri (ViT)
- Görüntü sınıflandırma, segmentasyon
- Büyük ölçekli eğitim senaryoları
Lion Optimizasyon Yöntemiyle Parametrelerin Güncellenmesi (Kaan Gümele)
Lion, momentum vektörünün yönünü baz alarak yapılan sadeleştirilmiş parametre güncellemesi sayesinde verimli optimizasyon sağlar.