Adamax, Adam algoritmasının bir genelleştirilmiş versiyonudur ve özellikle sonsuz norm (∞-norm) üzerinden çalışmasıyla öne çıkar. Kingma ve Ba tarafından 2015 yılında Adam ile birlikte tanıtılan bu algoritma, özellikle çok boyutlu parametre uzaylarında daha kararlı ve etkili bir güncelleme sağlamayı hedefler. Adamax, Adam algoritmasındaki kare norm yerine sonsuz norm kullanarak, büyük gradyanların etkisini kontrol altına alır ve daha kararlı bir öğrenme süreci sunar.
Adamax Optimizasyon Algoritması
Adam ve Adamax Arasındaki Temel Fark
Adam algoritması, moment tahminleri ve adaptif öğrenme oranlarını birleştirerek gradyan inişini optimize eder. Ancak, ikinci moment (kare norm) tahminlerinin kararsızlık yaratabildiği durumlarda performansı düşebilir. Adamax bu sorunu, ikinci moment yerine sonsuz norm (∞-norm) kullanarak çözer.
Adam algoritmasında ikinci moment tahmini şöyle yapılır:
Adamax ise bunu şu şekilde değiştirir:
Burada:
- : Sonsuz norm tahmini (önceki adımın ağırlıklı maksimum değeri).
- : İkinci moment için üstel azalma oranı.
- : Gradyan değeri.
Bu şekilde, büyük gradyanlara sahip parametreler bile kontrol altına alınabilir.
Güncelleme Adımları
Adamax algoritması şu adımları izler:
- İlk moment tahmini (ortalama gradyan):
- Sonsuz norm tahmini (maksimum gradyan büyüklüğü):
- Önyargı düzeltmesi:
- Parametre güncelleme:
Burada:
- : Öğrenme oranı.
- : Güncellenen parametre.
- : Gradyan değeri
- : İlk moment tahmini (ortalama gradyan)
- : Sonsuz norm tahmini (maksimum gradyan büyüklüğü)
- : Üstel azalma oranları
Avantajları
- Kararlılık: Sonsuz norm, kare norm gibi büyük gradyanlardan aşırı etkilenmez.
- Adam’a göre daha dayanıklı: Sayısal kararsızlıkların yoğun olduğu ortamlarda Adam’a göre daha kararlı güncellemeler sağlar.
- Parametre ayarlama gereksinimi düşüktür: Öğrenme oranı ve moment sabitleri için Adam ile benzer varsayılan değerler kullanılır.
Dezavantajları
- Nispeten az kullanılır: Yaygınlığı Adam veya AdamW kadar yüksek değildir.
- Her zaman daha iyi değil: Özellikle düşük boyutlu problemlerde Adam daha iyi performans verebilir.
Uygulama Alanları
- Derin sinir ağları: CNN, RNN gibi modellerin eğitiminde kullanılır.
- Doğal dil işleme: Özellikle Transformer mimarilerinde denenmiştir.
- Yüksek boyutlu optimizasyon: Çok sayıda parametre içeren modellerde kararlılığıyla tercih edilir.
Adamax'in (4,4) noktası için adım adım optimizasyon süreci görselleştirildi. (Github)
Adamax algoritması, sonsuz norm kullanarak parametre güncellemelerini daha kararlı hâle getirir.