Adamax, Adam algoritmasının bir genelleştirilmiş versiyonudur ve özellikle sonsuz norm (∞-norm) üzerinden çalışmasıyla öne çıkar. Kingma ve Ba tarafından 2015 yılında Adam ile birlikte tanıtılan bu algoritma, özellikle çok boyutlu parametre uzaylarında daha kararlı ve etkili bir güncelleme sağlamayı hedefler. Adamax, Adam algoritmasındaki kare norm yerine sonsuz norm kullanarak, büyük gradyanların etkisini kontrol altına alır ve daha kararlı bir öğrenme süreci sunar.

Adamax Optimizasyon Algoritması

Adam ve Adamax Arasındaki Temel Fark

Adam algoritması, moment tahminleri ve adaptif öğrenme oranlarını birleştirerek gradyan inişini optimize eder. Ancak, ikinci moment (kare norm) tahminlerinin kararsızlık yaratabildiği durumlarda performansı düşebilir. Adamax bu sorunu, ikinci moment yerine sonsuz norm (∞-norm) kullanarak çözer.

Adam algoritmasında ikinci moment tahmini şöyle yapılır:

$v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2$

Adamax ise bunu şu şekilde değiştirir:

$u_t = \max(\beta_2 \cdot u_{t-1}, |g_t|)$

Burada:

$u_t$ : Sonsuz norm tahmini (önceki adımın ağırlıklı maksimum değeri).
$\beta_2$ : İkinci moment için üstel azalma oranı.
$g_t$ : Gradyan değeri.

Bu şekilde, büyük gradyanlara sahip parametreler bile kontrol altına alınabilir.

Güncelleme Adımları

Adamax algoritması şu adımları izler:

İlk moment tahmini (ortalama gradyan):

$m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t$

Sonsuz norm tahmini (maksimum gradyan büyüklüğü):

$u_t = \max(\beta_2 \cdot u_{t-1}, |g_t|)$

Önyargı düzeltmesi:

$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$

Parametre güncelleme:

$\theta_t = \theta_{t-1} - \eta \cdot \frac{\hat{m}_t}{u_t}$

Burada:

$\eta$ : Öğrenme oranı.
$\theta_t$ : Güncellenen parametre.
$g_t$ : Gradyan değeri
$m_t$ : İlk moment tahmini (ortalama gradyan)
$u_t$ : Sonsuz norm tahmini (maksimum gradyan büyüklüğü)
$\beta_1, \beta_2$ : Üstel azalma oranları

Avantajları

Kararlılık: Sonsuz norm, kare norm gibi büyük gradyanlardan aşırı etkilenmez.
Adam’a göre daha dayanıklı: Sayısal kararsızlıkların yoğun olduğu ortamlarda Adam’a göre daha kararlı güncellemeler sağlar.
Parametre ayarlama gereksinimi düşüktür: Öğrenme oranı ve moment sabitleri için Adam ile benzer varsayılan değerler kullanılır.

Dezavantajları

Nispeten az kullanılır: Yaygınlığı Adam veya AdamW kadar yüksek değildir.
Her zaman daha iyi değil: Özellikle düşük boyutlu problemlerde Adam daha iyi performans verebilir.

Uygulama Alanları

Derin sinir ağları: CNN, RNN gibi modellerin eğitiminde kullanılır.
Doğal dil işleme: Özellikle Transformer mimarilerinde denenmiştir.
Yüksek boyutlu optimizasyon: Çok sayıda parametre içeren modellerde kararlılığıyla tercih edilir.

^{Adamax'in (4,4) noktası için adım adım optimizasyon süreci görselleştirildi. (}^Github⁾

Adamax algoritması, sonsuz norm kullanarak parametre güncellemelerini daha kararlı hâle getirir.

Adamax

Adamax Optimizasyon Algoritması

Adam ve Adamax Arasındaki Temel Fark

Güncelleme Adımları

Avantajları

Dezavantajları

Uygulama Alanları

Kaynakça

Yazar Bilgileri

Etiketler