logologo
Ai badge logo

Bu madde yapay zeka desteği ile üretilmiştir.

Adamax

Bilişim Ve İletişim Teknolojileri+1 Daha
fav gif
Kaydet
viki star outline
Adamax.png
Yıl
2017
Avantajları
Büyük Gradyanlar ile İyi PerformansDaha Az Hızlı Öğrenme Oranı İhtiyacı

Adamax, Adam algoritmasının bir genelleştirilmiş versiyonudur ve özellikle sonsuz norm (∞-norm) üzerinden çalışmasıyla öne çıkar. Kingma ve Ba tarafından 2015 yılında Adam ile birlikte tanıtılan bu algoritma, özellikle çok boyutlu parametre uzaylarında daha kararlı ve etkili bir güncelleme sağlamayı hedefler. Adamax, Adam algoritmasındaki kare norm yerine sonsuz norm kullanarak, büyük gradyanların etkisini kontrol altına alır ve daha kararlı bir öğrenme süreci sunar.

Adamax Optimizasyon Algoritması

Adam ve Adamax Arasındaki Temel Fark

Adam algoritması, moment tahminleri ve adaptif öğrenme oranlarını birleştirerek gradyan inişini optimize eder. Ancak, ikinci moment (kare norm) tahminlerinin kararsızlık yaratabildiği durumlarda performansı düşebilir. Adamax bu sorunu, ikinci moment yerine sonsuz norm (∞-norm) kullanarak çözer.


Adam algoritmasında ikinci moment tahmini şöyle yapılır:

vt=β2vt1+(1β2)gt2v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 

Adamax ise bunu şu şekilde değiştirir:

ut=max(β2ut1,gt)u_t = \max(\beta_2 \cdot u_{t-1}, |g_t|) 

Burada:

  • utu_t: Sonsuz norm tahmini (önceki adımın ağırlıklı maksimum değeri).
  • β2\beta_2: İkinci moment için üstel azalma oranı.
  • gtg_t: Gradyan değeri.


Bu şekilde, büyük gradyanlara sahip parametreler bile kontrol altına alınabilir.

Güncelleme Adımları

Adamax algoritması şu adımları izler:

  1. İlk moment tahmini (ortalama gradyan):

mt=β1mt1+(1β1)gtm_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t 

  1. Sonsuz norm tahmini (maksimum gradyan büyüklüğü):

ut=max(β2ut1,gt)u_t = \max(\beta_2 \cdot u_{t-1}, |g_t|) 

  1. Önyargı düzeltmesi:

m^t=mt1β1t\hat{m}_t = \frac{m_t}{1 - \beta_1^t} 

  1. Parametre güncelleme:

θt=θt1ηm^tut\theta_t = \theta_{t-1} - \eta \cdot \frac{\hat{m}_t}{u_t} 

Burada:

  • η\eta: Öğrenme oranı.
  • θt\theta_t: Güncellenen parametre.
  • gtg_t​ : Gradyan değeri
  • mtm_t​ : İlk moment tahmini (ortalama gradyan)
  • utu_t​ : Sonsuz norm tahmini (maksimum gradyan büyüklüğü)
  • β1,β2\beta_1, \beta_2 : Üstel azalma oranları

Avantajları

  • Kararlılık: Sonsuz norm, kare norm gibi büyük gradyanlardan aşırı etkilenmez.
  • Adam’a göre daha dayanıklı: Sayısal kararsızlıkların yoğun olduğu ortamlarda Adam’a göre daha kararlı güncellemeler sağlar.
  • Parametre ayarlama gereksinimi düşüktür: Öğrenme oranı ve moment sabitleri için Adam ile benzer varsayılan değerler kullanılır.

Dezavantajları

  • Nispeten az kullanılır: Yaygınlığı Adam veya AdamW kadar yüksek değildir.
  • Her zaman daha iyi değil: Özellikle düşük boyutlu problemlerde Adam daha iyi performans verebilir.

Uygulama Alanları

  • Derin sinir ağları: CNN, RNN gibi modellerin eğitiminde kullanılır.
  • Doğal dil işleme: Özellikle Transformer mimarilerinde denenmiştir.
  • Yüksek boyutlu optimizasyon: Çok sayıda parametre içeren modellerde kararlılığıyla tercih edilir.

Adamax'in (4,4) noktası için adım adım optimizasyon süreci görselleştirildi. (Github)


Adamax algoritması, sonsuz norm kullanarak parametre güncellemelerini daha kararlı hâle getirir.

Kaynakça

Kingma, D., and J. Ba. 2014. “Adam: A Method for Stochastic Optimization.” Computer Science. https://doi.org/10.48550/arXiv.1412.6980.


Ruder, Sebastian. 2017. “An Overview of Gradient Descent Optimization Algorithms.” ArXiv.org. June 15, 2017. https://doi.org/10.48550/arXiv.1609.04747.

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
Ana YazarKaan Gümele27 Nisan 2025 00:13
KÜRE'ye Sor