Ai badge logo

Bu madde yapay zeka desteği ile üretilmiştir.

Adafactor

Bilişim Ve İletişim Teknolojileri+1 Daha
fav gif
Kaydet
kure star outline
Adafactor.png
Yıl
2018
Avantajları
Adaptif Öğrenme OranıDüşük Bellek Kullanımı

Adafactor, Google tarafından geliştirilen ve özellikle büyük ölçekli dil modelleri gibi hafıza tüketimi yüksek modeller için tasarlanmış, verimli ve düşük bellekli bir optimizasyon algoritmasıdır. İlk olarak 2018 yılında "Adafactor: Adaptive Learning Rates with Sublinear Memory Cost" başlıklı çalışmada tanıtılmıştır. Adafactor, Adam algoritmasına benzer şekilde moment temelli güncellemeler yapar ancak ikincil moment tahminlerini daha az bellek kullanarak hesaplar ve böylece büyük modellerin eğitimine olanak tanır.

Adafactor Optimizasyon Algoritması

Bellek Verimliliği

Adafactor’ın en önemli özelliği, ikinci moment vektörünü tam matris olarak tutmak yerine satır ve sütunların ortalamalarını ayrı ayrı saklamasıdır. Bu yaklaşım, özellikle yüksek boyutlu tensörlerde bellek tüketimini karekök oranında azaltır. Örneğin, d×dd \times d boyutunda bir parametre matrisinde d2d^2 yerine yalnızca 2d2d adet değer saklanır.

Güncelleme Mekanizması

Adam algoritmasındaki gibi Adafactor da gradyanların ilk momenti (ortalama değeri) ile ikinci momentini (kareler ortalaması) kullanır. Ancak ikinci moment şöyle hesaplanır:

Parametre matrisi WRr×cW \in \mathbb{R}^{r \times c} için:


  • Satır ortalamaları:

Rt=β2Rt1+(1β2)1cj=1cgt,ij2R_t = \beta_2 \cdot R_{t-1} + (1 - \beta_2) \cdot \frac{1}{c} \sum_{j=1}^{c} g_{t,ij}^2 

  • Sütun ortalamaları:

Ct=β2Ct1+(1β2)1ri=1rgt,ij2C_t = \beta_2 \cdot C_{t-1} + (1 - \beta_2) \cdot \frac{1}{r} \sum_{i=1}^{r} g_{t,ij}^2 


Bu değerler kullanılarak yaklaşık kare norm matris elde edilir:


v^t,ij=Rt,iCt,j1rci,jRt,iCt,j\hat{v}_{t,ij} = \frac{R_{t,i} \cdot C_{t,j}}{\frac{1}{rc} \sum_{i,j} R_{t,i} \cdot C_{t,j}} 

Öğrenme oranı ve normalleştirme ile parametre güncellenir:

θt=θt1ηtgtv^t+ϵ\theta_t = \theta_{t-1} - \eta_t \cdot \frac{g_t}{\sqrt{\hat{v}_t} + \epsilon} 

Özellikleri

Adaptif Öğrenme Oranı

Adafactor, varsayılan olarak mutlak öğrenme oranı yerine göreli öğrenme oranı (ηt1t)(\eta_t \propto \frac{1}{\sqrt{t}}) kullanır. Böylece büyük modeller için sabit değerler ayarlamadan otomatik öğrenme oranı kontrolü sağlanır.

Bellek Kullanımı

  • Adam: O(n)O(n) ilave bellek gerektirir (her parametre için iki moment).
  • Adafactor: O(n)O(n) yerine O(n)O(\sqrt{n}) bellekle yaklaşık aynı başarıyı sağlar.

Avantajları

  • Bellek dostu: Özellikle devasa Transformer tabanlı modellerde tercih edilir.
  • Adaptif öğrenme: Öğrenme oranı otomatik ayarlanabilir.
  • Adam benzeri performans: Çoğu durumda Adam’a benzer doğruluk sağlar.

Dezavantajları

  • Kod karmaşıklığı: Adam’a göre daha karmaşık bir güncelleme mekanizmasına sahiptir.
  • Yalnızca matris-tabanlı parametreler için uygundur: Skaler parametrelerde performans kaybı olabilir.
  • Varsayılan hiperparametrelerle ince ayar gerekebilir.

Kullanım Alanları

  • Transformers: Özellikle T5, mT5, BERT gibi modellerin eğitiminde kullanılmıştır.
  • Dil modelleme: Büyük veri setlerinde uzun süreli eğitimlerde etkilidir.
  • Bellek sınırlı ortamlar: GPU RAM’i sınırlı olan sistemlerde avantaj sağlar.

Adafactorün (4,4) noktası için adım adım optimizasyon süreci görselleştirildi. (Github)


Adafactor, parametre matrisinin satır ve sütun boyutlarında ayrı moment tahminleri kullanarak bellek kullanımını azaltır.

Kaynakça

Noam Shazeer, and Mitchell Stern. 2018. “Adafactor: Adaptive Learning Rates with Sublinear Memory Cost.” ArXiv (Cornell University), April. https://doi.org/10.48550/arxiv.1804.04235.


Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” ArXiv.org. December 5, 2017. https://doi.org/10.48550/arXiv.1706.03762.

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
YazarKaan Gümele27 Nisan 2025 00:44

İçindekiler

  • Adafactor Optimizasyon Algoritması

    • Bellek Verimliliği

    • Güncelleme Mekanizması

  • Özellikleri

    • Adaptif Öğrenme Oranı

    • Bellek Kullanımı

  • Avantajları

  • Dezavantajları

  • Kullanım Alanları

Tartışmalar

Henüz Tartışma Girilmemiştir

"Adafactor" maddesi için tartışma başlatın

Tartışmaları Görüntüle
KÜRE'ye Sor