Encoder-Decoder Mimarisi ve Attention Mekanizmasının Rolü Üzerine Bir İnceleme

Doğal Dil İşleme (Natural Language Processing - NLP) alanı, makinelerin insan dilini işlemesi ve üretmesi yeteneklerinde önemli ilerlemeler kaydetmiştir. Bu ilerlemelerin merkezinde yer alan temel mimarilerden biri, Encoder-Decoder veya alternatif adıyla Sequence-to-Sequence (Seq2Seq) modelidir. Makine çevirisi (Machine Translation) ve metin özetleme (Text Summarization) gibi görevlerde yaygın olarak kullanılan bu mimari, girdi dizisini sabit boyutlu bir temsile kodlama ve bu temsilden bir çıktı dizisi üretme prensibine dayanır. Ancak bu yaklaşım, özellikle uzun dizilerde bilgi kaybına yol açabilen bir bottleneck sorunu ortaya çıkarmıştır. Bu soruna yönelik geliştirilen etkili çözümlerden biri Attention mekanizmasıdır.

Bu yazıda, Encoder-Decoder mimarisinin temel bileşenleri, karşılaştığı bottleneck problemi ve Attention mekanizmasının bu probleme getirdiği çözüm detaylı bir şekilde incelenecektir.

Encoder-Decoder Mimarisi: Yapısal Bileşenler

^{Encoder-Decoder mimarisi ve Context vektörü (Kaynak:}^Medium⁾

Encoder-Decoder modelleri, genellikle RNN (Recurrent Neural Network) tabanlı yapılar (örneğin, LSTM veya GRU) kullanılarak gerçekleştirilen iki temel modülden oluşur:

Encoder:

Fonksiyonu: Girdi dizisini (örneğin, kaynak dildeki bir cümle) ardışıl olarak işler.

Operasyonu: Her bir zaman adımında, mevcut girdi elemanını ve önceki zaman adımının gizli durumunu (hidden state) kullanarak yeni bir gizli durum hesaplar. Bu işlem, tüm girdi dizisi tamamlanana kadar devam eder.

Çıktısı: Girdi dizisinin bütünsel bir temsilini içeren, genellikle son gizli durum olan sabit boyutlu bir vektör üretir. Bu vektör Context Vector olarak adlandırılır.

Context Vector ('c'):

Fonksiyonu: Encoder tarafından işlenen girdi dizisinin anlamsal içeriğini veya özetini taşır. Encoder ve Decoder modülleri arasında bilgi aktarımını sağlar.

Niteliği: Sabit bir boyuta sahiptir ve tüm girdi bilgisini bu tek vektör içinde yoğunlaştırma görevini üstlenir.

Decoder:

Fonksiyonu: Context Vector'ü başlangıç bilgisi olarak kullanarak hedef diziyi (örneğin, hedef dildeki çeviri) ardışıl olarak üretir.

Operasyonu: Genellikle özel bir başlangıç belirteci ( $<s>$ gibi) ve Context Vector ile başlatılır. Her bir zaman adımında, bir önceki adımda üretilen elemanı ve kendi gizli durumunu girdi olarak alarak bir sonraki elemanı tahmin eder. Bu otoregresif (autoregressive) üretim süreci, özel bir bitiş belirtecine ( $</s>$ ) ulaşılana veya önceden tanımlanmış maksimum dizi uzunluğuna erişilene kadar devam eder.

Bu yapı, girdi ve çıktı dizilerinin farklı uzunluklarda olabildiği ve aralarındaki eşlemenin doğrudan olmadığı durumlar için uygun bir çerçeve sunar.

Bilgi Darboğazı (The Bottleneck Problem)

Encoder-Decoder mimarisinin temel kısıtlılığı, tüm girdi dizisi bilgisinin sabit boyutlu tek bir Context Vector'e sıkıştırılması zorunluluğundan kaynaklanır. Girdi dizisinin uzunluğu arttıkça, özellikle dizinin başlangıcındaki bilgilerin bu sıkıştırma sürecinde kaybolma veya temsil gücünü yitirme riski artar. Decoder, yalnızca bu Context Vector'e dayalı olarak çıktı ürettiği için, uzun dizilerdeki yerel veya erken detayları yakalamakta yetersiz kalabilir. Bu durum, literatürde information bottleneck olarak tanımlanmaktadır.

Bu sorunu hafifletmeye yönelik ilk yaklaşımlardan biri, Context Vector'ü Decoder'ın her bir zaman adımında ek bir girdi olarak kullanmaktır. Bu modifikasyon, bağlam bilgisinin çözme süreci boyunca korunmasına yardımcı olsa da, temel bottleneck sorununu tam olarak çözememektedir; zira Context Vector hala tüm girdinin sabit boyutlu bir temsilidir.

Attention Mekanizması: Dinamik Bağlam Seçimi

Attention mekanizması, bottleneck sorununa etkin bir çözüm sunar. Temel prensibi, Decoder'ın her bir çıktı elemanını üretirken, sabit Context Vector'e ek olarak, Encoder'ın ürettiği tüm gizli durumlara erişmesine ve o anki üretim adımı için hangi girdi kısımlarının en relevant (ilişkili) olduğuna dinamik olarak karar vermesine olanak tanımaktır.

Bu mekanizma, Decoder'ın dikkatini girdi dizisinin farklı bölümlerine odaklamasını sağlar, böylece üretilecek çıktı elemanı için en uygun bağlam bilgisini seçebilir.

^{Encoder-Decoder mimarisi ve Attention Mekanizması (Kaynak:}^Medium⁾

Attention Mekanizmasının İşleyişi (Dot-Product Attention Örneği)

Attention, her bir Decoder zaman adımı ( $i$ ) için dinamik bir Context Vector ( $c_i$ ) hesaplar. Bu süreç tipik olarak aşağıdaki adımları içerir:

Skorlama (Alignment Scores)

Decoder'ın bir önceki zaman adımındaki gizli durumu ( $h_{i-1}^d$ ) ile Encoder'ın her bir zaman adımındaki gizli durumu ( $h_j^e, j$ girdi elemanının indeksidir) arasındaki ilişki veya uyum (alignment) bir skor fonksiyonu ile ölçülür.

Yaygın ve basit bir yöntem dot-product'tır: $score(h_{i-1}^d, h_j^e) = h_{i-1}^d ⋅ h_j^e$ .

Bu skorlar, mevcut Decoder durumu için hangi Encoder durumlarının daha önemli olduğunu gösterir.

Ağırlık Hesaplama (Softmax)

Hesaplanan alignment scores, bir softmax fonksiyonu aracılığıyla attention ağırlıklarına ( $a_{ij}$ ) normalize edilir.

$a_{ij} = softmax(score(h_{i-1}^d, h_j^e))$ (Skorların tüm $j$ değerleri üzerinden softmax'ı alınır).

Bu ağırlıklar, [0, 1] aralığında değer alır ve toplamları 1'e eşittir. Her bir $a_{ij}$ değeri, $i$ . çıktı elemanı üretilirken $j$ . girdi elemanına (veya onun temsiline) ne kadar "dikkat" edileceğini belirten bir dağılım oluşturur.

Dinamik Context Vector Hesaplama (Weighted Sum)

Encoder'ın gizli durumları ( $h_j^e$ ), karşılık gelen attention ağırlıkları ( $a_{ij}$ ) ile ağırlıklandırılmış olarak toplanır.

$c_i = Σ_j a_{ij} h_j^e$

Elde edilen $c_i$ vektörü, $i$ . Decoder adımı için dinamik olarak hesaplanmış, girdi dizisinin en relevant kısımlarına odaklanan Context Vector'dür. Yüksek attention ağırlığına sahip Encoder durumları, $c_i$ 'nin oluşumuna daha fazla katkıda bulunur.

Çıktı Üretimi (Decoding)

Hesaplanan dinamik Context Vector ( $c_i$ ), Decoder'ın bir önceki çıktısı ( $y_{i-1}$ ) ve bir önceki gizli durumu ( $h_{i-1}^d$ ) ile birleştirilerek mevcut gizli durum ( $h_i^d$ ) hesaplanır: $h_i^d = g(y_{i-1}, h_{i-1}^d, c_i)$ .

Bu yeni gizli durum ( $h_i^d$ ), mevcut zaman adımının çıktısı olan $y_i$ elemanını tahmin etmek için kullanılır (genellikle bir softmax katmanı aracılığıyla).

Attention Mekanizmasının Avantajları

Bottleneck Sorununun Giderilmesi: Bilgiyi tek bir sabit boyutlu vektöre sıkıştırma zorunluluğunu ortadan kaldırarak bilgi kaybını azaltır.

Performans İyileştirmesi: Özellikle uzun diziler üzerinde çalışan modellerin performansını artırır, zira girdi dizisinin herhangi bir kısmına gerektiğinde erişim sağlar.

Yorumlanabilirlik: Attention ağırlıkları ( $a_{ij}$ ), modelin çıktı üretirken girdinin hangi bölümlerine odaklandığını görselleştirmek ve yorumlamak için kullanılabilir. Bu, modelin karar verme sürecine dair içgörüler sunar.

Esneklik: Dot-product'a ek olarak, öğrenilebilir parametreler içeren daha gelişmiş skorlama fonksiyonları (örneğin, Bilinear/General Attention: $score = h_{t-1}^d W_s h_j^e$ ) kullanılabilir. Bu, modelin farklı veri setleri ve görevler için adaptasyon yeteneğini artırır.

Encoder-Decoder mimarisi, Sequence-to-Sequence görevler için temel bir yapı taşı olmuştur. Ancak, Context Vector kaynaklı bottleneck problemi, performansını sınırlamıştır. Attention mekanizması, Decoder'ın girdi dizisine dinamik olarak odaklanmasını sağlayarak bu sınırlamayı etkin bir şekilde aşmıştır. Bu yenilik, makine çevirisi başta olmak üzere birçok NLP uygulamasında önemli performans artışlarına yol açmış ve Transformer gibi daha modern ve güçlü mimarilerin geliştirilmesine zemin hazırlamıştır. Attention, günümüzdeki state-of-the-art NLP modellerinin ayrılmaz bir parçası haline gelmiştir.