Detection Transformer (DETR), 2020 yılında Facebook AI tarafından geliştirilmiş, nesne tespiti görevlerinde uçtan uca (end-to-end) öğrenme yaklaşımını benimseyen yenilikçi bir yapay zeka modelidir. DETR, geleneksel nesne algılama yöntemlerinden farklı olarak, görüntüdeki nesnelerin konumlarını ve sınıflarını tahmin etmek için Transformer mimarisini merkezine alan ilk modeldir.

DETR örnek şema (Medium)
Arka Plan
Geleneksel nesne algılama sistemleri genellikle çok aşamalı bir işleme hattı (pipeline) içerir. Bu aşamalar arasında, özellik çıkarımı, bölge önerisi, sınıflandırma ve konum iyileştirme gibi süreçler bulunur. Bu sistemlerde genellikle CNN (Convolutional Neural Network) mimarileri kullanılır ve Non-Maximum Suppression (NMS) gibi özel işleme adımları gerekir.
DETR ise bu klasik iş akışını sadeleştirerek, yalnızca bir CNN ve bir Transformer mimarisiyle uçtan uca bir çözüm sunar. Bu sayede, bağımsız aşamalara ve el yapımı kurallara olan ihtiyacı ortadan kaldırır.
Mimari Bileşenler
DETR mimarisi üç temel bileşenden oluşur:
CNN tabanlı özellik çıkarımı: Genellikle ResNet gibi bir evrişimli sinir ağı, görüntüden düşük boyutlu ancak anlamlı özellik haritaları üretir.
Transformer kodlayıcı-kod çözücü yapısı: Transformer modülü, bu özellik haritalarını işler. Kodlayıcı, girdiyi anlamlı vektör temsillerine dönüştürürken; kod çözücü, bu temsilleri "nesne sorguları" aracılığıyla değerlendirerek nesne tespiti yapar.
FFN (Feed-Forward Network): Kod çözücünün çıktıları, her nesne için bir sınıf etiketi ve konum kutusu (bounding box) tahminine dönüştürülür.

Örnek şema (Medium)
Transformer Mimarisi
DETR'nin merkezinde yer alan Transformer mimarisi, 2017 yılında Vaswani ve arkadaşları tarafından geliştirilen “Attention is All You Need” başlıklı çalışmadan ilham alır. Transformer; self-attention, multi-head attention ve ileri beslemeli (feed-forward) ağ katmanları ile çalışır. DETR, bu yapıyı görüntü tabanlı görevlerde kullanan ilk başarılı uygulamalardan biridir.
Çalışma Prensibi
DETR, belirli sayıda öğrenilmiş "nesne sorgusu" üretir ve her bir sorgu, görüntüdeki potansiyel bir nesneyi temsil eder. Model, bu sorgular üzerinden paralel şekilde tüm nesne tahminlerini gerçekleştirir. Sınıf ve kutu eşleşmeleri, Macar algoritması kullanılarak gerçekleştirilir. Böylece, gereksiz tahminleri ve tekrarları engelleyen bir eşleştirme stratejisi uygulanmış olur.

Macar algoritması (Medium)
Bu sayede, Non-Maximum Suppression (NMS) gibi klasik filtreleme işlemlerine ihtiyaç kalmaz. Model, her tahmini doğrudan bir nesneye (veya boş sınıfa) atar.
Kayıp Fonksiyonu
DETR, sınıf tahmini ve kutu konumu tahmini olmak üzere iki ana bileşenden oluşan bir kayıp fonksiyonu kullanır. Modelin tahminleri ile gerçek nesneler arasındaki eşleşmeler sonucunda, toplam kayıp değeri minimize edilmeye çalışılır. Bu kayıp hesaplaması sırasında "nesne yok" sınıfı için özel düzenlemeler yapılır, böylece sınıf dengesizliği minimize edilir.
Avantajları ve Yenilikleri
End-to-end öğrenme: DETR, tüm nesne tespit sürecini tek bir modelle gerçekleştirerek iş akışını sadeleştirir.
Genelleme yeteneği: Karmaşık işlemlere ihtiyaç duymadan farklı veri setlerine kolayca adapte olabilir.
Transformer'ın avantajları: Uzun menzilli bağımlılıkları öğrenme ve paralel işlem yapabilme yeteneği sağlar.
NMS ihtiyacını ortadan kaldırır: Tahminlerin doğrudan nesnelerle eşleştirilmesi sayesinde filtreleme gerekmez.
Kısıtlamalar
DETR, küçük nesnelerin tespitinde klasik yaklaşımlara kıyasla daha yavaş öğrenebilir. Eğitim süresi oldukça uzundur ve büyük veri setlerine ihtiyaç duyar. Ayrıca gerçek zamanlı uygulamalarda kullanımını sınırlayan gecikmeler yaşanabilir.
DETR, nesne algılama alanında paradigmayı değiştiren, Transformer mimarisini başarıyla uygulayan öncü bir çalışmadır. Geleneksel yöntemlerin sınırlamalarını aşarak, daha yalın ve genel bir çözüm sunar. Bilgisayarla görü ve yapay zeka alanlarında yeni nesil detektörlerin yolunu açan önemli bir yapıtaşı olarak kabul edilmektedir.

