Ai badge logo

Bu madde yapay zeka desteği ile üretilmiştir.

DETR

Makine, Robotik Ve Mekatronik+2 Daha
fav gif
Kaydet
kure star outline

Detection Transformer (DETR), 2020 yılında Facebook AI tarafından geliştirilmiş, nesne tespiti görevlerinde uçtan uca (end-to-end) öğrenme yaklaşımını benimseyen yenilikçi bir yapay zeka modelidir. DETR, geleneksel nesne algılama yöntemlerinden farklı olarak, görüntüdeki nesnelerin konumlarını ve sınıflarını tahmin etmek için Transformer mimarisini merkezine alan ilk modeldir.


DETR örnek şema (Medium)

Arka Plan

Geleneksel nesne algılama sistemleri genellikle çok aşamalı bir işleme hattı (pipeline) içerir. Bu aşamalar arasında, özellik çıkarımı, bölge önerisi, sınıflandırma ve konum iyileştirme gibi süreçler bulunur. Bu sistemlerde genellikle CNN (Convolutional Neural Network) mimarileri kullanılır ve Non-Maximum Suppression (NMS) gibi özel işleme adımları gerekir.


DETR ise bu klasik iş akışını sadeleştirerek, yalnızca bir CNN ve bir Transformer mimarisiyle uçtan uca bir çözüm sunar. Bu sayede, bağımsız aşamalara ve el yapımı kurallara olan ihtiyacı ortadan kaldırır.

Mimari Bileşenler

DETR mimarisi üç temel bileşenden oluşur:


CNN tabanlı özellik çıkarımı: Genellikle ResNet gibi bir evrişimli sinir ağı, görüntüden düşük boyutlu ancak anlamlı özellik haritaları üretir.

Transformer kodlayıcı-kod çözücü yapısı: Transformer modülü, bu özellik haritalarını işler. Kodlayıcı, girdiyi anlamlı vektör temsillerine dönüştürürken; kod çözücü, bu temsilleri "nesne sorguları" aracılığıyla değerlendirerek nesne tespiti yapar.

FFN (Feed-Forward Network): Kod çözücünün çıktıları, her nesne için bir sınıf etiketi ve konum kutusu (bounding box) tahminine dönüştürülür.


Örnek şema (Medium)

Transformer Mimarisi

DETR'nin merkezinde yer alan Transformer mimarisi, 2017 yılında Vaswani ve arkadaşları tarafından geliştirilen “Attention is All You Need” başlıklı çalışmadan ilham alır. Transformer; self-attention, multi-head attention ve ileri beslemeli (feed-forward) ağ katmanları ile çalışır. DETR, bu yapıyı görüntü tabanlı görevlerde kullanan ilk başarılı uygulamalardan biridir.

Çalışma Prensibi

DETR, belirli sayıda öğrenilmiş "nesne sorgusu" üretir ve her bir sorgu, görüntüdeki potansiyel bir nesneyi temsil eder. Model, bu sorgular üzerinden paralel şekilde tüm nesne tahminlerini gerçekleştirir. Sınıf ve kutu eşleşmeleri, Macar algoritması kullanılarak gerçekleştirilir. Böylece, gereksiz tahminleri ve tekrarları engelleyen bir eşleştirme stratejisi uygulanmış olur.

Macar algoritması (Medium)

Bu sayede, Non-Maximum Suppression (NMS) gibi klasik filtreleme işlemlerine ihtiyaç kalmaz. Model, her tahmini doğrudan bir nesneye (veya boş sınıfa) atar.

Kayıp Fonksiyonu

DETR, sınıf tahmini ve kutu konumu tahmini olmak üzere iki ana bileşenden oluşan bir kayıp fonksiyonu kullanır. Modelin tahminleri ile gerçek nesneler arasındaki eşleşmeler sonucunda, toplam kayıp değeri minimize edilmeye çalışılır. Bu kayıp hesaplaması sırasında "nesne yok" sınıfı için özel düzenlemeler yapılır, böylece sınıf dengesizliği minimize edilir.

Avantajları ve Yenilikleri

End-to-end öğrenme: DETR, tüm nesne tespit sürecini tek bir modelle gerçekleştirerek iş akışını sadeleştirir.

Genelleme yeteneği: Karmaşık işlemlere ihtiyaç duymadan farklı veri setlerine kolayca adapte olabilir.

Transformer'ın avantajları: Uzun menzilli bağımlılıkları öğrenme ve paralel işlem yapabilme yeteneği sağlar.

NMS ihtiyacını ortadan kaldırır: Tahminlerin doğrudan nesnelerle eşleştirilmesi sayesinde filtreleme gerekmez.

Kısıtlamalar

DETR, küçük nesnelerin tespitinde klasik yaklaşımlara kıyasla daha yavaş öğrenebilir. Eğitim süresi oldukça uzundur ve büyük veri setlerine ihtiyaç duyar. Ayrıca gerçek zamanlı uygulamalarda kullanımını sınırlayan gecikmeler yaşanabilir.


DETR, nesne algılama alanında paradigmayı değiştiren, Transformer mimarisini başarıyla uygulayan öncü bir çalışmadır. Geleneksel yöntemlerin sınırlamalarını aşarak, daha yalın ve genel bir çözüm sunar. Bilgisayarla görü ve yapay zeka alanlarında yeni nesil detektörlerin yolunu açan önemli bir yapıtaşı olarak kabul edilmektedir.

Kaynakça

Edgün, Büşra. “Yapay Zeka ile Nesne Tespitinde Yeni Bir Dönem: DETR’ın Yükselişi.” Medium. 14 Mart 2024. Erişim tarihi: 21.04.2025. https://medium.com/@busra.edgn/yapay-zeka-ile-nesne-tespitinde-yeni-bir-d%C3%B6nem-detr%C4%B1n-y%C3%BCkseli%C5%9Fi-ac7476d7dc84.


Facebook AI Research. End-to-End Object Detection with Transformers (DETR). GitHub repository. Erişim tarihi: 21.04.2025. https://github.com/facebookresearch/detr.


Vision Wizard. “DETR.” Medium. 3 Ağustos 2020. Erişim tarihi: 21.04.2025. https://medium.com/visionwizard/detr-b677c7016a47.

Ayrıca Bakınız

Yazarın Önerileri

Büyük Dil Modeli(LLM)
GPT (Generative Pre-trained Transformer) MimarisiGP
BERT (Bidirectional Encoder Representations from Transformers)BE
Transformer MimarisiTr

Transformer Mimarisi

Elektrik Ve Elektronik +1

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
YazarBeyza Nur Aciyan21 Nisan 2025 15:45

İçindekiler

  • Arka Plan

  • Mimari Bileşenler

  • Transformer Mimarisi

  • Çalışma Prensibi

  • Kayıp Fonksiyonu

  • Avantajları ve Yenilikleri

  • Kısıtlamalar

Tartışmalar

Henüz Tartışma Girilmemiştir

"DETR" maddesi için tartışma başlatın

Tartışmaları Görüntüle
KÜRE'ye Sor