Bilgisayarlı görü, makinelerin ve bilgisayarların görsel veriyi algılaması, analiz etmesi ve yorumlaması sürecine verilen isimdir. Bu alan, görüntü işleme, makine öğrenmesi, örüntü tanıma, yapay zekâ ve istatistiksel analiz tekniklerinin birleşimini içerir. İnsan görsel sistemini model alma amacıyla başlayan bilgisayarlı görü çalışmaları, günümüzde otonom araçlardan sağlık teknolojilerine kadar birçok sektörde kritik rol oynamaktadır.
Tanım ve Tarihçe
Bilgisayarlı görü, görsel veriyi sayısal biçimde yorumlama bilimi olarak tanımlanır. 1960’lı yıllarda MIT’de yürütülen erken dönem çalışmalarda, bilgisayarların temel geometrik şekilleri tanıması hedeflenmiştir.
Zamanla gelişen teknolojiyle birlikte bu alan büyük evrim geçirmiştir:
- 1980’ler: Kenar belirleme (edge detection), Hough dönüşümü gibi temel görüntü işleme teknikleri geliştirildi.
- 1990’lar: Nesne tanıma ve sahne analizine odaklanan sistemler yaygınlaştı.
- 2000’ler: Makine öğrenmesi temelli yöntemler ön plana çıktı.
- 2010 ve sonrası: Derin öğrenme tekniklerinin yükselişiyle birlikte bilgisayarlı görü devrimsel bir dönüşüm geçirdi.
Görüntü İşlemenin Temel Aşamaları
Bilgisayarlı görü sistemleri, genellikle aşağıdaki sıralı adımlardan oluşan bir görüntü işleme süreci üzerine kuruludur:
Ön İşleme (Pre-processing)
Ham görüntü verisinin daha sağlıklı işlenebilmesi için çeşitli işlemler uygulanır:
- Gürültü giderme (örn. Gaussian blur, median filter)
- Görüntü boyutlandırma ve normalize etme
- Renk uzayı dönüşümleri (RGB → Grayscale, HSV)
Özellik Çıkarımı (Feature Extraction)
Görüntüdeki ayırt edici yapılar belirlenerek sonraki aşamalara temel oluşturulur:
- Kenar tespiti (Canny, Sobel)
- Köşe tespiti (Harris, Shi-Tomasi)
- HOG (Histogram of Oriented Gradients)
- SIFT, SURF gibi ölçek uzayı teknikleri
Segmentasyon
Görüntü, anlamlı bölgelere ayrılır. Bu adım, özellikle sahne analizi ve medikal görüntüleme gibi alanlarda kritik öneme sahiptir:
- Thresholding
- Watershed, GrabCut gibi bölütleme algoritmaları
- Derin öğrenme tabanlı semantik segmentasyon (U-Net, DeepLab)
Nesne Tespiti (Object Detection)
Görüntüdeki nesnelerin konumları belirlenir ve sınırlayıcı kutular (bounding box) ile işaretlenir:
- Geleneksel: Haar cascades
- Derin öğrenme tabanlı: YOLO, SSD, Faster RCNN, Mask RCNN
Sınıflandırma (Classification)
Tespit edilen nesnelerin hangi sınıfa ait olduğu belirlenir:
- CNN tabanlı mimariler: VGGNet, ResNet, MobileNet
Nesne Takibi (Object Tracking)
Zamansal görüntü dizilerinde nesnelerin hareketleri izlenir:
- Geleneksel: Kalman filtresi, Mean-Shift
- Derin öğrenme tabanlı: SORT, DeepSORT
Görüntü Anlamlandırma ve Örüntü Tanıma
Bilgisayarlı görü sistemleri yalnızca nesneleri tanımakla kalmaz, aynı zamanda sahnedeki ilişkileri, anlamları ve bağlamsal bilgileri de analiz etmeye çalışır:
- Görüntü açıklama (image captioning)
- Görüntüden hikâye üretimi
- Görüntü-metin eşleştirmesi (OpenAI CLIP gibi)
Derin Öğrenme Tabanlı Bilgisayarlı Görü
Evrişimsel Sinir Ağları (CNN)
Görüntü işleme için özel olarak tasarlanmış sinir ağı mimarileridir:
- Temel yapı: Conv + ReLU + Pool + FC
- Önemli mimariler: AlexNet, VGG, ResNet
Transfer Öğrenme
Büyük veri setleri üzerinde eğitilmiş modellerin farklı alanlara adapte edilmesidir:
- Örnek: ImageNet üzerinde eğitilmiş bir modelin medikal görüntülerle yeniden eğitilmesi
Üretici Modeller (Generative Models)
Görüntü üretimi ve veri artırımı amacıyla kullanılan modeller:
- GAN’lar (Generative Adversarial Networks)
- Süper çözünürlük (super-resolution) ve görüntü sentezi
Uygulama Alanları
Bilgisayarlı görü, birçok sektörde devrim yaratacak uygulamalara zemin hazırlamaktadır:
- Sağlık: Radyoloji ve patoloji gibi alanlarda otomatik görüntü analizi
- Otomotiv: Otonom sürüşte şerit takibi, engel algılama
- Güvenlik: Yüz tanıma sistemleri, anormal davranış tespiti
- Tarım: Ürün sayımı, bitki hastalığı analizi
- Endüstri: Üretim hatlarında kalite kontrol ve hata tespiti
Karşılaşılan Zorluklar
Bilgisayarlı görü uygulamalarında karşılaşılan başlıca zorluklar:
- Aydınlatma koşullarındaki değişkenlik
- Görüntü kalitesi ve çözünürlük sorunları
- Veri etiketleme süreçlerinin maliyetli ve hataya açık olması
- Gerçek zamanlı işlem ihtiyacı
- Modelin açıklanabilirliği ve güvenilirliği
Matematiksel Temeller
Bilgisayarlı görü sistemleri şu temel matematiksel altyapılara dayanır:
- Lineer Cebir: Konvolüsyon işlemleri, matris dönüşümleri
- Olasılık ve İstatistik: Bayes karar teorisi, istatistiksel modelleme
- Optimizasyon: Gradyan inişi, kayıp fonksiyonu minimizasyonu
- Fourier Analizi: Frekans temelli görüntü analizi

