K-Ortalamalar (K-Means) Kümeleme Algoritması, etiketsiz (gözetimsiz) veri noktalarını benzerliklerine göre K adet kümeye (cluster) ayıran, merkez tabanlı ve yinelemeli bir makine öğrenmesi algoritmasıdır. Her veri noktası yalnızca bir kümeye ait olabilir; bu yönüyle "sert (keskin)" bir kümeleme tekniğidir. Gözetimli öğrenmeden farklı olarak, K-Ortalamalar algoritması sınıf etiketlerine ihtiyaç duymaz ve veriler üzerindeki doğal yapıyı keşfetmeyi amaçlar.
Temel Çalışma Prensibi
K-Ortalamalar algoritması, belirlenen K sayıda merkez (centroid) etrafında kümeler oluşturur. Her bir veri noktası, bu merkezlerden kendisine en yakın olana atanır. Küme merkezleri, kendilerine atanan veri noktalarının ortalama değerleri alınarak güncellenir. Bu işlem, merkezler sabitlenene (yakınsama) veya maksimum yineleme sayısına ulaşana kadar devam eder.
Algoritmanın Adımları
- Başlangıç: Küme sayısı K belirlenir ve K adet başlangıç küme merkezi seçilir (rastgele veya özel yöntemlerle, örn. k-means++).
- Atama Adımı (Beklenti): Her veri noktası, en yakın merkez noktaya (genellikle Öklid mesafesiyle) atanır.
- Güncelleme Adımı (Maksimizasyon): Her küme için, kümedeki veri noktalarının ortalaması alınarak yeni merkez noktaları belirlenir.
- Yineleme: Atama ve güncelleme adımları merkezler sabit kalana kadar tekrarlanır.
Matematiksel Amaç
K-Ortalamalar, kümeler içindeki toplam hata kareleri toplamını (SSE - Sum of Squared Errors) minimize etmeye çalışır. Bu, her bir veri noktasının ait olduğu kümenin merkezine olan kareli uzaklıklarının toplamıdır:
SSE =
Burada:
- k : Kümelerin sayısı
- i : 1’den k’ya kadar giden bir indeks. Her küme için ayrı ayrı işlem yapılmasını sağlar.
- : i numaralı küme. İçinde birden fazla veri noktası barındırır.
- : Küme içinde yer alan bir veri noktası. Her bir x, çok boyutlu olabilir (örneğin, bir vektör).
- : i numaralı kümenin merkezi (centroid). O kümedeki tüm x veri noktalarının ortalamasıdır.
- : Veri noktası x ile kendi küme merkezi arasındaki Öklid mesafesinin karesi. Bu mesafe, noktaların kümeye ne kadar “uygun” olduğunu gösterir.
K-Ortalamalar Algoritması Tasviri (Yapay zekâ ile oluşturulmuştur.)
Avantajları
- Basit ve anlaşılır: Uygulaması kolaydır.
- Hızlıdır: Özellikle büyük veri kümelerinde yüksek performans sağlar.
- Ölçeklenebilirdir: Yüksek boyutlu verilerde de çalışabilir.
Dezavantajları
- Başlangıca duyarlılık: Rastgele başlatma, farklı sonuçlar doğurabilir.
- K değeri bilinmelidir: Küme sayısı önceden verilmelidir.
- Aykırı değerlere hassas: Ortalama ile çalıştığı için uç değerler sonuçları etkileyebilir.
- Kümelerin şekli ve yoğunluğu sınırlıdır: Küre şeklindeki kümelerde daha iyi çalışır.
Optimizasyon Yöntemleri
1. Küme Sayısının Belirlenmesi
- Dirsek Yöntemi (Elbow Method): Her K değeri için SSE hesaplanır. Grafik üzerinde dirsek (bükülme) noktası optimum K'yı gösterir.
- Silüet Analizi: Her bir veri noktasının kendi kümesine olan benzerliği ile diğer kümelere olan benzerliğinin farkını ölçerek küme kalitesini değerlendirir.
2. Başlangıç Noktalarının Seçilmesi
- k-means++: Daha iyi başlangıç merkezleri seçerek daha kararlı ve kaliteli sonuçlar elde edilmesini sağlar. Her yeni merkez, mevcut merkezlere uzaklığına bağlı olasılıklarla seçilir.
Küme Kalitesi Ölçütleri
- Eylemsizlik (Inertia): Küme içi toplam mesafe. Ne kadar düşükse, kümeler o kadar kompakt demektir.
- Dunn İndeksi: Kümeler arası minimum mesafe / küme içi maksimum mesafe oranıdır. Ne kadar yüksekse, kümeler birbirinden o kadar ayrıdır.
Uygulama Alanları
- Müşteri Segmentasyonu: Pazarlama stratejileri için benzer müşteri gruplarının oluşturulması.
- Belge Kümelemesi: Haber veya makalelerin konu bazlı sınıflandırılması.
- Görüntü Segmentasyonu: Görsellerin bölgelere ayrılması, örneğin tıbbi görüntülerde doku analizi.
- Öneri Sistemleri: Kullanıcı tercihlerini analiz ederek öneriler sunma.
- Veri Sıkıştırma: Görüntü verilerinin azaltılarak temsil edilmesi.
Alternatifler ve Geliştirmeler
- Gaussian Mixture Models (GMM): Olasılıksal kümeleme yöntemi, her veri noktasının birden çok kümeye ait olma olasılığını içerir.
- Hiyerarşik Kümeleme: Ağaç yapısıyla kümeleri alt gruplara ayırır.
- DBSCAN: Yoğunluk temelli bir kümeleme yöntemidir, aykırı değerlere daha dayanıklıdır.