K-Ortalamalar Kümeleme Algoritması

Kaydet

Paylaş

K-Ortalamalar (K-Means) Kümeleme Algoritması, etiketsiz (gözetimsiz) veri noktalarını benzerliklerine göre K adet kümeye (cluster) ayıran, merkez tabanlı ve yinelemeli bir makine öğrenmesi algoritmasıdır. Her veri noktası yalnızca bir kümeye ait olabilir; bu yönüyle "sert (keskin)" bir kümeleme tekniğidir. Gözetimli öğrenmeden farklı olarak, K-Ortalamalar algoritması sınıf etiketlerine ihtiyaç duymaz ve veriler üzerindeki doğal yapıyı keşfetmeyi amaçlar.

Temel Çalışma Prensibi

K-Ortalamalar algoritması, belirlenen K sayıda merkez (centroid) etrafında kümeler oluşturur. Her bir veri noktası, bu merkezlerden kendisine en yakın olana atanır. Küme merkezleri, kendilerine atanan veri noktalarının ortalama değerleri alınarak güncellenir. Bu işlem, merkezler sabitlenene (yakınsama) veya maksimum yineleme sayısına ulaşana kadar devam eder.

Algoritmanın Adımları

Başlangıç: Küme sayısı K belirlenir ve K adet başlangıç küme merkezi seçilir (rastgele veya özel yöntemlerle, örn. k-means++).
Atama Adımı (Beklenti): Her veri noktası, en yakın merkez noktaya (genellikle Öklid mesafesiyle) atanır.
Güncelleme Adımı (Maksimizasyon): Her küme için, kümedeki veri noktalarının ortalaması alınarak yeni merkez noktaları belirlenir.
Yineleme: Atama ve güncelleme adımları merkezler sabit kalana kadar tekrarlanır.

Matematiksel Amaç

K-Ortalamalar, kümeler içindeki toplam hata kareleri toplamını (SSE - Sum of Squared Errors) minimize etmeye çalışır. Bu, her bir veri noktasının ait olduğu kümenin merkezine olan kareli uzaklıklarının toplamıdır:

SSE = i=1∑kx∈Ci∑<svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg><svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg>x−μi<svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg><svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg>2

Burada:

k : Kümelerin sayısı
i : 1’den k’ya kadar giden bir indeks. Her küme için ayrı ayrı işlem yapılmasını sağlar.
Ci : i numaralı küme. İçinde birden fazla veri noktası barındırır.
x∈Ci : Küme içinde yer alan bir veri noktası. Her bir x, çok boyutlu olabilir (örneğin, bir vektör).
μi : i numaralı kümenin merkezi (centroid). O kümedeki tüm x veri noktalarının ortalamasıdır.
<svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg><svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg>x−μi<svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg><svg xmlns="http://www.w3.org/2000/svg" width="0.333em" height="1.200em" viewBox="0 0 333 1200"><path d="M145 15 v585 v0 v585 c2.667,10,9.667,15,21,15 c10,0,16.667,-5,20,-15 v-585 v0 v-585 c-2.667,-10,-9.667,-15,-21,-15 c-10,0,-16.667,5,-20,15z M188 15 H145 v585 v0 v585 h43z"/></svg>2 : Veri noktası x ile kendi küme merkezi μi arasındaki Öklid mesafesinin karesi. Bu mesafe, noktaların kümeye ne kadar “uygun” olduğunu gösterir.

Avantajları

Basit ve anlaşılır: Uygulaması kolaydır.
Hızlıdır: Özellikle büyük veri kümelerinde yüksek performans sağlar.
Ölçeklenebilirdir: Yüksek boyutlu verilerde de çalışabilir.

Dezavantajları

Başlangıca duyarlılık: Rastgele başlatma, farklı sonuçlar doğurabilir.
K değeri bilinmelidir: Küme sayısı önceden verilmelidir.
Aykırı değerlere hassas: Ortalama ile çalıştığı için uç değerler sonuçları etkileyebilir.
Kümelerin şekli ve yoğunluğu sınırlıdır: Küre şeklindeki kümelerde daha iyi çalışır.

Optimizasyon Yöntemleri

1. Küme Sayısının Belirlenmesi

Dirsek Yöntemi (Elbow Method): Her K değeri için SSE hesaplanır. Grafik üzerinde dirsek (bükülme) noktası optimum K'yı gösterir.
Silüet Analizi: Her bir veri noktasının kendi kümesine olan benzerliği ile diğer kümelere olan benzerliğinin farkını ölçerek küme kalitesini değerlendirir.

2. Başlangıç Noktalarının Seçilmesi

k-means++: Daha iyi başlangıç merkezleri seçerek daha kararlı ve kaliteli sonuçlar elde edilmesini sağlar. Her yeni merkez, mevcut merkezlere uzaklığına bağlı olasılıklarla seçilir.

Küme Kalitesi Ölçütleri

Eylemsizlik (Inertia): Küme içi toplam mesafe. Ne kadar düşükse, kümeler o kadar kompakt demektir.
Dunn İndeksi: Kümeler arası minimum mesafe / küme içi maksimum mesafe oranıdır. Ne kadar yüksekse, kümeler birbirinden o kadar ayrıdır.

Uygulama Alanları

Müşteri Segmentasyonu: Pazarlama stratejileri için benzer müşteri gruplarının oluşturulması.
Belge Kümelemesi: Haber veya makalelerin konu bazlı sınıflandırılması.
Görüntü Segmentasyonu: Görsellerin bölgelere ayrılması, örneğin tıbbi görüntülerde doku analizi.
Öneri Sistemleri: Kullanıcı tercihlerini analiz ederek öneriler sunma.
Veri Sıkıştırma: Görüntü verilerinin azaltılarak temsil edilmesi.

Alternatifler ve Geliştirmeler

Gaussian Mixture Models (GMM): Olasılıksal kümeleme yöntemi, her veri noktasının birden çok kümeye ait olma olasılığını içerir.
Hiyerarşik Kümeleme: Ağaç yapısıyla kümeleri alt gruplara ayırır.
DBSCAN: Yoğunluk temelli bir kümeleme yöntemidir, aykırı değerlere daha dayanıklıdır.

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

YazarYağmur Nur Küçükarslan22 Haziran 2025 16:02

Etiketler

#K-Ortalamalar #K-Otalama #Dirsek Yöntemi #SSE #K-Means #Kümeleme #Gözetimsiz öğrenme

Tartışmalar

Henüz Tartışma Girilmemiştir

"K-Ortalamalar Kümeleme Algoritması" maddesi için tartışma başlatın

Tartışmaları Görüntüle

İçindekiler

Temel Çalışma Prensibi
Algoritmanın Adımları
Matematiksel Amaç
Avantajları
Dezavantajları
Optimizasyon Yöntemleri
- 1. Küme Sayısının Belirlenmesi
- 2. Başlangıç Noktalarının Seçilmesi
Küme Kalitesi Ölçütleri
Uygulama Alanları
Alternatifler ve Geliştirmeler

Bu madde yapay zeka desteği ile üretilmiştir.