Karar Ağaçları (Decision Trees)

fav gif
Kaydet
kure star outline

Karar ağaçları (Decision Trees), veriyi dallara ayırarak sınıflandırma (classification) ve regresyon (regression) problemlerini çözmeye yarayan bir makine öğrenmesi yöntemidir. Ağaç tabanlı öğrenme modellerinin temelini oluşturur ve Random Forest ve XGBoost gibi gelişmiş modeller bu prensiplere dayanır.

Karar Ağaçlarının Temel Yapısı

Karar ağaçları, hiyerarşik bir yapı kullanarak veriyi belirli kurallar çerçevesinde bölerek sınıflandırma veya tahmin yapar. Ağaç yapısı şu temel bileşenlerden oluşur:

Kök Düğüm (Root Node)

  • Ağacın en üst seviyesindeki düğümdür.
  • Verinin en iyi şekilde bölünmesini sağlayacak değişken seçilir.

İç Düğümler (Internal Nodes)

  • Veriyi belirli kriterlere göre iki veya daha fazla alt gruba ayıran düğümlerdir.
  • Her iç düğüm, belirli bir bölünme kriteri kullanarak veriyi parçalar.

Yaprak Düğümler (Leaf Nodes)

  • Daha fazla bölünemeyen ve nihai tahmini/sınıflandırmayı içeren düğümlerdir.
  • Regresyon problemlerinde bir tahmin değeri, sınıflandırma problemlerinde bir kategori içerir.

Dallanma (Branching)

  • Kök düğümden yaprak düğümlere kadar olan bağlantıları oluşturur.

Karar Ağaçlarının Çalışma Prensibi

Karar ağaçları, böl ve yönet (divide and conquer) prensibini kullanarak çalışır. Bir ağaç oluşturma süreci şu adımlardan oluşur:

En İyi Bölünme Kriterini Belirleme

  • Karar ağaçları, veriyi bölmek için en iyi değişkeni (feature) ve en iyi eşik değerini (threshold) belirlemeye çalışır.
  • Bu aşamada bilgi kazancı (information gain), Gini katsayısı (Gini impurity) veya varyans azalımı (variance reduction) gibi metrikler kullanılır.

Sınıflandırma Problemleri için Bölünme Kriterleri

Gini Katsayısı (Gini Impurity):

  • Düğüme gelen verinin ne kadar saf (homojen) olduğunu ölçer.
  • Küçük bir Gini değeri, düğümdeki örneklerin çoğunun aynı sınıfa ait olduğunu gösterir.
  • Gini Hesaplama Formülü:
  • Burada pi​, i sınıfına ait örneklerin oranıdır.

Bilgi Kazancı (Information Gain) - Entropi:

  • Düğümdeki bilgi düzensizliği (entropy) ölçülerek bölünmenin kalitesi değerlendirilir.
  • Entropi Hesaplama Formülü:



• Bilgi kazancı, bölünmeden önceki ve sonraki entropi farkı ile hesaplanır:


• Entropi değeri düşük olan bölünmeler tercih edilir.

Regresyon Problemleri için Bölünme Kriteri

Varyans Azalımı (Variance Reduction):

    Karar Ağacı ile Overfitting Sorunu ve Çözümleri

    Overfitting karar ağacı modelleri ve diğer pek çok tahmin modeli için önemli bir sorundur. Öğrenme algoritması etkileyecek şekilde eğitim seti hatalarını azaltmaya devam edildiğinde overfitting olur. Bir karar ağaç inşasında overfitting’ten kaçınmak için genelde iki yaklaşım kullanılır;

    • Pre-pruning: Sınırlandırma işleminde önce ağacın büyümesini durdurmak.
    • Post-pruning: öncelikle tüm ağacı oluşturup daha sonra ağaçtaki gereksiz kısımları çıkarmak.


    Uygulamada ne zaman pruning (budama) işleminin yapılacağını belirlemedeki zorluk sebebiyle ilk yaklaşım pek kullanılmaz. İkinci yaklaşım çok daha başarılıdır. Bu yaklaşım aşağıdaki adımlara dikkat edilmelidir:

     

    • Budama işlemine karar vermek için eğitim verisinden farklı bir veri seti kullanmak. Bu veri setine doğrulama veri seti (validation dataset) denir. Validation dataset gereksiz düğümlere karar vermek için kullanılır.
    • Bir karar ağacı elde ettikten sonra, hata tahmini (error estimation) ve önem testi (Significance testing – Chi Square Testing) gibi istatiksel metotlar kullanarak eğitim verisi üzerinde budama ve genişleme (expanding – ağaça yeni node’lar ekleme) olup olmayacağına karar verilir.
    • Minimum Description Length principle: karar ağacı ile eğitim veri seti arasında bir ölçüdür. Boyut(tree) + Boyut(sınıflanamayan(tree)) minimize olduğunda ağaç büyümesini durdurma.

    Avantajlar ve Dezavantajlar

    Avantajlar

    Kolay Anlaşılır ve Yorumlanabilir

      Veri Ön İşleme Gereksinimi Azdır

        Öznitelik Seçimi ve Önem Sıralaması

          Hızlı ve Hesaplama Maliyeti Düşük

            Kural Tabanlı Kararlar Üretebilir

              Dezavantajlar

              Aşırı Öğrenme (Overfitting) Riski

                Gürültüye ve Küçük Veri Değişikliklerine Hassasiyet

                  Dengesiz Veri Setlerinde Zayıf Performans

                    Büyük Veri Setleri İçin Verimsiz Olabilir

                      Kesikli ve Sürekli Değişkenlerde Kararsızlık

                        Sen de Değerlendir!

                        0 Değerlendirme

                        Yazar Bilgileri

                        Avatar
                        YazarKübra Merk19 Mart 2025 21:53

                        Tartışmalar

                        Henüz Tartışma Girilmemiştir

                        "Karar Ağaçları (Decision Trees)" maddesi için tartışma başlatın

                        Tartışmaları Görüntüle

                        İçindekiler

                        • Karar Ağaçlarının Temel Yapısı

                          • Kök Düğüm (Root Node)

                          • İç Düğümler (Internal Nodes)

                          • Yaprak Düğümler (Leaf Nodes)

                          • Dallanma (Branching)

                        • Karar Ağaçlarının Çalışma Prensibi

                          • En İyi Bölünme Kriterini Belirleme

                            • Sınıflandırma Problemleri için Bölünme Kriterleri

                          • Bilgi Kazancı (Information Gain) - Entropi:

                            • Regresyon Problemleri için Bölünme Kriteri

                        • Karar Ağacı ile Overfitting Sorunu ve Çözümleri

                        • Avantajlar ve Dezavantajlar

                          • Avantajlar

                          • Dezavantajlar

                        KÜRE'ye Sor