Bayesçi istatistik (Bayesian statistics), olasılıkları ve belirsizlikleri modellemek için Bayes Teoremini temel alan bir istatistik dalı olarak tanımlanmaktadır. Klasik istatistikten farklı olarak, var olan bilgileri (öncül olasılık) yeni elde edilen verilerle güncelleyerek daha iyi sonuç verebilecek tahminlerde bulunmayı amaçlamaktadır.
Thomas Bayes (1701-1761), İngiliz bir matematikçidir. İstatistik ve olasılık teorisine yaptığı katkılarla tanınmakta olup, kendi adıyla anılan Bayes Teoremi sayesinde modern istatistikte büyük bir etki bırakmıştır. Bayes’in bu teoremi içeren çalışması, "An Essay Towards Solving a Problem in the Doctrine of Chances" (Şans Doktrinindeki Bir Problemi Çözmeye Yönelik Deneme) adlı makalesi, ölümü sonrasında arkadaşı Richard Price tarafından 1763 yılında yayımlandığı bilinmektedir.
Bayes Teoremi hususunda hesaplama yöntemi ve gerekli açıklamalar aşağıda yer almaktadır.
- P(H∣D) = [P(D∣H) * P(H)] / P(D)
- P(H∣D) : Sonuç olasılığını ifade etmektedir. Yeni veriler gözlemlendikten sonra hipotezin olasılığı anlamına gelmektedir.
- P(D∣H) : Hipotez doğru olduğunda, eldeki verilerin gerçekleşme olasılığıdır.
- P(H) : Hipotezle ilgili önceden sahip olunan bilginin olasılığı olarak tanımlanmaktadır.
- P(D) : Verinin herhangi bir hipotez altında gerçekleşme olasılığını ifade etmektedir.
Naive Bayes: Teorem bir rassal değişken için olasılık dağılımı içinde koşullu olasılıklar ile marjinal olasılıklar arasındaki ilişkiyi göstermektedir. Algoritma bir eleman için her durumun olasılığını hesaplamakta ve olasılık değerinin en yüksek olduğu duruma göre sınıflandırma yapmayı hedeflemektedir.
Kullanım Alanları
Bayes Teoremi, birbirinden farklı birçok alanda kullanılmaktadır. Özellikle, karar destek sistemleri ve tahminleme çalışmalarında değerlendirilen teoremin farklı alanlarda farklı hususlardaki örnek kullanım alanları maddeler halinde yer almaktadır.
- Makine Öğrenimi ve Yapay Zeka
- Naive Bayes sınıflandırma algoritmaları kapsamında veri madenciliği
- Bayes ağları ile karar destek sistemleri
- Tahminleme modelleri
- Sağlık ve Tıp
- Hastalık teşhisinde ve belirli semptomlara dayanarak bir hastalığın olasılığını hesaplama
- Klinik deneylerde, tedavilerin etkinliğini değerlendirme hususlarında
- Ekonomi ve Finans
- Piyasaların gelecekteki hareketlerini tahmin etme
- Risk analizi ve portföy yönetimi
- Siber Güvenlik
- Saldırı tespit sistemlerinde anomali analizi
- Şifre kırma ve kimlik doğrulama süreçlerinde olasılık modelleme
- Dil İşleme ve Çeviri Sistemleri
- Konuşma tanıma ve otomatik çeviri algoritmalarında kullanılır
Olasılık İntegral Dönüşümü
Olasılık İntegral Dönüşümü (Probability Integral Transform), rastgele değişkenleri belirli bir dağılıma dönüştürmek için kullanılan önemli bir istatistiksel tekniktir. Özellikle rastgele sayı üretme, hipotez testleri ve istatistiksel modellemelerde kullanılmaktadır.
Dönüşüm kapsamında, eşdeğer bir değerler kümesi oluşturmak için uygulanır ve daha sonra oluşturulan yeni veri kümesi için standart bir dağılımın uygun olup olmadığına dair bir test yapılmaktadır.
Dönüşümün ikinci bir kullanımı, çok değişkenli veri setleri üzerinde değişkenlerin standart dağılımlara sahip olduğu ortak bir dağılımla çalışılarak karmaşıklığın azaltılmasını sağlamakta kullanılır.
Üçüncü kullanım, olasılık integral dönüşümünün tersinin, rastgele değişkenleri tekdüze bir dağılımdan seçili bir dağılıma dönüştürmek için uygulanmasına dayanmaktadır.
Örnek Tablo
Makine öğrenmesi kapsamında yapılan çalışmalarda Modelin çalıştırılması sonrasında hesaplanan metrik değerleri aşağıda yer almaktadır. Yapılan bir makine öğrenmesi çalışması sonucunda oluşan örnek tablo da aşağıda yer almaktadır.
- Precision (Hassasiyet): Pozitif sınıfların doğru tahmin edilme oranı.
- Recall (Duyarlılık): Gerçek pozitif sınıfların doğru tahmin edilme oranı.
- F-Score (F-Skoru): Precision ve Recall'un harmonik ortalaması.
- Accuracy (Doğruluk): Modelin genel doğru tahmin oranı.