Temel Bileşenler Analizi (TBA), çok sayıda ve birbiriyle ilişkili değişken içeren veri setlerinin boyutlarını, veri içindeki varyasyonu mümkün olduğunca koruyarak azaltan bir dönüşüm tekniğidir. İlk olarak 1901 yılında Karl Pearson tarafından başlatılan bu çalışmalar, 1933 yılında Hotelling tarafından geliştirilmiştir. Amaç, veriyi daha az sayıda değişken ile ifade edebileceğimiz en iyi dönüşümü gerçekleştirmektir. Dönüşüm sonrası elde edilen değişkenler temel bileşenler olarak adlandırılır ve sıralandıklarında, en büyük varyansa sahip temel bileşen birinci sırada yer alır.
Temel Bileşenler Analizi (TBA) genelde aşağıdaki amaçlarla kullanılır:
- Boyut İndirgeme: Veri setindeki değişken sayısını azaltarak daha yönetilebilir hale getirmek.
- İlişki Yapısını Ortadan Kaldırma: Değişkenler arasındaki ilişkileri minimize ederek daha bağımsız bileşenler elde etmek.
- Analiz İçin Veri Hazırlama: Veriyi diğer istatistiksel analizler için daha uygun bir forma dönüştürmek.
Temel Bileşenler Analizi'nde birinci temel bileşen (TB1) ve ikinci temel bileşen (TB2) olmak üzere iki ana bileşen bulunmaktadır.
- Birinci Temel Bileşen (TB1): Veri noktalarının en yüksek varyansa sahip olduğu yöndür. Bu, projeksiyondaki noktaların şeklini en iyi temsil eden hattır. İlk bileşende yakalanan varyans ne kadar büyükse, orijinal veri setinden korunan bilgi miktarı da o kadar büyük olup diğer temel bileşenlerde daha yüksek bir varyans değeri olmaz.
- İkinci Temel Bileşen (TB2): TB2, veri setindeki sonraki en yüksek varyansı açıklar ve mutlaka TB1 ile ilişkisiz yani TB2, TB1'e dik (ortogonal) olmaktadır. Bu ilişki, TB1 ve TB2 arasındaki korelasyonun sıfır olması gerektiği anlamına gelir.
TBA uygulandığında, genellikle TB1 ve TB2 arasındaki ilişkiyi göstermek için bir dağılım grafiği kullanılır. TB1 ve TB2 eksenleri birbirine dik olacak şekilde gösterilir. Aşağıdaki şekilde birinci ve ikinci temel bileşenler grafiksel olarak gösterilmektedir.

Birinci ve İkinci Temel Bileşenler (Yapay zeka ile oluşturulmuştur.)
Temel Bileşen Analizinin Matematiksel Modeli
tane 'lik gözlem vektöründen oluşan veri küme matrisimiz olsun. matrisinde her bir sütun farklı bir değişken (veri türü) temsil etmekte ve aşağıda açıklanmaktadır.
Burada değişkenlerin farklı ölçü birimlerine sahip olmasından dolayı veriler standart hale getirilir. Standartlaştırma işlemi, her değişkenin ortalamasının sıfır olacak şekilde merkezileştirilmesi şeklinde gerçekleştirilir. Bu işlem her bir veri noktasından veri setinin ortalamasını çıkarmak suretiyle yapılır.
Ortalamaların çıkarılması sonucunda matrisi aşağıdaki gibi elde edilmektedir.
Bir sonraki aşamada kovaryans matrisi aşağıdaki şekilde hesaplanır.
Varyans ve kovaryans, bir veri setindeki değişkenlerin nasıl davrandığını anlamak için kullanılır. kovaryans matrisinde köşegen üzerinde yer alan katsayılar varyans değerlerini temsil etmekte ve tek bir boyuttaki verilerin ortalama etrafındaki dağılımını ifade etmektedir. Kovaryans ise iki değişkenin birlikte nasıl değiştiğini göstermekte olup pozitif kovaryans, bir değişkenin değeri artarken diğerinin de artmasını veya ikisinin de azalmasını belirtir. Negatif kovaryans, bir değişken artarken diğerinin azalmasını ifade eder. Elde edilen kovaryans matrisine özdeğer-özvektör ayrıştırması gerçekleştirilir.
Burada özdeğerleri, özdeğer vektörlerini temsil etmektedir. Özdeğerler büyükten küçüğe doğru sıralanır ve sıralı özdeğerlere karşılık gelen özvektörlerden ilk tanesi alınarak izdişüm matrisinin sütunlarını oluşturacak şekilde oluşturulur.
izdüşüm matrisi kullanılarak olmak üzere verinin boyutunun boyuttan boyuta düşürülme işlemi gerçekleştirilir.

