Konuşmadan Metne (Speech-to-Text - STT)

Kaydet

Paylaş

Alıntıla

Konuşmadan Metne (Speech-to-Text - STT) veya Otomatik Konuşma Tanıma (ASR), sesli konuşmayı yazılı metne dönüştüren temel bir teknolojidir ve insan-makine etkileşimini kolaylaştırarak sesli verinin dijital ortamda işlenip analiz edilmesini sağlar. Son dönemde Büyük Dil Modelleri (LLM) alanındaki ilerlemeler, STT sistemlerinin yeteneklerinde önemli gelişmelere yol açmıştır.

Konuşmadan Metne Teknolojisinin Gelişimi
ASR teknolojisi uzun bir geçmişe sahip olup, geleneksel yaklaşımlar Saklı Markov Modelleri (HMM) gibi istatistiksel yöntemler kullanmıştır. Derin öğrenmenin yükselişi ve Transformer gibi diziden-diziye modeller, ses girdisini doğrudan metin çıktısına dönüştürerek süreci basitleştiren ve genellikle performansı artıran "Uçtan Uca" (End-to-End - E2E) sistemlerin geliştirilmesine olanak tanımıştır. Bu alandaki önemli bir ilerleme, wav2vec 2.0 gibi modellerle popülerleşen öz-denetimli öğrenme (Self-Supervised Learning - SSL) olmuştur; bu yöntem, büyük miktarda etiketsiz ses verisi kullanarak modellerin konuşmanın temel özelliklerini öğrenmesini sağlar ve bu şekilde ön-eğitilen modeller, az miktarda etiketli veri ile ince ayarlandığında yüksek doğruluk elde edebilir.

Öne Çıkan Açık Kaynaklı LLM Tabanlı STT Sistemleri
LLM'lerin konuşma tanımaya entegrasyonuyla birlikte birçok güçlü açık kaynaklı sistem geliştirilmiştir; bunlardan en bilineni OpenAI tarafından geliştirilen Whisper'dır. Whisper, büyük ölçekli ve çeşitli "zayıf denetimli" veriyle eğitildiği için farklı dillere, aksanlara ve gürültülü koşullara karşı yüksek dayanıklılık gösterir ve çok dilli yapısı, farklı boyutları ve açık kaynak lisansı sayesinde yaygınlaşmıştır; whisper.cpp gibi projelerle çeşitli platformlarda verimli çalıştırılması mümkündür. Meta AI'nin Seamless Communication gibi projeleri çoklu görevleri tek modelde birleştirirken, MMS projesi düşük kaynaklı dillere odaklanır ve NVIDIA NeMo gibi araç setleri, Conformer gibi gelişmiş mimarilerle model eğitimi ve dağıtımı için kaynaklar sunar; bu modeller genellikle farklı veri kümelerini birleştirerek eğitilir.

Türkçe Konuşmadan Metne Çalışmaları
Türkçenin sondan eklemeli yapısı ve zengin morfolojisi, STT sistemleri için kelime dağarcığı dışı kelimeler ve segmentasyon gibi özgün zorluklar yaratırken, kamuya açık etiketli veri miktarının İngilizce'ye kıyasla sınırlı olması, çalışmaları genellikle ön-eğitilmiş çok dilli modellerin Türkçe'ye uyarlanmasına yöneltmektedir. Whisper'ın çok dilli yetenekleri, onu Türkçe için popüler bir temel model yapmış, Hugging Face gibi platformlarda topluluk tarafından Common Voice gibi veri setleriyle ince ayarlanmış versiyonları (örneğin, sgangireddy/whisper-medium-tr) paylaşılmıştır; bu modeller genellikle temel modele göre Türkçe'de daha iyi performans sergiler. Yapılan karşılaştırmalı analizler, özellikle farklı alanlardaki Türkçe konuşmaların tanınmasında, Whisper tabanlı ince ayarlanmış modellerin XLS-R gibi önceki nesil SSL modellerine kıyasla daha başarılı olabildiğini göstermiştir.

Eğitim Yöntemleri ve Veri Kaynakları
Günümüzdeki LLM tabanlı STT sistemlerinin geliştirilmesinde baskın olan "Ön-Eğitim ve İnce Ayar" yaklaşımında, modeller önce çok büyük miktarda genellikle etiketsiz ses verisi üzerinde genel konuşma örüntülerini öğrenir (ön-eğitim), ardından hedeflenen dil veya görev için daha küçük boyutlu, etiketli veri setleri kullanılarak optimize edilir (ince ayar). Türkçe STT modellerinin ince ayar ve değerlendirmesinde Common Voice gibi kitlesel katılımla oluşturulan açık lisanslı veri setleri önemli bir rol oynarken, büyük modellerin ön-eğitiminde kullanılan devasa veri setleri genellikle web kaynaklarından derlenir ve her zaman kamuya açık olmayabilir.

Büyük Modellerin İnce Ayarındaki Zorluklar
Büyük ön-eğitilmiş modellerin belirli görevlere uyarlanması, hedefe yönelik yeterli ve kaliteli etiketli veri toplama gerekliliği, modelin yeni göreve adapte olurken ön-eğitimde kazandığı genel yetenekleri kısmen yitirme riski olan katastrofik unutma, girdide bulunmayan metinler üretme eğilimi olan halüsinasyon riski, önemli hesaplama kaynağı (GPU, zaman) gerektiren maliyet ve modelin eğitildiği veri dağılımı ile uygulandığı alan arasındaki uyumsuzluk gibi teknik zorlukları beraberinde getirir; bu zorluklarla başa çıkmak için parametre verimli ince ayar (PEFT) yöntemleri, veri artırma teknikleri ve model mimarisinde iyileştirmeler gibi stratejiler kullanılır.

Uygulama Alanları
LLM tabanlı STT teknolojisi günümüzde toplantıların, derslerin, röportajların ve medya içeriklerinin yazıya dökülmesi, sesli komut sistemleri ve sanal asistanlar, çağrı merkezi konuşmalarının analizi, dikte yoluyla metin girişi (özellikle tıp ve hukuk), medya içerikleri için otomatik altyazı oluşturma, dil öğrenme platformlarında telaffuz değerlendirme ve erişilebilirlik teknolojileri (örneğin, işitme engelliler için) gibi geniş bir yelpazede kullanılmaktadır; açık kaynaklı modellerin varlığı, kurumların ve geliştiricilerin kendi ihtiyaçlarına özel, veri gizliliğini koruyan STT çözümleri geliştirmelerine olanak tanır.

Kaynakça

Baevski, Alexei, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. 2020. "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations." arXiv preprint arXiv:2006.11477. Erişim Adresi.

Mercan, Ozan Burak, Hatice A. Aksu, Mehmet Eryiğit, and Efnan Mercan. 2023. "Performance Comparison of Fine-Tuned Whisper Models and XLS-R-300M for Turkish Speech-to-Text." arXiv preprint arXiv:2307.04765. Erişim Adresi.

Radford, Alec, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever. 2022. "Robust Speech Recognition via Large-Scale Weak Supervision." arXiv preprint arXiv:2212.04356. Erişim Adresi. 

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. "Attention Is All You Need." arXiv preprint arXiv:1706.03762. Erişim Adresi.