
Speak, yapay zekâ (YZ) destekli bir dil öğrenme platformudur. Kullanıcılara konuşma pratiği yapma imkânı sunarak konuşma akıcılığına odaklanan bu uygulama, özellikle İngilizce ve İspanyolca dillerinde eğitim sunmaktadır. 2016 yılında Connor Zwick ve Andrew Hsu tarafından San Francisco merkezli olarak kurulan şirket, mobil uygulama formatında hizmet vermektedir. Şirketin ofisleri San Francisco, Seul, Tokyo, Taipei ve Ljubljana’da yer almaktadır.
Speak, ilk olarak 2019 yılında Güney Kore pazarında kullanıcılarla buluşmuştur. Kısa sürede ülkede en çok kullanılan İngilizce dil öğrenme uygulaması hâline gelmiştir. Platformun kullanıcı tabanı 40’tan fazla ülkeye yayılmış ve 10 milyondan fazla kullanıcıya ulaşmıştır. 2024 yılı itibarıyla Speak, Accel liderliğinde gerçekleştirilen Seri C (C Serisi) yatırım turunda 78 milyon Amerikan doları yatırım almış, toplam yatırım miktarını 162 milyon dolara çıkarmış ve şirketin piyasa değeri 1 milyar dolara ulaşmıştır. Önceki yatırım turlarında OpenAI Startup Fund, Khosla Ventures, Y Combinator, Founders Fund ve Buckley Ventures gibi kurumlar ile Sam Altman, Peter Thiel ve Jeff Weiner gibi bireysel yatırımcılar yer almıştır.
Speak, dil öğrenimini konuşma temelli bir yöntemle yapılandırmaktadır. Uygulama, kullanıcıların yüksek sesle konuşmalarını teşvik eden dersler ve konuşma egzersizleri sunar. Bu yaklaşım, geleneksel dil öğrenme araçlarında eksik kalan konuşma pratiği ihtiyacını karşılamayı hedeflemektedir.
Platformun temel teknolojisi, streaming ASR (akış tabanlı otomatik konuşma tanıma) sistemine dayanmaktadır. Speak, farklı aksanlara sahip başlangıç seviyesindeki kullanıcıların konuşmalarını tanıyabilen bir konuşma tanıma modeli geliştirmiştir. Bu model, şirketin kendi kullanıcı verisiyle eğitilerek iyileştirilmiş ve %60 oranında kelime hata oranı (WER, Word Error Rate) azaltımı sağlamıştır. Model, Nvidia’nın NeMo framework'ü (açık kaynaklı YZ ve konuşma modeli geliştirme kütüphanesi) kullanılarak eğitilmiştir.
Kullanıcılara gerçek zamanlı geri bildirim sunabilmek amacıyla Riva ve Triton Inference Server altyapıları Google Cloud Platform üzerinde Kubernetes mimarisiyle entegre edilmiştir. Konuşma sırasında veri aktarımı WebSocket ve gRPC (Gelişmiş Uzaktan Prosedür Çağrısı - Google Remote Procedure Call) protokolleri aracılığıyla sağlanmaktadır.
2024 yılında Speak, OpenAI tarafından sunulan GPT-4o modelinin Realtime API (Gerçek Zamanlı Uygulama Programlama Arayüzü) desteğini kullanarak “Live Roleplays” adlı özelliği tanıtmıştır. Bu özellikle birlikte kullanıcılar, gerçek zamanlı ve doğrudan ses girdisi/çıktısı ile çalışan senaryolarda YZ ile konuşma pratiği yapabilmektedir. Sistem, yalnızca kelime düzeyinde değil, aynı zamanda tonlama, telaffuz ve prosodi (konuşma ritmi ve melodisi) açısından da değerlendirme yaparak kullanıcıya geri bildirim sunmaktadır.
Speak’in öğrenme modeli üç temel adıma dayanmaktadır. İlk olarak kullanıcı, hedef dilde yoğun konuşma ve dinleme pratiğine yönlendirilir. Ardından bu kalıpların çeşitli varyasyonlarla tekrar edilmesi sağlanır. Son olarak ise öğrenilen kalıplar gerçek dünya bağlamında YZ destekli senaryolarla pekiştirilir. Bu süreçte kullanıcıya özel ders planları, geri bildirim mekanizmaları ve hedef odaklı yönlendirmeler sunulur.
Ayrıca platform, kullanıcıların gelişimini takip etmek için “yeterlik grafiği” (proficiency graph) sistemini kullanır. Bu sistem, kullanıcının dil seviyesine göre uygun cümle kalıpları ve kelime dağarcığı sunarak kişiselleştirilmiş bir deneyim sağlar.
Speak, bireysel kullanıcıların yanı sıra kurumsal müşterilere yönelik “Speak for Business” hizmeti de sunmaktadır. Bu hizmet kapsamında kurumlar çalışanlarının İngilizce yeterliliklerini artırmayı hedefleyen özelleştirilmiş ders içerikleri ve raporlama araçlarına erişmektedir. Speak for Business programı, 200'den fazla kurumsal müşteri ve %85 kullanıcı benimseme oranıyla büyümektedir.
Uygulama, özellikle Güney Kore, Japonya ve Tayvan gibi pazarlarda hızla yayılmış; Mandarin konuşulan pazarlara ve İspanyolca dil desteğine geçiş yaparak Kuzey Amerika ve Avrupa'da da genişlemeye başlamıştır. Speak’in kullanıcı kitlesi her yıl iki katına çıkmakta, bu büyüme şirketin yatırımcı ilgisini korumasını sağlamaktadır.
Speak, konuşma odaklı öğrenme sistemini daha fazla dilde kullanıma açmayı ve kişiselleştirme düzeyini artırmayı hedeflemektedir. Şirket, halihazırda İngilizce ve İspanyolca desteklemekte olup Fransızca gibi yeni dilleri eklemek üzere çalışmalar yürütmektedir. Ayrıca telaffuz değerlendirmesi, fonem (ses birimi) temelli geri bildirim, daha hassas akıcılık puanlama sistemleri ve konuşmadan konuşmaya modeller (speech-to-speech models) gibi yeni özelliklerin ürünleştirilmesi planlanmaktadır.
Platformun kurucularından Connor Zwick’e göre, Speak’in uzun vadeli hedefi, en gelişmiş YZ temelli dil öğretmenini geliştirerek, dünya çapında milyonlarca kişinin kendi anadilinden farklı dillerde özgüvenle konuşabilmesini sağlamaktır. Bu doğrultuda, kişiye özel öğrenim planları, etkileşimli içerikler ve sürekli geliştirilen teknik altyapı ile platformun küresel dil öğreniminde etkili bir rol oynamaya devam etmesi beklenmektedir.

Gelişim Süreci
Teknolojik Altyapı
API Entegrasyonu
Öğrenme Felsefesi
Kurumsal Uygulamalar
Gelecek Perspektifi
Bu madde yapay zeka desteği ile üretilmiştir.