Assembly AI, konuşma tanıma ve ses verisi işleme alanında faaliyet gösteren bir yapay zekâ (YZ) şirketidir. Şirket, geliştiricilerin ve ürün ekiplerinin sesli verileri kullanarak yazılıma dayalı çözümler oluşturmasını sağlayan konuşma yapay zekâ modelleri sunmaktadır. Bu modeller, özellikle konuşmadan metne çeviri (speech-to-text), duygu analizi, özetleme ve kişisel veri gizliliği gibi alanlarda kullanılır. Assembly AI, bulut tabanlı bir hizmet modeli olan SaaS (Software as a Service - Hizmet Olarak Yazılım) olarak sunulmakta ve Amazon Web Services (AWS) altyapısı üzerinde çalışmaktadır.
Kuruluş ve Genel Bilgiler
Assembly AI’nin merkezi Amerika Birleşik Devletleri'ndedir. Şirketin CEO'su ve kurucusu Dylan Fox’tur. Assembly AI, başta Accel olmak üzere Insight Partners, Nat Friedman ve Y Combinator gibi yatırımcılardan çeşitli fonlama turlarıyla destek almıştır. 2023 yılı itibarıyla 50 milyon dolarlık Seri C yatırımını tamamlamıştır. Şirketin müşteri portföyü arasında Zoom, Supernormal, EdgeTier gibi girişimlerin yanı sıra farklı sektörlerden binlerce startup ve kurumsal müşteri yer almaktadır.
Temel Teknolojiler ve Modeller
Assembly AI, evrimsel olarak geliştirdiği konuşma tanıma modelleriyle dikkat çeker. Bu modellerden öne çıkanları şunlardır:
Universal-1 ve Universal-2
Bu modeller, 12,5 milyon saatten fazla çok dilli ses verisi üzerinde eğitilmiştir. İngilizce, Almanca, Fransızca ve İspanyolca gibi dillerde yüksek doğruluk oranları sunar. Universal-2 modeli, önceki sürüme kıyasla özel isim tanıma, biçimlendirme (ör. tarih, e-posta), sayısal veri işleme ve kod-karıştırmalı konuşmaları ayırma gibi alanlarda gelişmiş performans sağlar.
Conformer Serisi
Conformer-1 ve Conformer-2 modelleri, özellikle İngilizce konuşma tanımada yüksek doğruluk sağlar. Bu modeller, karmaşık konuşma örüntülerini daha iyi anlamak için ses işleme ile derin öğrenme yöntemlerini birleştirir.
Assembly AI, önceden kaydedilmiş ses dosyaları için eşzamansız konuşma tanıma (asynchronous speech-to-text) hizmetinin yanı sıra, canlı ses akışlarının işlenmesine olanak tanıyan gerçek zamanlı konuşma tanıma (streaming speech-to-text) hizmeti de sunmaktadır. Gerçek zamanlı hizmette gecikme süresi 500 milisaniyenin altında tutulurken, doğruluk oranı endüstri standartlarının üzerindedir. Bu hizmet, çağrı merkezleri, video konferans sistemleri ve canlı etkinlik yayınlarında kullanılmaktadır.
Audio Intelligence ve LeMUR
Assembly AI’nin ses anlama katmanı iki temel bileşenden oluşur: Audio Intelligence ve LeMUR.
Audio Intelligence, ses dosyaları üzerinden şu işlemleri yapabilen hazır modeller sunar:
- Otomatik özetleme
- Konuşmacı tanıma (diarization)
- İçerik denetimi (örneğin nefret söylemi ve hassas konular)
- Duygu analizi
- Varlık tanıma (kişiler, kurumlar, e-posta, tarih, yer vb.)
- Kişisel veri maskeleme (PII redaction)
- Konu tespiti (IAB sınıflandırmasına göre)
- Otomatik başlık oluşturma ve önemli ifadeleri belirleme
LeMUR, Assembly AI’nin büyük dil modellerini (Large Language Models - LLM) konuşma verisine entegre eden yapısıdır. Bu sistem, ses transkriptleri üzerinden soru-cevap, metin üretimi, veri çıkarımı, özetleme ve içgörü oluşturma gibi işlemleri API üzerinden gerçekleştirir. LeMUR, büyük ses veri kümelerini tek API çağrısıyla işleyebilecek şekilde ölçeklenebilir yapıdadır.
Performans ve Güvenlik
Assembly AI’nin Universal-2 modeli, bağımsız değerlendirme raporlarında %93,3'e varan kelime doğruluk oranına ulaşmıştır. Özellikle gürültülü ortamlar, teknik terimler, aksanlı konuşmalar gibi zorlu veri setlerinde endüstri ortalamasının altında hata oranları sergiler. Platform, SOC 2 Type 2, PCI-DSS, HIPAA BAA ve ISO 27001 gibi güvenlik ve uyumluluk standartlarını karşılamaktadır. Kullanıcılar, verilerini Avrupa veya ABD veri merkezlerinde işleme veya gelecekte sunulması planlanan yerinde çözümlerle çalıştırma seçeneklerine sahiptir.
Fiyatlandırma Politikası
Assembly AI, “kullandıkça öde” modeliyle ücretlendirme sunar. Ücretsiz deneme sürecinde 90 gün boyunca API kullanımı sağlanmaktadır. Konuşma tanıma için temel ücretlendirme, modele göre değişmekle birlikte saatte 0,12 dolar (Nano modeli) ile 0,47 dolar (gerçek zamanlı model) arasında değişmektedir. Audio Intelligence özellikleri ve LeMUR modülü içinse işlem başına fiyatlandırma uygulanmaktadır.
Kullanım Alanları
Assembly AI'nin ürünleri medya ve eğlence, müşteri hizmetleri, tıbbi notlandırma, satış görüşmesi analizleri, eğitim, içerik üretimi ve video altyazı oluşturma gibi çok sayıda alanda kullanılmaktadır. Şirket, AWS, Twilio, Cloudflare gibi platformlarla entegrasyon sağlamaktadır. Ayrıca kendi altyapısı üzerinden REST API, SDK'lar ve geliştirici belgeleri aracılığıyla geliştiricilere erişim sunmaktadır.
Gelecek Vizyonu
Assembly AI, sesli veriyi anlamlandırmak ve konuşma yapay zekâsını daha erişilebilir kılmak amacıyla araştırma odaklı bir strateji benimsemektedir. Şirketin orta vadeli vizyonu, “süper-insan düzeyinde” konuşma tanıma modelleri geliştirerek yalnızca transkripsiyon değil, anlam, bağlam ve karar destek mekanizmaları sağlayabilen sistemler üretmektir. Bu vizyon doğrultusunda hem model performansını hem de kullanım ölçeğini genişletmeye yönelik yatırımlar sürmektedir.