Küçük Dil Modelleri

fav gif
Kaydet
Alıntıla
kure star outline

Küçük dil modelleri, büyük dil modellerinin yüksek hesaplama gücü, geniş bellek ihtiyacı ve bulut altyapılarına olan bağımlılığı gibi temel sınırlandırmalarını aşmak amacıyla geliştirilen, genellikle 100 milyon ile 8 milyar arasında parametreye sahip yapay zeka sistemleridir. Bu modeller, bulut sistemlerine sürekli veri gönderimi gerektirmeden akıllı telefonlar, bilgisayarlar ve diğer uç cihazlarda yerel olarak çalışabilmektedir. Bu özellikleri sayesinde kullanıcı gizliliğini koruma, veri sızıntılarını önleme ve düşük gecikme süresi ile anlık yanıtlar üretme konularında büyük avantaj sağlarlar. Geleneksel büyük boyutlu modellerin sergilediği mantıksal yürütme ve dil kavrama gibi gelişmiş yeteneklere kendi ölçeklerinde ulaşabilen bu sistemler, özellikle kaynakların kısıtlı olduğu veya belirli bir alana odaklanılması gereken senaryolarda yüksek verimlilik sunmaktadır.

Küçük Dil Modelleri (Yapay Zeka ile Oluşturulmuştur)

Mimari Yapılar ve Yenilikler

Küçük dil modelleri ağırlıklı olarak dönüştürücü (transformer) mimarisine ve sadece kod çözücü (decoder-only) yapıya dayanmaktadır. Bu temel mimari üzerinde bellek kullanımını azaltmak ve hesaplama hızını artırmak için çeşitli yenilikçi tasarımlar uygulanmaktadır. Dikkat mekanizmalarında standart çoklu başlık yapısı yerine, hesaplama yükünü hafifleten Çoklu Sorgu Dikkati (Multi-Query Attention - MQA) ve Gruplandırılmış Sorgu Dikkati (Grouped-Query Attention - GQA) gibi yöntemler sıklıkla tercih edilir. Girdi konumlandırması için ise mutlak konumlandırma yerine Döner Konum Yerleştirmeleri kullanılarak diziler içerisindeki kelime ilişkileri daha etkili bir şekilde haritalandırılır. İleri beslemeli sinir ağlarında model performansını ve hesaplama kararlılığını artırmak için GeGLU Gated Linear Unit with GELU) ve SiLU (Sigmoid-Weighted Linear Unit) aktivasyon fonksiyonları ile RMSNorm katman normalizasyonu teknikleri yaygın olarak kullanılmaktadır. Dikkat mekanizmalarına ek olarak doğrusal hesaplama karmaşıklığı sunan durum uzayı modellerini (State Space Models) dönüştürücü mimarilerle birleştiren melez yapılar da küçük modellerin uzun bağlamları anlama kapasitelerini önemli ölçüde geliştirmektedir.

Eğitim Stratejileri ve Veri Kümeleri

Küçük dil modellerinin başarıya ulaşmasında kullanılan verinin kalitesi, veri miktarından çok daha belirleyici bir unsurdur. Yüksek kaliteli ve özenle filtrelenmiş veriler, modellerin düşük parametre sayılarına rağmen mantıksal çıkarım ve dil üretimi becerilerini önemli ölçüde artırır. Ön eğitim aşamalarında web üzerinden toplanıp temizlenen metinlerin yanı sıra, büyük modeller tarafından özel kurallarla üretilmiş sentetik veriler de yoğun olarak kullanılmaktadır. Küçük yaştaki çocukların anlayabileceği düzeyde kısıtlı kelime dağarcığı ile üretilen sentetik hikaye veri kümeleri dilbilgisi kurallarına uygun ve konu bütünlüğü taşıyan metinler üretebilmesini olanaklı kılmaktadır. Ön eğitim sürecinde modellerin kendi parametre kapasitelerinin ötesinde yoğun veriye maruz bırakılması, cihaz içi kullanımlarda performansı maksimize etmek için uygulanan bir stratejidir. İnce ayar (fine-tuning) aşamalarında ise modellerin insan talimatlarına uymasını ve güvenli yanıtlar vermesini sağlamak adına İnsan Geri Bildirimli Pekiştirmeli Öğrenme (Reinforcement Learning from Human Feedback) ve Doğrudan Tercih Optimizasyonu (Direct Preference Optimization) gibi hizalama teknikleri kullanılmaktadır.

Model Sıkıştırma ve Optimizasyon Teknikleri

Büyük modelleri donanım kısıtlamalarına uygun küçük modellere dönüştürmek veya mevcut küçük modellerin cihaz içi performansını artırmak amacıyla farklı optimizasyon yöntemleri geliştirilmiştir. Budama yöntemi, ağ içerisindeki önemsiz ağırlıkların veya belirli yapısal blokların silinmesi prensibine dayanır ve bu yolla modelin kapladığı alan küçültülürken çalışma hızı artırılır. Nicemleme yöntemi, modelin ağırlık ve aktivasyon değerlerinin yüksek çözünürlüklü kayan nokta formatları yerine daha düşük bit hassasiyetiyle temsil edilmesini sağlar. Özellikle 4 bit ve altı seviyelerde yapılan işlemler, model doğruluğunda belirgin bir kayba yol açmadan mobil cihazlarda sorunsuz çalışmaya imkan tanır. Bilgi damıtma işlemi ise geniş çaplı bir öğretmen modelin içsel mantığının ve bilgi birikiminin, daha küçük yapıdaki bir öğrenci modele aktarılmasıdır. Bu aktarım sayesinde küçük modeller adım adım düşünme ve mantık yürütme süreçlerini başarılı bir biçimde taklit edebilirler.

Uygulama Alanları

Sahip oldukları yüksek çalışma hızı ve yerel veri işleme kapasiteleri sayesinde küçük dil modelleri birçok alanda aktif olarak kullanılmaktadır. Makine çevirisi değerlendirmelerinde veya anlam değiştiren kritik hataların tespitinde, veri mahremiyetini sağlamak amacıyla metinleri bulut sunucularına göndermek yerine cihaz üzerinde analiz eden bu modeller tercih edilmektedir. Tıp, hukuk ve finans gibi hassas verilerin bulunduğu sektörlerde kişisel verilerin korunması açısından yerel çalışan küçük modeller güvenli bir ortam sunar. Programlama ve yazılım geliştirme süreçlerinde hızlı kod tamamlama ve sözdizimi düzeltme özellikleri ile ön plana çıkarlar. E-ticaret ve arama motoru sistemlerinde arama sorgularını anlayan, eksik bilgileri tamamlayan ve sonuçları yeniden sıralayan anlamsal kodlayıcılar olarak işlev görürler. Ayrıca otonom sürüş sistemleri veya robotik gibi anlık tepki gerektiren görevlerde, biyolojik sinir sistemlerinden ilham alan dinamik mimarilerle birleşerek sensörlerden gelen gürültülü verileri filtreleyip yüksek doğrulukta kararlar verebilirler.

Büyük Dil Modelleri ile İşbirliği

Küçük ve büyük dil modelleri, birbirlerinin zayıf yönlerini tamamlayacak biçimde melez yapılar içerisinde işbirliği yapabilmektedir. Kullanıcı verilerinin işlenmesi gereken durumlarda gizlilik içeren kişisel bilgiler yerel cihazdaki küçük model tarafından analiz edilirken, kapsamlı dış bilgi gerektiren sorgular buluttaki büyük modele yönlendirilerek bulut ile uç cihaz arasında verimli bir iş bölümü oluşturulur. Büyük modellerin metin üretirken yavaş kalması problemine karşı, küçük modeller hızlı bir şekilde taslak metin (token) dizileri üretir ve büyük model bu taslakları onaylayarak üretim hızını ciddi ölçüde artırır. Ek olarak küçük modeller, büyük modellerin ürettiği çıktılardaki hatalı bilgileri denetlemek, halüsinasyon durumlarını tespit etmek, metin kalitesini değerlendirmek ve zararlı içerikleri filtrelemek üzere birer güvenlik kontrolcüsü olarak da yapılandırılmaktadır.

Kaynakça

Abdin, Marah, et al. “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone.” arXiv preprint arXiv:2404.14219 (2024). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2404.14219

Chopra, Muskaan, et al. “How Small Can You Go? Compact Language Models for On-Device Critical Error Detection in Machine Translation.” arXiv preprint arXiv:2511.09748 (2025). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2511.09748

Eldan, Ronen ve Yuanzhi Li. “TinyStories: How Small Can Language Models Be and Still Speak Coherent English?” arXiv preprint arXiv:2305.07759 (2023). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2305.07759

Hasani, Ramin, Mathias Lechner, Alexander Amini, Daniela Rus ve Radu Grosu. “Liquid Time-constant Networks.” arXiv preprint arXiv:2006.04439 (2020). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2006.04439

Lu, Zhenyan, et al. “Small Language Models: Survey, Measurements, and Insights.” arXiv preprint arXiv:2409.15790 (2024). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2409.15790

Mesnard, Thomas, et al. “Gemma: Open Models Based on Gemini Research and Technology.” arXiv preprint arXiv:2403.08295 (2024). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2403.08295

Nguyen, Chien Van, et al. “A Survey of Small Language Models.” arXiv preprint arXiv:2410.20011 (2024). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2410.20011

Razzaq, Waleed ve Hongwei Mo. “Neural Circuit Policies Imposing Visual Perceptual Autonomy.” Neural Processing Letters 55 (2023). Erişim tarihi 21 Nisan 2026. https://doi.org/10.1007/s11063-023-11194-4

Subramanian, Shreyas, et al. “Small Language Models (SLMs) Can Still Pack a Punch: A Survey.” arXiv preprint arXiv:2501.05465 (2025). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2501.05465

Wang, Fali, et al. “A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness.” arXiv preprint arXiv:2411.03350 (2024). Erişim tarihi 21 Nisan 2026. https://doi.org/10.48550/arXiv.2411.03350

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
YazarÖmer Said Aydın21 Nisan 2026 15:59

Etiketler

Tartışmalar

Henüz Tartışma Girilmemiştir

"Küçük Dil Modelleri" maddesi için tartışma başlatın

Tartışmaları Görüntüle

İçindekiler

  • Mimari Yapılar ve Yenilikler

  • Eğitim Stratejileri ve Veri Kümeleri

  • Model Sıkıştırma ve Optimizasyon Teknikleri

  • Uygulama Alanları

  • Büyük Dil Modelleri ile İşbirliği

Bu madde yapay zeka desteği ile üretilmiştir.

KÜRE'ye Sor