Büyük Dil Modelleriyle Sentetik Veri Üretimi, büyük dil modellerinin metin, kod veya etiketli veri gibi çeşitli içerikleri yapay olarak üretme yeteneklerinden yararlanarak, gerçek verilere benzer nitelikte sentetik veri oluşturma sürecidir. Büyük dil modelleri (BDM’ler), metin, kod veya etiketli veri gibi çeşitli içerikleri yapay olarak üretme yetenekleri sayesinde, gerçek verilere benzer nitelikte sentetik veri oluşturma sürecine yeni bir boyut kazandırır. Bu yaklaşım, özellikle etiketli verinin kısıtlı olduğu, gizlilik gereksinimlerinin yüksek olduğu veya veri toplamanın maliyetli olduğu durumlarda, gerçek verilerin yerini alabilecek veya onları tamamlayabilecek yüksek kaliteli veri kümeleri oluşturulmasını mümkün kılar.

Görsel yapay zeka ile oluşturulmuştur.
Son yıllarda OpenAI’nin GPT-4, Meta’nın Llama 3 ve Anthropic’in Claude gibi büyük dil modelleri; yalnızca doğal dil işleme görevlerinde değil, aynı zamanda yazılım mühendisliği, kod üretimi ve hata düzeltme gibi alanlarda da büyük ölçekli sentetik veri setleri üretmeye başlamıştır. Bu modeller; transformer tabanlı mimarileri, büyük ölçekli ön eğitim süreçleri ve özelleştirilmiş ince ayar (fine-tuning) yöntemleri sayesinde, çeşitli görevler için gerçek verilere çok yakın, etiketli ve anlamlı veri örnekleri yaratabilir.
Sentetik veri üretiminde kullanılan yöntemler, modelin yönlendirilme biçimine, çıktıların kalitesine ve doğrulanma sürecine göre çeşitlenir:
Prompt tabanlı üretimde, model belirli bir görev için önceden hazırlanmış bir istem (prompt) ile yönlendirilir. Transformer mimarisinin çoklu katmanları, bu istemi dikkat (attention) mekanizmaları aracılığıyla işler ve ilişkilendirilmiş bağlamı kullanarak çıktı üretir. Zero-shot yaklaşımında yalnızca doğal dil açıklaması verilirken, one-shot ve few-shot yaklaşımlarında modelin görevi “örnek eşleştirme” yoluyla öğrenmesi sağlanır. Her bir örnek modelin bağlam penceresindeki konumuna göre ağırlıklandırılır ve çıktı, örneklerin dağılımına benzer şekilde türetilir.
Konu kontrollü üretimde, önce genel başlıklar veya temalar belirlenir; ardından bu başlıklar altında detaylı örnekler sentezlenir. Bu yaklaşımda model, çok adımlı bir pipeline içinde önce konu seçim katmanından (topic selection layer) geçer, sonra bağlamsal örneklem (contextual sampling) bileşeniyle her tema için farklı varyantlar üretir. Böylece içerik çeşitliliği sağlanırken, her üretim bir “topic embedding” uzayında hizalanır.
Bu yöntemde modelin ürettiği çıktılar otomatik veya insan denetimli kalite kontrol süreçlerine tabi tutulur; hatalı veya zayıf örnekler yeniden işlenmek üzere modele geri besleme olarak sunulur. Teknik olarak, üretilen örnekler etiketlenir, modelin kayıp (loss) fonksiyonunda yeniden ağırlıklandırma yapılır ve sonraki üretim turuna enformasyon sunulur. Böylece model, üretim hatalarından öğrenerek tutarlılığını ve doğruluğunu artırır.
RAG mimarisinde, model öncelikle bir retrieval modülü aracılığıyla gerçek veri kaynaklarından (örn. belge koleksiyonları, veri tabloları) uygun parçaları seçer; ardından bu parçalar transformer tabanlı jenerasyon bileşenine ek bağlam olarak iletilir. Bu sayede model, yalnızca öğrenilmiş ağırlıklara değil, aynı zamanda dinamik olarak seçilmiş harici bilgiye dayanarak içerik üretir. Yapısal olarak, iki aşamalı encoder-decoder yapısı olarak düşünülebilir: encoder “bilgi getirme” işini, decoder ise “yeniden üretme” işini üstlenir.
Kod örnekleri otomatik test altyapılarına (ör. unit test çerçeveleri) gönderilir; doğru çalışan kodlar veri kümesine dâhil edilirken, hatalı olanlar elenir veya düzeltme amaçlı ek promptlarla yeniden işlenir. Böylece yalnızca işlevsel, derlenebilir ve testleri geçen kod parçaları modelin eğitimine eklenir; bu süreç, kod üretiminin başarımını sistematik olarak iyileştirir.
Büyük dil modelleriyle üretilen sentetik veriler, doğal dil işleme ve yazılım mühendisliği başta olmak üzere birçok alanda kullanılabilir. Metin sınıflandırma, duygu analizi veya konu tespiti gibi görevlerde dengeleyici sınırlı veri sağlarken; soru-cevap sistemleri, diyalog botları ve metin özetleme uygulamalarında genişletilmiş eğitim setleri oluşturur. Yazılım geliştirme süreçlerinde ise kod tamamlama, programlama dilleri arası çeviri ve hata düzeltme yeteneklerini geliştirmek için işlevsel kod örnekleri sağlar.
Sentetik veri, gerçek veriye erişimin kısıtlı olduğu durumlarda alternatif oluşturur; insan etiketleme maliyetini ve zamanını azaltırken, geniş varyasyon imkânı sayesinde modellerin genelleme performansını artırır. Ayrıca gizlilik gerektiren senaryolarda, gerçek kişilere ait bilgi içermeyen ancak dil kalıplarını yansıtan veri setleri sunarak veri koruma düzenlemelerine uyumu kolaylaştırır.
Sentetik veri üretiminde BDM’lerin halüsinasyon (uydurma) eğilimi, özellikle bilgi temelli görevlerde doğruluk sorunlarına yol açabilir. Üretilen örnekler, gerçek dünya dağılımından saparak model performansını düşürebilir; ayrıca orijinal eğitim verilerindeki önyargılar, sentetik verilere aktarılabilir. Uzun vadede yalnızca sentetik verilerle beslenen modellerde “model çöküşü” (model collapse) riski belirebilir.
Barr, A. A., et al. "Large Language Models Generating Synthetic Clinical Datasets." Frontiers in Artificial Intelligence. 2025. https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1533508/full
Kim, S., et al. "Evaluating Language Models as Synthetic Data Generators." 2024. arXiv Preprint arXiv:2412.03679. https://arxiv.org/abs/2412.03679
Lewis, P., Perez, E., Piktus, A., Petroni, F., ve Kiela, D. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." 2020. arXiv Preprint arXiv:2005.11401. https://arxiv.org/abs/2005.11401
Nadas, Mihai, Diosan, Laura, ve Tomescu, Andreea. "Synthetic Data Generation Using Large Language Models: Advances in Text and Code." 2025. arXiv.https://arxiv.org/pdf/2503.14023
Shumailov, Ilya, et al. "The Curse of Recursion: Training on Generated Data Makes Models Forget." 2023. arXiv Preprint arXiv:2305.17493. https://arxiv.org/abs/2305.17493
Henüz Tartışma Girilmemiştir
"Büyük Dil Modelleriyle Sentetik Veri Üretimi" maddesi için tartışma başlatın
BDM Tabanlı Sentetik Veri Üretiminin Kapsamı
Yöntemler
Prompt Tabanlı Üretim
Konu Kontrollü Üretim
Geri Bildirim Döngülü Üretim
Retrieval-Augmented Generation (RAG)
Yürütme Geri Bildirimi – Kod Üretimi İçin
Uygulama Alanları
Avantajlar
Zorluklar ve Riskler