KÜRE LogoKÜRE Logo
Ai badge logo

Bu madde yapay zeka desteği ile üretilmiştir.

Derin Pekiştirmeli Öğrenme

fav gif
Kaydet
kure star outline

Derinlemesine Pekiştirmeli Öğrenme (Deep Reinforcement Learning, DRL), pekiştirmeli öğrenmenin (Reinforcement Learning, RL) temel ilkelerini derin öğrenmenin (Deep Learning, DL) temsil gücüyle birleştiren bir yapay zekâ yaklaşımıdır. Bu yöntem, bir ajanın bir ortamda deneme-yanılma yoluyla bir eylem politikası öğrenmesini sağlar; ajanın amacı, gelecekteki ödüllerin toplamını en üst düzeye çıkarmaktır. DRL, bu süreci yüksek boyutlu ve karmaşık durum-uzaylarında gerçekleştirmek için derin sinir ağlarını kullanır.

Tarihsel Arka Plan

Pekiştirmeli öğrenmenin kökeni davranışçı psikolojiye ve optimal kontrol teorisine dayanır. Pavlov’un koşullanma deneyleri ve Thorndike’ın "Etki Yasası" RL’nin psikolojik temelini oluştururken, Bellman’ın dinamik programlama çalışmaları ve Markov Karar Süreci (MDP) kavramı modern RL algoritmalarının matematiksel altyapısını oluşturur.


1980’lerden itibaren TD(λ), REINFORCE ve Q-öğrenme gibi temel pekiştirmeli öğrenme algoritmaları geliştirildi. 2013 yılında ise derin Q-ağları (Deep Q-Network, DQN), Atari oyunlarında insan seviyesini aşan performans sergileyerek, derin öğrenmenin pekiştirmeli öğrenme ile birleştiği modern derin pekiştirmeli öğrenme (DRL) dönemini başlattı.

Temel Bileşenler

DRL, dört ana bileşenden oluşur:


  1. Ajan (Agent): Ortamla etkileşime giren karar verici yapı.
  2. Ortam (Environment): Ajanın etkileşimde bulunduğu dış dünya.
  3. Politika (Policy): Belirli bir durumda hangi eylemin seçileceğini belirleyen strateji.
  4. Ödül (Reward): Ajanın seçtiği eylemlerin başarısını değerlendiren geri bildirim sinyali.


Bu yapı genellikle Markov Karar Süreci (MDP) çerçevesinde modellenir ve bir duruma karşılık gelen ödül beklentisini en üst düzeye çıkaracak optimal politika hedeflenir.


Derinlemesine pekiştirmeli öğrenmenin temel bileşenlerini gösteren temsili bir diyagram

Başlıca Algoritmalar

DRL algoritmaları temel olarak ikiye ayrılır:


  • Model-tabanlı (Model-based): Ortamın dinamiklerini öğrenmeye çalışır.
  • Model-bağımsız (Model-free): Ortamı doğrudan öğrenmeden ödül temelli strateji geliştirir.


Model-bağımsız yöntemler de ikiye ayrılır:


  • Değer-tabanlı: Q-Learning, Deep Q Network (DQN)
  • Politika-tabanlı: Policy Gradient, REINFORCE
  • Aktör-Kritik (Actor-Critic): PPO, A3C gibi yöntemler, politika ve değer fonksiyonlarını birlikte öğrenir.

Uygulama Alanları

DRL; oyunlar, robotik sistemler, doğal dil işleme ve otonom araçlar gibi çeşitli alanlarda kullanılır:


  • Tıbbi Görüntüleme: Lezyon tespiti, kayıt (registration) ve kişiselleştirilmiş modelleme için kullanılmıştır.
  • UAV Navigasyonu: Bilinmeyen ortamlarda çarpışma önleme ve otonom seyrüseferde kullanılmıştır.
  • Tehlikeli Kaynakların Tespiti: Zehirli gaz gibi kaynakların konumlandırılmasında DRL tabanlı PC-DQN ve AID-RL yaklaşımları geliştirilmiştir.
  • Mobil Robotik: Görsel verilerle birlikte otonom keşif ve haritalama gibi görevlerde kullanılır.

Karşılaşılan Zorluklar

  • Örnekleme verimsizliği: DRL ajanlarının etkili öğrenmesi için büyük miktarda deneyim gerekebilir.
  • Güvenlik: Gerçek dünyada deneme-yanılma riskli olabilir.
  • Yorumlanabilirlik: Derin modellerin karar alma süreçlerini açıklamak zor olabilir.
  • Genellenebilirlik: Öğrenilen politikaların farklı ortamlarda yeniden kullanımı sınırlı olabilir.

Gelişim Alanları ve Araştırma Yönelimleri

  • Meta-öğrenme: Ajanın farklı görevler arasında transfer yapabilmesini sağlar.
  • Hiyerarşik Öğrenme: Görevleri alt görevlere ayırarak karmaşık davranışları öğrenmeyi kolaylaştırır.
  • Açıklanabilir DRL: DRL kararlarının insan tarafından anlaşılabilir hale getirilmesini hedefler.
  • DRL ve Resmî Tekniklerin Bütünleşimi: Özellikle güvenliğe duyarlı uygulamalarda doğrulama ve hata toleransı sağlamak için kullanılır.

Kaynakça

Cebollada, Sergio, Luis Payá, Maria Flores, Adrián Peidró, ve Oscar Reinoso. 2020. “A State-of-the-Art Review on Mobile Robotics Tasks Using Artificial Intelligence and Visual Data.” Expert Systems with Applications 114195. https://doi.org/10.1016/j.eswa.2020.114195.


Krichen, Moez. 2023. “Deep Reinforcement Learning.” In Proceedings of the 14th International Conference on Computing, Communication and Networking Technologies (ICCCNT), July 6–8, 2023, IIT Delhi, India. IEEE.


Li, Zhongguo, Wen-Hua Chen, Jun Yang, ve Yunda Yan. 2023. “AID-RL: Active Information-Directed Reinforcement Learning for Autonomous Source Seeking and Estimation.” Neurocomputing 544: 126281. https://doi.org/10.1016/j.neucom.2023.126281.


Nayeri, Zahra Makki, Toktam Ghafarian, ve Bahman Javadi. 2021. “Application Placement in Fog Computing with AI Approach: Taxonomy and a State of the Art Survey.” Journal of Network and Computer Applications 185: 103078. https://doi.org/10.1016/j.jnca.2021.103078.


Sutton, Richard S., ve Andrew G. Barto. 2021. “Appendix A: Reinforcement Learning and Deep Reinforcement Learning.” In Reinforcement Learning: An Introduction. 2nd ed. Cambridge, MA: MIT Press.


Wang, Fei, Xiaoping Zhu, Zhou Zhou, ve Yang Tang. 2024. “Deep-Reinforcement-Learning-Based UAV Autonomous Navigation and Collision Avoidance in Unknown Environments.” Chinese Journal of Aeronautics 37 (3): 237–257. https://doi.org/10.1016/j.cja.2023.09.033.


Zhao, Yong, Bin Chen, XiangHan Wang, Zhengqiu Zhu, Yiduo Wang, Guangquan Cheng, Rui Wang, Rongxiao Wang, Ming He, ve Yu Liu. 2022. “A Deep Reinforcement Learning Based Searching Method for Source Localization.” Information Sciences 588: 67–81. https://doi.org/10.1016/j.ins.2021.12.041.


Zhou, S. Kevin, Hoang Ngan Le, Khoa Luu, Hien V. Nguyen, ve Nicholas Ayache. 2021. “Deep Reinforcement Learning in Medical Imaging: A Literature Review.” Medical Image Analysis 73: 102193. https://doi.org/10.1016/j.media.2021.102193.

Sen de Değerlendir!

0 Değerlendirme

Yazar Bilgileri

Avatar
Ana YazarEmre Emer19 Mayıs 2025 19:55
KÜRE'ye Sor