ЦЕНТРАЛІЗОВАНЕ НАВЧАННЯ ДЛЯ DEEP Q-LEARNING МОДЕЛEЙ

Автор(и)

  • Вʼячеслав БОЧОК Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», https://orcid.org/0009-0000-3929-2758
  • Наталія ФЕДОРОВА Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0002-4548-4198

DOI:

https://doi.org/10.32689/maup.it.2024.2.1

Ключові слова:

deep Q-learning, reinforcement learning, knowledge distillation, обмін знаннями, централізоване навчання

Анотація

Стаття присвячена використанню централізованого навчання та обміну знаннями між Deep Q-leaning агентами. Багатоагентні системи доволі стійкі до відмов та здатні до самоорганізації, проте досяг- нення цього може вимагати багато ресурсів. Агент самостійно досліджує середовище, поступово адаптуючись до різних ситуацій. Для систем, де простір станів є неперервним, а отже, має безліч варіантів, а результат переходу в майбутньому невідомий, для агента складно обирати досліджувати простір дій і станів, обирати вигіднішу стра- тегію та не застрягати у псевдовиграшних стратегіях (локальних мінімумах). Метою є підвищення стабільності процесу навчання. На прикладі підходу MADDPG та фреймворку KnowSR було запропоновано таку методологію: використати декілька агентів, що обмінюються досвідом та знаннями між моделями, утворюючи спільний буфер. Науковою новизною є використання централізованого навчання для підвищення стабільності дій Deep Q-learning агентів з механізмом обміну вже засвоєного знання.

Посилання

Eysenbach B., Kumar A. Reinforcement learning is supervised learning on optimized data. The BAIR Blog. 2020. February 1, 2024, Retrieved from https://bair.berkeley.edu/blog/2020/10/13/supervised-rl/

GaoZ.,XuK.,DingB.,WangH.,LiY.,JiaH.KnowSR:KnowledgeSharingamongHomogeneousAgentsinMulti-agent Reinforcement Learning. 2021. (arXiv preprint arXiv:2105.11611).

Hinton,Geoffrey;Vinyals,Oriol;Dean,Jeff(2015).«Distillingtheknowledgeinaneuralnetwork».arXiv:1503.02531

Leitão, Paulo; Karnouskos, Stamatis (March 26, 2015). Industrial agents: emerging applications of software agents in industry. Leitão, Paulo, Karnouskos, Stamatis. Amsterdam, Netherlands. ISBN 978-0128003411. OCLC 905853947.

M. Brambilla, E. Ferrante, M. Birattari and M. Dorigo, «Swarm robotics: A review from the swarm engineering perspective», Swarm Intell., vol. 7, no. 1, pp. 1-41, 2013.

M.Dorigo,G.TheraulazandV.Trianni,«Reflectionsonthefutureofswarmrobotics»,Sci.Robot.,vol.5,no.49,2020. 7. Mnih V. et al. Playing atari with deep reinforcement learning //arXiv preprint arXiv:1312.5602. 2013.

Richard S. Sutton, Andrew G. Barto. Reinforcement Learning: An Introduction (2nd edition). 2020.

Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer. Multi-Agent Reinforcement Learning: Foundations and

Modern Approaches. MIT Press, 2024. https://www.marl-book.com/

Wooldridge, Michael. An Introduction to MultiAgent Systems. John Wiley & Sons. 2002. p. 366. ISBN 978-0-

-49691-5.

##submission.downloads##

Опубліковано

2024-08-13

Як цитувати

БОЧОК, В., & ФЕДОРОВА, Н. (2024). ЦЕНТРАЛІЗОВАНЕ НАВЧАННЯ ДЛЯ DEEP Q-LEARNING МОДЕЛEЙ. Інформаційні технології та суспільство, (2 (13), 6-11. https://doi.org/10.32689/maup.it.2024.2.1