Název: Optimalizace herní strategie agenta zpětnovazebním učením
Další názvy: Reinforcement Learning for Optimizing Agent Strategies
Autoři: Seják, Michal
Vedoucí práce/školitel: Konopík Miloslav, Ing. Ph.D.
Oponent: Sido Jakub, Ing.
Datum vydání: 2020
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/41802
Klíčová slova: zpětnovazebné učení;umělá inteligence;prostředí;agent;strategie
Klíčová slova v dalším jazyce: reinforcement learning;artificial intelligence;environment;agent;strategy
Abstrakt: Agenti zpětnovazebného učení v současnosti patří mezi nejlepší způsoby, jak řešit obecné úlohy. Konkrétně algoritmus AlphaGo Zero (AZ) se v hraní mnoha deskových her drží v současnosti na nejvyšších příčkách. Nicméně, hodí se pouze na práci s deterministickými adverzálními prostředími a jako takový nenachází ve skutečném světě mnohá uplatnění, jelikož obdržení veškeré informace o běžných procesech je takřka nemožné. V této práci analyzujeme způsob, jakým AZ dosahuje svých výsledků a jak lze tento algoritmus upravit tak, aby řešil obecné stochastické neadverzální problémy, přičemž zavádíme techniku kontroly redundance, pomocí níž lze efektivněji prořezávat stavový strom. Na závěr navrhneme vlastní prostředí a otestujeme, jakých výsledků dosahuje obyčený algoritmus DQN ve srovnání s upraveným AZ bez a s kontrolou redundance, kde ukážeme, že verze AZ využívající kontrolu redundance dosahuje mnohem kvalitnějších výsledků, než ostatní dva algoritmy.
Abstrakt v dalším jazyce: Reinforcement learning agents are one of the best methods of general problem solving. The algorithm AlphaGo Zero (AZ) in particular achieved state-of-the-art results in solving multiple board games. However, it is suited only for solving adversary deterministic environments and finds few real-life applications, as finding complete information about real-life processes is next to impossible. In our work, we analyze how exactly does AZ function and how it can be adjusted for solving non-adversary stochastic environments, while introducing a redundancy checking technique to prune the state tree more effectively. Finally, we design a custom environment and examine how the simple DQN algorithm compares to the adjusted AZ both with and without redundancy checking, showing that the version utilizing the redundancy checking heuristic remarkably outperforms both the DQN and the unamplified AZ.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
bachelors.pdfPlný text práce849,86 kBAdobe PDFZobrazit/otevřít
A17B0344P_Posudek.pdfPosudek oponenta práce130,18 kBAdobe PDFZobrazit/otevřít
A17B0344P_Hodnoceni.pdfPosudek vedoucího práce104,32 kBAdobe PDFZobrazit/otevřít
A17B0344P_Obhajoba.pdfPrůběh obhajoby práce74,62 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/41802

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.