Bakalářská práce

Monte Carlo Tree Search in Deep Reinforcement Learning Algorithms

Richard Schwarz, učo 521781
Anotace

Táto práca skúma integráciu Monte Carlo stromového vyhľadávania (MCTS) do algoritmov hlbokého posilňovacieho učenia. Po prvé, predstavujeme MCTS ako samostatnú politiku pre Markovské rozhodovacie procesy (MDP). Po druhé, kombinujeme ho s prístupmi založenými na modelovom posilňovacom učení, pričom využívame MCTS ako plánovací nástroj. Začíname s AlphaZero, ktorý operuje pod silnými predpokladmi o znalostiach …více

Abstract

This thesis explores the integration of Monte Carlo tree search (MCTS) into deep reinforcement learning algorithms. Firstly, we introduce MCTS as a standalone policy for Markov decision processes (MDP). Secondly, we combine it with model-based reinforcement learning approaches by utilizing MCTS as a planning tool. We start with AlphaZero, which operates under strong assumptions about the knowledge …více

Zadání práce
The goal of the thesis is the survey of of deep reinforcement learning algorithms based on the Monte Carlo tree search (MCTS) framework. The ultimate focus is on a clear, readable, and thorough explanation of the Stochastic MuZero algorithm. The goal is for a reader knowledgeable in general reinforcement learning (and its implementation aspects) to be able to design a crude implementation of the aforementioned algorithms based on the information acquired from the thesis. Hence, the expected outputs of the thesis are as follows:
  • Description and explanation of the Monte Carlo tree search framework
  • Description and an explanation of the key MCTS-based reinforcement learning algorithms, namely AlphaZero, MuZero, and stochastic MuZero. This will include not only the explanation of the core MCTS-based components, but also a discussion of the neural net components, their architecture, and training.
  • A lightweight experimental part which will report on an application of an existing implementation of (stochastic) MuZero on some standard benchmark of the author's choice. The goal is to report on possible pitfalls of applying the studied algorithms in practice.
Práce zkontrolována:
24. 5. 2024 19:15, doc. RNDr. Petr Novotný, Ph.D., učo 172743
Plný text práce
1,6 MB / soubor PDF
Jazyk práce
angličtina angličtina
Termín obhajoby
24. 6. 2024
Práce byla úspěšně obhájena

Vedoucí

doc. RNDr. Petr Novotný, Ph.D., učo 172743
KTP FI MU

Oponent

Mgr. Martin Kurečka
KTP FI MU

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.