Affordable Access

Aplikace metod posilovaného učení pro sběratelské karetní hry / Applying Reinforcement Learning Techniques to Collectible Card Games

Authors
  • petráň, marcel
Publication Date
Jun 13, 2024
Source
Digital Library of the Czech Technical University in Prague
Keywords
License
Unknown

Abstract

V posledních letech se ukázalo, že posilované učení je velmi slibné při řešení složitých her. Tento výzkum se zabývá aplikací technik posilování učení na sběratelské karetní hry se zaměřením na Hearthstone. Použili jsme algoritmy Proximal Policy Optimization (PPO) a Advantage Actor-Critic (A2C) k trénování agentů v různých scénářích. Náš výzkum zahrnoval formulování Hearthstone ve formalismu popisující hry s nedokonalou informací, úpravu simulátoru hry Hearthstone, vývoj agentů učících se pomocí technik posilovaného učení, definování dostupných informací o stavu pro agenty, implementace více neuronových sítí pro akce, a empirické vyhodnocení výkonu agentů oproti heuristickým agentům a také proti sobě. Výsledky ukázaly, že PPO se sice dokáže naučit základní strategie a cíle hry. Naproti tomu A2C vykazoval značnou numerickou nestabilitu při učení, což jej činilo pro naše účely téměř nepoužitelným. Závěrem lze říci, že ačkoli posilovací učení vykazuje ve sběratelských karetních hrách potenciál, současné algoritmy čelí značným výzvám při dosahování nadlidského výkonu v těchto multiagentních prostředích s nedokonalými informacemi. Budoucí práce by mohla zahrnovat zkoumání sofistikovanějších algoritmů, jako je RNaD, a zdokonalování metodik trénování s cílem zvýšit výkonnost agentů. / In recent years, reinforcement learning has shown significant promise in solving complex games. This research investigates the application of reinforcement learning techniques to Collectible Card Games (CCGs), with a specific focus on Hearthstone. We have used Proximal Policy Optimisation (PPO) and Advantage Actor-Critic (A2C) algorithms to train agents in various scenarios. Our research includes formulating Hearthstone in the formalism describing imperfect information games, adjusting a Hearthstone simulator, developing reinforcement learning agents, defining the observation given to agents, implementing multiple neural networks for actions, and empirically evaluating their performance against heuristic-based agents and also against each other. The results demonstrated that the PPO was able to learn the basic strategies and objectives of the game. In contrast, the A2C exhibited significant numerical instability, rendering it nearly unusable for our purposes. In conclusion, while reinforcement learning shows potential in CCGs, current algorithms face significant challenges in achieving superhuman performance levels in these multi-agent, imperfect information environments. Future work could involve exploring more sophisticated algorithms, such as RNaD, and refining training methodologies to enhance agent performance.

Report this publication

Statistics

Seen <100 times