本项目主要探讨了深度Q网络(DQN)在2048游戏中的应用。开发了一个基于DQN的代理(agent),使其能自主玩2048游戏并优化策略。 在notebook中,按照顺序执行每个cell,其中包括配置环境、定义模型、训练模型、使用模型推理游戏等步骤。 可以修改的部分包括但不限于 ...
Gumbel MuZero和 MuZero在不同模拟次数下,在四个环境(PongNoFrameskip-v4, MsPacmanNoFrameskip-v4, Gomoku和 LunarLanderContinuous-v2)上的基线结果: Stochastic MuZero和 MuZero在具有不同随机性程度的2048环境(num_chances=2/5) 上的基线结果: 以下是关于 MCTS ...