强化学习RL 05: Alpha Go、Alpha Zero

problem：会对未见过的操作懵逼，然后break down。

天狼啸月1990

759人浏览 · 2023-02-28 18:26:43

天狼啸月1990 · 2023-02-28 18:26:43 发布

1. Alpha Go

1.1 Behavior Cloning

1.2 reinforcement learning of policy network

1.3 Alpha Zero

1.4 Monte-Carlo Tree Search

参考

1. Alpha Go

alphaGo actually uses a 19*19*48 tensor to store other information.
number of possible sequence of actions is $10^{170}$
training in 3 steps:
- initialize policy network using behavior cloning.
- train the policy network using policy gradient.
- after training the policy network, use it to train a value network.
Execution (actually play Go games)
- Do Monte Carlo Tree Search (MCTS) using the policy and value networks.

1.1 Behavior Cloning

Behavior cloning is imitation learning rather than reinforcement learning.

problem：会对未见过的操作懵逼，然后break down。

1.2 reinforcement learning of policy network

1.3 Alpha Zero

AlphaGo Zero does not use human experience. (no behavior cloning)

1.4 Monte-Carlo Tree Search

step 1: Selection
step 2: Expansion
step 3: Evaluation
step 4: Backup

参考

1. 王树森~强化学习 Reinforcement Learning

2. https://www.cnblogs.com/pinard/category/1254674.html

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r