AlphaGo Fan VS AlphaGo Zero
2015年10月,AlphaGo以 5 : 0 的战绩战胜欧洲围棋冠军Fan Hui
2016/03 AlphaGo Lee : 李世石 2017/05 AlphaGo : 柯洁
4 : 1 3 : 0
纲要:
零、蒙特卡洛树搜索(MCTS)介绍
一、监督学习+强化学习版(2015 Fan Hui版)
二、强化学习版(2017 Zero版)
三、版本对比及细节介绍
MCTS算法是一种决策算法。
树的每个结点s包含所有合法的动作(s,a)。
每个边对应一个二元组( V(s,a),N(s,a) ), V 是total value,
N是被访问的次数。
1. Selection ( Tree traversal )
c 是一个常数。c 越大就越偏向于广度搜索,c 越小就越
偏向于深度搜索.
2. Expansion
Selection直到叶节点,即没有被访问过的结点,进行
Expansion.
3. Evaluation or Simulatioin ( Rollout )
按照某种策略直走到游戏结束,返回一个值{+1, -1}
4. Backpropagation
AlphaGo 的策略和估值网络
Policy network
SL
Fast Rollout
Tree Policy
RL
Supervised Learning
)|
sap
(
)|
sap
(
)|
sap
(
Reinforcement Learning
self-play
)|
sap
(
Value network
Value Learning
value
首先,基于人类高手的围棋数据训练两个网络 SL 和 Fast Rollout.
Fast Rollout 利用少量的局部特征作为输入,直接用softmax输出预测结果。
网络结构简单。预测的准确率为24.2%,每一次选择耗时2微秒。
SL网络一共有13层,准确率达到55.7%,耗时3毫秒。