logo资料库

AlphaGo VS AlphaGo Zero 对比分析讲解.ppt

第1页 / 共29页
第2页 / 共29页
第3页 / 共29页
第4页 / 共29页
第5页 / 共29页
第6页 / 共29页
第7页 / 共29页
第8页 / 共29页
资料共29页,剩余部分请下载后查看
AlphaGo Fan VS AlphaGo Zero
2015年10月,AlphaGo以 5 : 0 的战绩战胜欧洲围棋冠军Fan Hui
2016/03 AlphaGo Lee : 李世石 2017/05 AlphaGo : 柯洁 4 : 1 3 : 0
纲要: 零、蒙特卡洛树搜索(MCTS)介绍 一、监督学习+强化学习版(2015 Fan Hui版) 二、强化学习版(2017 Zero版) 三、版本对比及细节介绍
MCTS算法是一种决策算法。 树的每个结点s包含所有合法的动作(s,a)。 每个边对应一个二元组( V(s,a),N(s,a) ), V 是total value, N是被访问的次数。 1. Selection ( Tree traversal ) c 是一个常数。c 越大就越偏向于广度搜索,c 越小就越 偏向于深度搜索. 2. Expansion Selection直到叶节点,即没有被访问过的结点,进行 Expansion. 3. Evaluation or Simulatioin ( Rollout ) 按照某种策略直走到游戏结束,返回一个值{+1, -1} 4. Backpropagation
AlphaGo 的策略和估值网络 Policy network SL Fast Rollout Tree Policy RL Supervised Learning )| sap ( )| sap ( )| sap ( Reinforcement Learning self-play )| sap ( Value network Value Learning value
首先,基于人类高手的围棋数据训练两个网络 SL 和 Fast Rollout. Fast Rollout 利用少量的局部特征作为输入,直接用softmax输出预测结果。 网络结构简单。预测的准确率为24.2%,每一次选择耗时2微秒。 SL网络一共有13层,准确率达到55.7%,耗时3毫秒。
分享到:
收藏