喜好文章请关注:“我是天边飘过一朵云”
关于AlphaGo的事情事理,任何完备信息博弈都无非是一种搜索。搜索的繁芜度取决于搜索空间的宽度(每步数的多寡)和深度(博弈的步数)。对付围棋,宽度约为250,深度约为150。AlphaGo用代价网络消减搜索宽度,从而极大地缩小了搜索范围。
所谓代价网络,是用一个“代价”数来评估当前的棋局。如果我们把棋局上的所有棋子的位置总和称为一个“状态”,每个状态可能许可多少个不同的后续状态。所有可能状态的前后次序就构成了所谓的搜索树。一个暴力的搜索算法会遍历这个搜索树的每一个子树。但是,实在有些状态是较随意马虎判断输赢的,也便是评估其“代价”。我们把这些状态用代价来表示,就可以据此省略了对它所有后续状态的搜索,即利用代价网络减少搜索深度。
所谓策略,是指在给定棋局,评估每一种应对可能的胜率,从而根据当前盘面状态来选择走棋策略。在数学上,便是估计一个在各个合法位置高下子得胜可能性的概率分布。由于有些下法的得胜概率很低,可以被忽略,以是用策略评估就可以消减搜索树的宽度。
也便是说,所谓的“代价”便是能看懂棋局,机器一下就能判断某给定棋局是不是能赢,这是个宏不雅观的评估。所谓的“策略”,是指在每一步博弈时,各种选择的取舍,是一种微不雅观的评估。AlphaGo利用仿照棋手、强化自我的方法,在宏不雅观(代价评估)和微不雅观(策略评估)两个方面提高了探索的效率。
本文原创自头条号“我是天边飘过一朵云”,未经授权严禁转载。