喜好文章请关注:“我是天边飘过一朵云”

关于AlphaGo的事情事理,任何完备信息博弈都无非是一种搜索
搜索的繁芜度取决于搜索空间的宽度(每步数的多寡)和深度(博弈的步数)。
对付围棋,宽度约为250,深度约为150。
AlphaGo用代价网络消减搜索宽度,从而极大地缩小了搜索范围。

所谓代价网络,是用一个“代价”数来评估当前的棋局
如果我们把棋局上的所有棋子的位置总和称为一个“状态”,每个状态可能许可多少个不同的后续状态。
所有可能状态的前后次序就构成了所谓的搜索树。
一个暴力的搜索算法会遍历这个搜索树的每一个子树。
但是,实在有些状态是较随意马虎判断输赢的,也便是评估其“代价”。
我们把这些状态用代价来表示,就可以据此省略了对它所有后续状态的搜索,即利用代价网络减少搜索深度。

所谓策略,是指在给定棋局,评估每一种应对可能的胜率,从而根据当前盘面状态来选择走棋策略。
在数学上,便是估计一个在各个合法位置高下子得胜可能性的概率分布。
由于有些下法的得胜概率很低,可以被忽略,以是用策略评估就可以消减搜索树的宽度。

AlphaGo的工作事理人工智能的设计思路是什么

也便是说,所谓的“代价”便是能看懂棋局,机器一下就能判断某给定棋局是不是能赢,这是个宏不雅观的评估。
所谓的“策略”,是指在每一步博弈时,各种选择的取舍,是一种微不雅观的评估。
AlphaGo利用仿照棋手、强化自我的方法,在宏不雅观(代价评估)和微不雅观(策略评估)两个方面提高了探索的效率。

本文原创自头条号“我是天边飘过一朵云”,未经授权严禁转载。