|
|
|
|
a*****a 发帖数: 193 | 5 AlphaGo 除了从已有的棋局学习之外,self learning 也起到很大作用。 |
|
n*********3 发帖数: 534 | 6 If AlphaGo really beat top pros, then alphago compete with alphago may prove
that the current komi is wrong. Some other komi may be better. |
|
O***p 发帖数: 1333 | 7 设想如果Alpha能自己编死活题的话,不知道能不能找到比发阳论难10倍的题。 |
|
|
a******0 发帖数: 121 | 9 我对 Horizon Effect 的理解是:由搜索深度限制而看不到更远的事件。
AlphoGo 算法:用 Policy Network 设分枝、建一搜索树,每一枝结(node)由 Value
Network 设一价值,从每一树叶(leaf)起多次用随机下法(Monte Carlo Simulation
)把棋走到终盘,根据结果输赢反馈修改所有父母枝结的价值;最后价值底的分枝被
剪枝。基本原理与 minmax/alpha-bata 相同。
Deepmind 团队没有公开搜索树的深度,显然这由搜索时间、速度决定。但因为MCTS把
棋走到终盘,应该没有一个绝对的地平线(Horizon):地平线以外的招法完全看不到。
network |
|