专业科普AlphaGO - Military版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military版 - 专业科普AlphaGO

相关主题
● 和电脑下要大量的新招和骗招	● 能否用生物的研究方法来搞CS？
● 三个异常谷歌围棋AI击败欧洲冠军是过度营销？	● 有谁玩过这个? Artificial Neural Network
● 计算机在无概率的棋类完胜人类只是时间上的问题	● 53 终于跑成功了第一个neural network
● 只要不是0:5就算人类胜	● 50K 招ML Postdoc是真的
● 用一种真正便于棋手理解的方式解释alphago的算法	● 狗的深度学习是真的有技术突破，还是又一个骗钱的玩意？
● 看来电脑围棋压倒人类就在今年了	● 关注人机大战第二轮：李世石还有机会吗？
● 16625份AI论文透露：深度学习正在走向终点？	● AlphaGo之父：关于围棋，人类3000年来犯了一个错zt
● 有些中科大的真是不知道天高地厚	● 方才networking又进了一步

相关话题的讨论汇总
话题: network话题: policy话题: alphago话题: rl话题: deep

进入Military版参与讨论

(共1页)

z*****3
发帖数: 1793

本人CS PHD，专攻方向reinforcement learning （RL），恰好AlphaGo用到很多用到很
多RL。看不下去一群文科生+下室索南YY，乱猜测。
第一个问题，AlphaGO涉及到机器学习中的supervised learning（SL）和RL。这是机器
学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
deep learning的deep neural network作为基础架构来解决 prediction （涉及SL）和
action selection 问题（涉及RL）。
第二个问题，AlphaGO 基础构造
1）利用SL学习了一个policy network。这里解释一下policy，policy是RL，control
thoery中的一个重要概念，简单来讲就是当遇到各种环境反馈时，应该如何选择下一步
的action。这里主要是利用SL学习一个policy neural network。
2）利用RL中的policy gradient算法，优化上面学到的policy network
3）利用deep neural network 近似计算2）得到的Policy的value function。科普，
value function可以看做对棋盘上某个位置的评价。
4) Monte Carlo tree search (MCTS) 方法结合上面得到的policy network和 value
network 进行搜索，预测下一步怎么走。搜索过程要用到policy network和value
network的结果。
第三个问题，为啥AlghaGO那么牛，有效。首先说明，我上面提到的算法出了deep
neural network，都是很成熟的设计和算法，没有啥高端大气上档次。系统的关键就是
deep neural network的运用。1），2）步可以看做是学习阶段，是真正的难点。因为
我们可以用现成的其他算法比如SVM等去学习policy function和value function。但是
问题是围棋是非常复杂的task，SVM最多只能学习一个近似最优的policy function和
value function。deep neural network其实也是去近似求解这两个function，但是其
近似结果比其他算法，比如SVM好非常多！！！而且要命的是现在学界搞不清楚为啥
deep neural network比以前的经典算法管用。
从我上面的分析看出，AlphaGO是运用了机器学习cutting-edge的研究成果来构造，在
这种规则固定，搜索空间固定的情况下，击败人类绝对不在话下。

(共1页)

进入Military版参与讨论

相关主题
● 方才networking又进了一步	● 用一种真正便于棋手理解的方式解释alphago的算法
● “麦金德悖论”与英美霸权的衰落	● 看来电脑围棋压倒人类就在今年了
● “麦金德悖论”与英美霸权的衰落	● 16625份AI论文透露：深度学习正在走向终点？
● 美国变态PI列表转载 (转载)	● 有些中科大的真是不知道天高地厚
● 和电脑下要大量的新招和骗招	● 能否用生物的研究方法来搞CS？
● 三个异常谷歌围棋AI击败欧洲冠军是过度营销？	● 有谁玩过这个? Artificial Neural Network
● 计算机在无概率的棋类完胜人类只是时间上的问题	● 53 终于跑成功了第一个neural network
● 只要不是0:5就算人类胜	● 50K 招ML Postdoc是真的

相关话题的讨论汇总
话题: network话题: policy话题: alphago话题: rl话题: deep

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天