由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
Military版
- 专业科普AlphaGO
相关主题
●
和电脑下要大量的新招和骗招
●
能否用生物的研究方法来搞CS?
●
三个异常 谷歌围棋AI击败欧洲冠军是过度营销?
●
有谁玩过这个? Artificial Neural Network
●
计算机在无概率的棋类完胜人类只是时间上的问题
●
53 终于跑成功了第一个neural network
●
只要不是0:5就算人类胜
●
50K 招ML Postdoc是真的
●
用一种真正便于棋手理解的方式解释alphago的算法
●
狗的深度学习 是真的有技术突破, 还是又一个骗钱的玩意?
●
看来电脑围棋压倒人类就在今年了
●
关注人机大战第二轮:李世石还有机会吗?
●
16625份AI论文透露:深度学习正在走向终点?
●
AlphaGo之父:关于围棋,人类3000年来犯了一个错zt
●
有些中科大的真是不知道天高地厚
●
方才networking又进了一步
相关话题的讨论汇总
话题: network
话题: policy
话题: alphago
话题: rl
话题: deep
进入Military版参与讨论
1
(共1页)
z*****3
发帖数: 1793
1
本人CS PHD,专攻方向reinforcement learning (RL),恰好AlphaGo用到很多用到很
多RL。看不下去一群文科生+下室索南YY,乱猜测。
第一个问题,AlphaGO涉及到机器学习中的supervised learning(SL)和RL。这是机器
学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
deep learning的deep neural network作为基础架构来解决 prediction (涉及SL)和
action selection 问题(涉及RL)。
第二个问题,AlphaGO 基础构造
1)利用SL学习了一个policy network。这里解释一下policy,policy是RL,control
thoery中的一个重要概念,简单来讲就是当遇到各种环境反馈时,应该如何选择下一步
的action。这里主要是利用SL学习一个policy neural network。
2)利用RL中的policy gradient算法,优化上面学到的policy network
3)利用deep neural network 近似计算2)得到的Policy的value function。科普,
value function可以看做对棋盘上某个位置的评价。
4) Monte Carlo tree search (MCTS) 方法结合上面得到的policy network和 value
network 进行搜索,预测下一步怎么走。搜索过程要用到policy network和value
network的结果。
第三个问题,为啥AlghaGO那么牛,有效。首先说明,我上面提到的算法出了deep
neural network,都是很成熟的设计和算法,没有啥高端大气上档次。系统的关键就是
deep neural network的运用。1),2)步可以看做是学习阶段,是真正的难点。因为
我们可以用现成的其他算法比如SVM等去学习policy function和value function。但是
问题是围棋是非常复杂的task,SVM最多只能学习一个近似最优的policy function和
value function。deep neural network其实也是去近似求解这两个function,但是其
近似结果比其他算法,比如SVM好非常多!!!而且要命的是现在学界搞不清楚为啥
deep neural network比以前的经典算法管用。
从我上面的分析看出,AlphaGO是运用了机器学习cutting-edge的研究成果来构造,在
这种规则固定,搜索空间固定的情况下,击败人类绝对不在话下。
1
(共1页)
进入Military版参与讨论
相关主题
●
方才networking又进了一步
●
用一种真正便于棋手理解的方式解释alphago的算法
●
“麦金德悖论”与英美霸权的衰落
●
看来电脑围棋压倒人类就在今年了
●
“麦金德悖论”与英美霸权的衰落
●
16625份AI论文透露:深度学习正在走向终点?
●
美国变态PI列表 转载 (转载)
●
有些中科大的真是不知道天高地厚
●
和电脑下要大量的新招和骗招
●
能否用生物的研究方法来搞CS?
●
三个异常 谷歌围棋AI击败欧洲冠军是过度营销?
●
有谁玩过这个? Artificial Neural Network
●
计算机在无概率的棋类完胜人类只是时间上的问题
●
53 终于跑成功了第一个neural network
●
只要不是0:5就算人类胜
●
50K 招ML Postdoc是真的
相关话题的讨论汇总
话题: network
话题: policy
话题: alphago
话题: rl
话题: deep
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.