由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
相关主题
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?阿法狗第二局最令人震惊的地方在于
AlphaGo的算法等技术分析第三局估计也没啥可看了
神经网络的结构决定了他的极限猜一下几个AlphaGo崩了的原因
原来阿尔法下的是5秒版的ZEN金明完9段点评AlphaGo: 缺点明显
看大家讨论中比较少提这个 reinforcement learning阿法狗生怕人类还不够绝望
我现在敢80%肯定alpha go 搞不定小李的模仿棋从第四盘棋看狗狗的弱点
现在回头再看第4局我靠 小李凭这盘棋再入史册
AlphaGo通俗的解释写过程序的都知道
相关话题的讨论汇总
话题: 估值话题: alphago话题: dcnn话题: 网络话题: darkforest
进入Go版参与讨论
1 (共1页)
h*h
发帖数: 27852
1
【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里
排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下
了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快
做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清
空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。
另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速
走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这
个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这
样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地
影响对该局面的胜率估计。注意这里得到很多个数的原因是按照文章,叶结点在积累了
一定盘数后(40)才展开,而不是第一次访问就展开,以提高DCNN的效率。DarkForest
没有用到估值网络,在L11的挖之后正确地返回了L12和L10这两个应手,据李喆六段说
,都是正确的应手,这间接支持了这个推断。
那为什么估值网络会出问题呢?可能是用于训练估值网络的自学习(Self-Play)的样
本分布有盲点。为了提高样本生成速度,AlphaGo的自学习样本是通过用两个纯粹的
DCNN互搏来生成的(完全没有搜索),而DCNN下出来的棋因为是纯模式识别,一个大问
题是死活不正确,经常是在死棋里面下子。如果黑白两方都犯了死活不分的毛病,然后
一方比如说白侥幸胜了,那估值网络就会认为方才白的死棋局面是好的。这样估值网络
就会染上同样毛病,在中盘复杂的对杀局面中判断失误。若是这种情况就不好处理,
AlphaGo下一局可能还会有同样的问题。
关于DCNN+MCTS打劫,在DarkForest上主要表现在碰到有劫可提的情况时,DCNN经常会
以非常高的概率(0.8以上)返回提劫这一手。可能的原因是,劫点是作为单独的特征
输入的,所以DCNN学习到了它和输出(提劫)的强关联性。这样在MCTS搜索时会强烈偏
向这一手。这在很多情况下是正确的,但有时劫很小可以不予理会,或者碰到两个或者
多个劫需要放弃一个,那“遇劫必提”的偏向性就会给搜索带来麻烦。有时连环劫电脑
反复提就是这个原因。AlphaGo可能会有这个问题,或者是反向的问题(比如说提劫概
率很小),这样在下棋时大家就会感觉到它在避免开劫。
b*******8
发帖数: 37364
2
到底是修79手还是后面的送死18K手?79手好歹也不丢人,感觉上还是要让电脑在任何
情况下都不要出现后面的送死18K。
n****g
发帖数: 14743
3
难道真是夏时制啊?
“可能是时间管理子系统在………”

【在 h*h 的大作中提到】
: 【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
: 第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里
: 排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下
: 了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快
: 做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清
: 空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。
: 另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速
: 走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这
: 个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这
: 样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地

z***e
发帖数: 5600
4
那个时间确实和东部夏时制提前一小时的时刻很接近,计算机那时剩一小时多点,带来
突然发现自己没时间的遐想
不过这和误判自己胜率70有些矛盾,而且目前也没听说谷歌那边的确认

【在 n****g 的大作中提到】
: 难道真是夏时制啊?
: “可能是时间管理子系统在………”

s***u
发帖数: 80
5
79秒下难道不是因为78李世石长考了20分钟的缘故?

DarkForest

【在 h*h 的大作中提到】
: 【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
: 第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里
: 排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下
: 了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快
: 做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清
: 空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。
: 另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速
: 走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这
: 个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这
: 样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地

h*h
发帖数: 27852
6
电脑会用对方的时间算棋吗?

【在 s***u 的大作中提到】
: 79秒下难道不是因为78李世石长考了20分钟的缘故?
:
: DarkForest

n****g
发帖数: 14743
7
会。还有个专业名词,好像是叫 pondering

【在 h*h 的大作中提到】
: 电脑会用对方的时间算棋吗?
n**n
发帖数: 626
8
不排除这个可能,开始计算时发现已经没有时间了。就看第五盘能不能再出类似的纰漏
了。
不过如果真是这个问题,可能谷歌也不一定愿意承认,涉及到其云服务器稳定性的问题
,影响公司生意。

【在 z***e 的大作中提到】
: 那个时间确实和东部夏时制提前一小时的时刻很接近,计算机那时剩一小时多点,带来
: 突然发现自己没时间的遐想
: 不过这和误判自己胜率70有些矛盾,而且目前也没听说谷歌那边的确认

D*******r
发帖数: 2323
9
“在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是
AlphaGo没有算到这一步。”
老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是
异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。
这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的
pattern。

【在 h*h 的大作中提到】
: 电脑会用对方的时间算棋吗?
n*****t
发帖数: 22014
10
应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的

【在 D*******r 的大作中提到】
: “在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是
: AlphaGo没有算到这一步。”
: 老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是
: 异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。
: 这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的
: pattern。

D*******r
发帖数: 2323
11
所有职业棋手讨论的,打劫白并不有利啊,柯洁也没说打劫白就有优势啊。

【在 n*****t 的大作中提到】
: 应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的
P******a
发帖数: 1379
12
没算到按理说应当关系不大,田不是说把MCTS树清零重新搜就好了吗。树清零时出bug
这个听起来很低级,应当就是田说的估值网络的问题。因为78手是阿发狗认为小概率的
一手,而估值网络在左右互搏的训练中能下出这种小概率的情况也很少,由于类似情况
训练少,从而形成所谓的盲区?

【在 D*******r 的大作中提到】
: “在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是
: AlphaGo没有算到这一步。”
: 老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是
: 异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。
: 这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的
: pattern。

n*****t
发帖数: 22014
13
白本身劫很多,就看怎么转换,打赢问题不大。另外,白空很多,黑这一块被破掉的话
,能围空的地方很少了,且白棋比较厚。
不一定白优势,但白棋好下。

【在 D*******r 的大作中提到】
: 所有职业棋手讨论的,打劫白并不有利啊,柯洁也没说打劫白就有优势啊。
h*h
发帖数: 27852
14
勾动疯狗病,是人类唯一对策
劫争,手筋,复杂的对杀,是人类最好的机会

【在 n*****t 的大作中提到】
: 应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的
1 (共1页)
进入Go版参与讨论
相关主题
写过程序的都知道看大家讨论中比较少提这个 reinforcement learning
阿发狗证明了天才和疯子就一尺之遥我现在敢80%肯定alpha go 搞不定小李的模仿棋
阿法狗第四局最终并不是输在对妙手的漏算上现在回头再看第4局
模仿棋是MCTS的梦魇AlphaGo通俗的解释
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?阿法狗第二局最令人震惊的地方在于
AlphaGo的算法等技术分析第三局估计也没啥可看了
神经网络的结构决定了他的极限猜一下几个AlphaGo崩了的原因
原来阿尔法下的是5秒版的ZEN金明完9段点评AlphaGo: 缺点明显
相关话题的讨论汇总
话题: 估值话题: alphago话题: dcnn话题: 网络话题: darkforest