h*h 发帖数: 27852 | 1 【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里
排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下
了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快
做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清
空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。
另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速
走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这
个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这
样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地
影响对该局面的胜率估计。注意这里得到很多个数的原因是按照文章,叶结点在积累了
一定盘数后(40)才展开,而不是第一次访问就展开,以提高DCNN的效率。DarkForest
没有用到估值网络,在L11的挖之后正确地返回了L12和L10这两个应手,据李喆六段说
,都是正确的应手,这间接支持了这个推断。
那为什么估值网络会出问题呢?可能是用于训练估值网络的自学习(Self-Play)的样
本分布有盲点。为了提高样本生成速度,AlphaGo的自学习样本是通过用两个纯粹的
DCNN互搏来生成的(完全没有搜索),而DCNN下出来的棋因为是纯模式识别,一个大问
题是死活不正确,经常是在死棋里面下子。如果黑白两方都犯了死活不分的毛病,然后
一方比如说白侥幸胜了,那估值网络就会认为方才白的死棋局面是好的。这样估值网络
就会染上同样毛病,在中盘复杂的对杀局面中判断失误。若是这种情况就不好处理,
AlphaGo下一局可能还会有同样的问题。
关于DCNN+MCTS打劫,在DarkForest上主要表现在碰到有劫可提的情况时,DCNN经常会
以非常高的概率(0.8以上)返回提劫这一手。可能的原因是,劫点是作为单独的特征
输入的,所以DCNN学习到了它和输出(提劫)的强关联性。这样在MCTS搜索时会强烈偏
向这一手。这在很多情况下是正确的,但有时劫很小可以不予理会,或者碰到两个或者
多个劫需要放弃一个,那“遇劫必提”的偏向性就会给搜索带来麻烦。有时连环劫电脑
反复提就是这个原因。AlphaGo可能会有这个问题,或者是反向的问题(比如说提劫概
率很小),这样在下棋时大家就会感觉到它在避免开劫。 |
b*******8 发帖数: 37364 | 2 到底是修79手还是后面的送死18K手?79手好歹也不丢人,感觉上还是要让电脑在任何
情况下都不要出现后面的送死18K。 |
n****g 发帖数: 14743 | 3 难道真是夏时制啊?
“可能是时间管理子系统在………”
【在 h*h 的大作中提到】 : 【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】 : 第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里 : 排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下 : 了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快 : 做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清 : 空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。 : 另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速 : 走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这 : 个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这 : 样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地
|
z***e 发帖数: 5600 | 4 那个时间确实和东部夏时制提前一小时的时刻很接近,计算机那时剩一小时多点,带来
突然发现自己没时间的遐想
不过这和误判自己胜率70有些矛盾,而且目前也没听说谷歌那边的确认
【在 n****g 的大作中提到】 : 难道真是夏时制啊? : “可能是时间管理子系统在………”
|
s***u 发帖数: 80 | 5 79秒下难道不是因为78李世石长考了20分钟的缘故?
DarkForest
【在 h*h 的大作中提到】 : 【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】 : 第四局李世石的78手L11挖被大家誉为“神之一手”,在DarkForest的策略网络输出里 : 排第31位,而J11靠排第10位。因此我觉得可能是AlphaGo没有算到这一步。如果对方下 : 了一手机器没算到的棋,则蒙特卡罗搜索树会清空,然后重新开始搜索,不应该会太快 : 做出结论。李喆六段告诉我K10这一手是秒下,那有可能是时间管理子系统在搜索树清 : 空时有程序上的漏洞,因此过早地将搜索结果返回了。这个比较容易修正。 : 另一种可能是,AlphaGo的估值网络出了问题。因为估值网络的权重是0.5,而不管快速 : 走子花了多少步,它的权值也是0.5。对于一个局面,估值网络只得到一个数,而从这 : 个局面往下走子,走多后会得到很多个数,统计上应该更为重要,但是AlphaGo不是这 : 样想的,直接对半加权了。所以如果估值网络对某个局面得到的结果不对,则会极大地
|
h*h 发帖数: 27852 | 6 电脑会用对方的时间算棋吗?
【在 s***u 的大作中提到】 : 79秒下难道不是因为78李世石长考了20分钟的缘故? : : DarkForest
|
n****g 发帖数: 14743 | 7 会。还有个专业名词,好像是叫 pondering
【在 h*h 的大作中提到】 : 电脑会用对方的时间算棋吗?
|
n**n 发帖数: 626 | 8 不排除这个可能,开始计算时发现已经没有时间了。就看第五盘能不能再出类似的纰漏
了。
不过如果真是这个问题,可能谷歌也不一定愿意承认,涉及到其云服务器稳定性的问题
,影响公司生意。
【在 z***e 的大作中提到】 : 那个时间确实和东部夏时制提前一小时的时刻很接近,计算机那时剩一小时多点,带来 : 突然发现自己没时间的遐想 : 不过这和误判自己胜率70有些矛盾,而且目前也没听说谷歌那边的确认
|
D*******r 发帖数: 2323 | 9 “在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是
AlphaGo没有算到这一步。”
老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是
异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。
这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的
pattern。
【在 h*h 的大作中提到】 : 电脑会用对方的时间算棋吗?
|
n*****t 发帖数: 22014 | 10 应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的
【在 D*******r 的大作中提到】 : “在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是 : AlphaGo没有算到这一步。” : 老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是 : 异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。 : 这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的 : pattern。
|
D*******r 发帖数: 2323 | 11 所有职业棋手讨论的,打劫白并不有利啊,柯洁也没说打劫白就有优势啊。
【在 n*****t 的大作中提到】 : 应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的
|
P******a 发帖数: 1379 | 12 没算到按理说应当关系不大,田不是说把MCTS树清零重新搜就好了吗。树清零时出bug
这个听起来很低级,应当就是田说的估值网络的问题。因为78手是阿发狗认为小概率的
一手,而估值网络在左右互搏的训练中能下出这种小概率的情况也很少,由于类似情况
训练少,从而形成所谓的盲区?
【在 D*******r 的大作中提到】 : “在DarkForest的策略网络输出里排第31位,而J11靠排第10位。因此我觉得可能是 : AlphaGo没有算到这一步。” : 老姜说大棋渣摆棋时建议的靠是异曲同工,看到没有,对于计算机来说,先靠完全不是 : 异曲同工。先靠就把意图暴露了,且早在计算机的计算之中。 : 这就像阿法狗的命门是隐形且流动的,人类起码现在没有总结出它的命门位置的 : pattern。
|
n*****t 发帖数: 22014 | 13 白本身劫很多,就看怎么转换,打赢问题不大。另外,白空很多,黑这一块被破掉的话
,能围空的地方很少了,且白棋比较厚。
不一定白优势,但白棋好下。
【在 D*******r 的大作中提到】 : 所有职业棋手讨论的,打劫白并不有利啊,柯洁也没说打劫白就有优势啊。
|
h*h 发帖数: 27852 | 14 勾动疯狗病,是人类唯一对策
劫争,手筋,复杂的对杀,是人类最好的机会
【在 n*****t 的大作中提到】 : 应对正确的话,暴露不暴露都是打劫,疯狗病不是人类应该讨论或者利用的
|