哈萨比斯又给出新消息 - Go版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - 哈萨比斯又给出新消息

相关主题
● 原来阿尔法下的是５秒版的ＺＥＮ	● 阿发狗证明了天才和疯子就一尺之遥
● 现在是不是确定alpha狗可以对人类让先了？ (转载)	● 阿法狗第四局最终并不是输在对妙手的漏算上
● 神经网络的结构决定了他的极限	● zt【FACEBOOK 围棋软件专家田渊栋博士对第四盘分析】
● 看大家讨论中比较少提这个 reinforcement learning	● 我现在敢80%肯定alpha go 搞不定小李的模仿棋
● 锵锵请的港大计算机系主任不懂啊	● 模仿棋是MCTS的梦魇
● 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？	● unreproducible bug!!!
● AlphaGo的算法等技术分析	● 4:1其实结果挺合理
● 我靠小李凭这盘棋再入史册	● 现在回头再看第4局

相关话题的讨论汇总
话题: 79话题: mct话题: 万分之一话题: 概率话题: 时间

进入Go版参与讨论

(共1页)

h*******2
发帖数: 5093

阿狗对于白78只给出万分之一概率，直接相信李不会下

q*c
发帖数: 9453

就是我的猜想，那是小概率，不是系统 bug

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

O**l
发帖数: 12923

就是DCNN的问题
那个局部MCT直接暴力计算就行了
程序还要调
DCNN的先验经验权值太高
或者在这种情况下重新分配时间时间分配算法太弱智了
应该不是大问题

R*****i
发帖数: 2126

看来阿狗的算法问题很大啊。

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

a****t
发帖数: 7049

没看到79当然不是bug，这也是我的猜想。但是既然小概率事件发生了，就应该采取应
对，甚至是更暴力的应对，因为代表了模型外事件。我看文章里提到许多缓存，很可能
后面的应对真正存在bug。即使没有bug，这个发现也应该促使他们改变模型错位后的算
法。

【在 O**l 的大作中提到】

: 就是DCNN的问题
: 那个局部MCT直接暴力计算就行了
: 程序还要调
: DCNN的先验经验权值太高
: 或者在这种情况下重新分配时间时间分配算法太弱智了
: 应该不是大问题

O**l
发帖数: 12923

程序还是做得很糙当然他们想更generalize
理论上走出一个搜索树几乎空白的节点居然不重新分配时间用MCT算清了
还是一分钟一步

【在 a****t 的大作中提到】

: 没看到79当然不是bug，这也是我的猜想。但是既然小概率事件发生了，就应该采取应
: 对，甚至是更暴力的应对，因为代表了模型外事件。我看文章里提到许多缓存，很可能
: 后面的应对真正存在bug。即使没有bug，这个发现也应该促使他们改变模型错位后的算
: 法。

D*******r
发帖数: 2323

漏算只是激发了bug或者说是缺陷，真正要修改的缺陷在于如何防止因为漏算而激发发
疯行为。

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

a****t
发帖数: 7049

exactly，79之后只要时间放开，暴力运算就对了，也更像人。
但是基于他前天说到了10来步后才发现赢率降低，那很可能是缓存没更新出bug了，不
然马上就会发现79这支后面赢率没那么高。

【在 O**l 的大作中提到】

h*******2
发帖数: 5093

关键是白78逼迫计算机放弃了全面的计算，所以后面几步估值质量下降，昏招跌出

【在 O**l 的大作中提到】

: 程序还是做得很糙当然他们想更generalize
: 理论上走出一个搜索树几乎空白的节点居然不重新分配时间用MCT算清了
: 还是一分钟一步

O**l
发帖数: 12923

发疯行为到是正常
狗assume对手也是狗发现自己胜率极低的时候
每个支都无法收敛随机走很正常

为。

【在 D*******r 的大作中提到】

: 漏算只是激发了bug或者说是缺陷，真正要修改的缺陷在于如何防止因为漏算而激发发
: 疯行为。

相关主题
● 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？	● 阿发狗证明了天才和疯子就一尺之遥
● AlphaGo的算法等技术分析	● 阿法狗第四局最终并不是输在对妙手的漏算上
● 我靠小李凭这盘棋再入史册	● zt【FACEBOOK 围棋软件专家田渊栋博士对第四盘分析】
进入Go版参与讨论

a****t
发帖数: 7049

不是随机走，他就是走些无用功的路数，至少不直接输（输得更快），这个对于
objective来说是正常的。计算机没（不理性的）战斗精神。

【在 O**l 的大作中提到】

: 发疯行为到是正常
: 狗assume对手也是狗发现自己胜率极低的时候
: 每个支都无法收敛随机走很正常
:
: 为。

D*******r
发帖数: 2323

说的就是在胜率及低的情况下也不能胡走。所以我前面提到过，deepmind应该研究下狗
在形势落后的情况下要切换到不同的行棋模式。

【在 O**l 的大作中提到】

: 发疯行为到是正常
: 狗assume对手也是狗发现自己胜率极低的时候
: 每个支都无法收敛随机走很正常
:
: 为。

a****t
发帖数: 7049

万分之一的概率估算也是非常错误，棋盘才剩下三百来个节点，79那个节点就只有随机
走的三十分之一？严重低估了吧。

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

O**l
发帖数: 12923

主要是突然降低暴力算来不及了每支都要重新算每支都没法收敛
逐渐的往下降有大量支已经算好了
其实这种情况太少
不过原因还是太依赖dcnn 没有用任何domain knowledge优化

【在 D*******r 的大作中提到】

: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过，deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

a****t
发帖数: 7049

这个不是胡走。你要的是人一样的不屈服精神，这是美学范畴的，和理性下棋未必有关
系。

【在 D*******r 的大作中提到】

: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过，deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

O**l
发帖数: 12923

突然崩了以后搜索树突然清空了
前面几十亿次的simulation的积累全部没有了
这么复杂的居然靠当前那步的几十M步根本不可能converge

【在 a****t 的大作中提到】

: 不是随机走，他就是走些无用功的路数，至少不直接输（输得更快），这个对于
: objective来说是正常的。计算机没（不理性的）战斗精神。

D*******r
发帖数: 2323

职业们明显觉得狗执白时比执黑时下得好，很大程度上就是因为狗执黑认为自己是在劣
势下行棋。

【在 D*******r 的大作中提到】

: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过，deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

a****t
发帖数: 7049

10来步后才突然降低说明即使79后也没发现白棋可能连起来的这个价值。这可是大问题
了。

【在 O**l 的大作中提到】

: 主要是突然降低暴力算来不及了每支都要重新算每支都没法收敛
: 逐渐的往下降有大量支已经算好了
: 其实这种情况太少
: 不过原因还是太依赖dcnn 没有用任何domain knowledge优化

O**l
发帖数: 12923

所以太依赖DCNN了 79估计根本没有用MCT狠劲算

【在 a****t 的大作中提到】

: 10来步后才突然降低说明即使79后也没发现白棋可能连起来的这个价值。这可是大问题
: 了。

O**l
发帖数: 12923

但是我个人认为不是啥大问题
主要还是做得太糙

相关主题
● 我现在敢80%肯定alpha go 搞不定小李的模仿棋	● 4:1其实结果挺合理
● 模仿棋是MCTS的梦魇	● 现在回头再看第4局
● unreproducible bug!!!	● AlphaGo通俗的解释
进入Go版参与讨论

a****t
发帖数: 7049

如果全清空了那它后面一开始必然是根据那个忒简单的rollout policy走到底的。这个
是弱智policy。

【在 O**l 的大作中提到】

: 突然崩了以后搜索树突然清空了
: 前面几十亿次的simulation的积累全部没有了
: 这么复杂的居然靠当前那步的几十M步根本不可能converge

b*******8
发帖数: 37364

没看到也不奇怪，很容易发生，关键是后面不能出疯狗
修79和修疯狗是不同概念

【在 q*c 的大作中提到】

: 就是我的猜想，那是小概率，不是系统 bug

O**l
发帖数: 12923

所以这个时候应该重新分配时间
算他个3B次找到converge的支再走

【在 a****t 的大作中提到】

: 如果全清空了那它后面一开始必然是根据那个忒简单的rollout policy走到底的。这个
: 是弱智policy。

a****t
发帖数: 7049

对的，解决问题其实很简单，一旦发现模型错位（任何小概率事件发生），就多花时间
用最优秀的policy network赶紧再造MCT。

【在 O**l 的大作中提到】

: 但是我个人认为不是啥大问题
: 主要还是做得太糙

k*l
发帖数: 2574

棋渣复盘说明黑的形式还可以走对的。说明挖本身能赢的概率确实不高。
但是狗按照自己算出来的对手的下法走，结果就是连续缓手失败了。说明不是每步计算
，而是有记忆效应的，关键时刻就爆了。

k*l
发帖数: 2574

如果对手走出狗没有预料的下法，应该多花时间计算啊。而不是按照当前胜率，置之不
理。

b*******8
发帖数: 37364

万分之一就是咋呼，意思就是反正很小，具体多少不告诉你

d*********2
发帖数: 48111

一共２８３个落点选择，　这个万分之一是怎么来的？

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

O**l
发帖数: 12923

搞笑又不是均匀分布

【在 d*********2 的大作中提到】

: 一共２８３个落点选择，　这个万分之一是怎么来的？

a****t
发帖数: 7049

时间分配明显没着重研究，这个其实算次要的了。如果知道时间多就可以把79之后的算
对，那很快就能设计出优化分配。

【在 k*l 的大作中提到】

: 如果对手走出狗没有预料的下法，应该多花时间计算啊。而不是按照当前胜率，置之不
: 理。

相关主题
● 反MKL一局	● 现在是不是确定alpha狗可以对人类让先了？ (转载)
● 古力春兰怒斩金太子。	● 神经网络的结构决定了他的极限
● 原来阿尔法下的是５秒版的ＺＥＮ	● 看大家讨论中比较少提这个 reinforcement learning
进入Go版参与讨论

O**l
发帖数: 12923

主要压根没当围棋来研究
当了一个泛化的问题

【在 a****t 的大作中提到】

: 时间分配明显没着重研究，这个其实算次要的了。如果知道时间多就可以把79之后的算
: 对，那很快就能设计出优化分配。

s***u
发帖数: 80

那78手之后，按照职业棋手分析的合理应对怎么没有算出来？
说明机器在局中情况下能力很有问题。
原因未知。

【在 h*******2 的大作中提到】

: 阿狗对于白78只给出万分之一概率，直接相信李不会下

(共1页)

进入Go版参与讨论

相关主题
● 现在回头再看第4局	● 锵锵请的港大计算机系主任不懂啊
● AlphaGo通俗的解释	● 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？
● 反MKL一局	● AlphaGo的算法等技术分析
● 古力春兰怒斩金太子。	● 我靠小李凭这盘棋再入史册
● 原来阿尔法下的是５秒版的ＺＥＮ	● 阿发狗证明了天才和疯子就一尺之遥
● 现在是不是确定alpha狗可以对人类让先了？ (转载)	● 阿法狗第四局最终并不是输在对妙手的漏算上
● 神经网络的结构决定了他的极限	● zt【FACEBOOK 围棋软件专家田渊栋博士对第四盘分析】
● 看大家讨论中比较少提这个 reinforcement learning	● 我现在敢80%肯定alpha go 搞不定小李的模仿棋

相关话题的讨论汇总
话题: 79话题: mct话题: 万分之一话题: 概率话题: 时间

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天