由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - 哈萨比斯又给出新消息
相关主题
原来阿尔法下的是5秒版的ZEN阿发狗证明了天才和疯子就一尺之遥
现在是不是确定alpha狗可以对人类让先了? (转载)阿法狗第四局最终并不是输在对妙手的漏算上
神经网络的结构决定了他的极限zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
看大家讨论中比较少提这个 reinforcement learning我现在敢80%肯定alpha go 搞不定小李的模仿棋
锵锵请的港大计算机系主任不懂啊模仿棋是MCTS的梦魇
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?unreproducible bug!!!
AlphaGo的算法等技术分析4:1其实结果挺合理
我靠 小李凭这盘棋再入史册现在回头再看第4局
相关话题的讨论汇总
话题: 79话题: mct话题: 万分之一话题: 概率话题: 时间
进入Go版参与讨论
1 (共1页)
h*******2
发帖数: 5093
1
阿狗对于白78只给出万分之一概率,直接相信李不会下
q*c
发帖数: 9453
2
就是我的猜想,那是小概率,不是系统 bug

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
O**l
发帖数: 12923
3
就是DCNN的问题
那个局部MCT直接暴力计算就行了
程序还要调
DCNN的先验经验权值太高
或者在这种情况下重新分配时间 时间分配算法太弱智了
应该不是大问题
R*****i
发帖数: 2126
4

看来阿狗的算法问题很大啊。

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
a****t
发帖数: 7049
5
没看到79当然不是bug,这也是我的猜想。但是既然小概率事件发生了,就应该采取应
对,甚至是更暴力的应对,因为代表了模型外事件。我看文章里提到许多缓存,很可能
后面的应对真正存在bug。即使没有bug,这个发现也应该促使他们改变模型错位后的算
法。

【在 O**l 的大作中提到】
: 就是DCNN的问题
: 那个局部MCT直接暴力计算就行了
: 程序还要调
: DCNN的先验经验权值太高
: 或者在这种情况下重新分配时间 时间分配算法太弱智了
: 应该不是大问题

O**l
发帖数: 12923
6
程序还是做得很糙 当然他们想更generalize
理论上走出一个搜索树几乎空白的节点 居然不重新分配时间 用MCT算清了
还是一分钟一步

【在 a****t 的大作中提到】
: 没看到79当然不是bug,这也是我的猜想。但是既然小概率事件发生了,就应该采取应
: 对,甚至是更暴力的应对,因为代表了模型外事件。我看文章里提到许多缓存,很可能
: 后面的应对真正存在bug。即使没有bug,这个发现也应该促使他们改变模型错位后的算
: 法。

D*******r
发帖数: 2323
7
漏算只是激发了bug或者说是缺陷,真正要修改的缺陷在于如何防止因为漏算而激发发
疯行为。

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
a****t
发帖数: 7049
8
exactly,79之后只要时间放开,暴力运算就对了,也更像人。
但是基于他前天说到了10来步后才发现赢率降低,那很可能是缓存没更新出bug了,不
然马上就会发现79这支后面赢率没那么高。

【在 O**l 的大作中提到】
: 就是DCNN的问题
: 那个局部MCT直接暴力计算就行了
: 程序还要调
: DCNN的先验经验权值太高
: 或者在这种情况下重新分配时间 时间分配算法太弱智了
: 应该不是大问题

h*******2
发帖数: 5093
9
关键是白78逼迫计算机放弃了全面的计算,所以后面几步估值质量下降,昏招跌出

【在 O**l 的大作中提到】
: 程序还是做得很糙 当然他们想更generalize
: 理论上走出一个搜索树几乎空白的节点 居然不重新分配时间 用MCT算清了
: 还是一分钟一步

O**l
发帖数: 12923
10
发疯行为到是正常
狗assume对手也是狗 发现自己胜率极低的时候
每个支都无法收敛 随机走很正常

为。

【在 D*******r 的大作中提到】
: 漏算只是激发了bug或者说是缺陷,真正要修改的缺陷在于如何防止因为漏算而激发发
: 疯行为。

相关主题
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?阿发狗证明了天才和疯子就一尺之遥
AlphaGo的算法等技术分析阿法狗第四局最终并不是输在对妙手的漏算上
我靠 小李凭这盘棋再入史册zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
进入Go版参与讨论
a****t
发帖数: 7049
11
不是随机走,他就是走些无用功的路数,至少不直接输(输得更快),这个对于
objective来说是正常的。计算机没(不理性的)战斗精神。

【在 O**l 的大作中提到】
: 发疯行为到是正常
: 狗assume对手也是狗 发现自己胜率极低的时候
: 每个支都无法收敛 随机走很正常
:
: 为。

D*******r
发帖数: 2323
12
说的就是在胜率及低的情况下也不能胡走。所以我前面提到过,deepmind应该研究下狗
在形势落后的情况下要切换到不同的行棋模式。

【在 O**l 的大作中提到】
: 发疯行为到是正常
: 狗assume对手也是狗 发现自己胜率极低的时候
: 每个支都无法收敛 随机走很正常
:
: 为。

a****t
发帖数: 7049
13
万分之一的概率估算也是非常错误,棋盘才剩下三百来个节点,79那个节点就只有随机
走的三十分之一?严重低估了吧。

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
O**l
发帖数: 12923
14
主要是突然降低 暴力算来不及了 每支都要重新算 每支都没法收敛
逐渐的往下降 有大量支已经算好了
其实这种情况太少
不过原因还是太依赖dcnn 没有用任何domain knowledge优化

【在 D*******r 的大作中提到】
: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过,deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

a****t
发帖数: 7049
15
这个不是胡走。你要的是人一样的不屈服精神,这是美学范畴的,和理性下棋未必有关
系。

【在 D*******r 的大作中提到】
: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过,deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

O**l
发帖数: 12923
16
突然崩了以后搜索树突然清空了
前面几十亿次的simulation的积累全部没有了
这么复杂的居然靠当前那步的几十M步 根本不可能converge

【在 a****t 的大作中提到】
: 不是随机走,他就是走些无用功的路数,至少不直接输(输得更快),这个对于
: objective来说是正常的。计算机没(不理性的)战斗精神。

D*******r
发帖数: 2323
17
职业们明显觉得狗执白时比执黑时下得好,很大程度上就是因为狗执黑认为自己是在劣
势下行棋。

【在 D*******r 的大作中提到】
: 说的就是在胜率及低的情况下也不能胡走。所以我前面提到过,deepmind应该研究下狗
: 在形势落后的情况下要切换到不同的行棋模式。

a****t
发帖数: 7049
18
10来步后才突然降低说明即使79后也没发现白棋可能连起来的这个价值。这可是大问题
了。

【在 O**l 的大作中提到】
: 主要是突然降低 暴力算来不及了 每支都要重新算 每支都没法收敛
: 逐渐的往下降 有大量支已经算好了
: 其实这种情况太少
: 不过原因还是太依赖dcnn 没有用任何domain knowledge优化

O**l
发帖数: 12923
19
所以太依赖DCNN了 79估计根本没有用MCT狠劲算

【在 a****t 的大作中提到】
: 10来步后才突然降低说明即使79后也没发现白棋可能连起来的这个价值。这可是大问题
: 了。

O**l
发帖数: 12923
20
但是我个人认为不是啥大问题
主要还是做得太糙
相关主题
我现在敢80%肯定alpha go 搞不定小李的模仿棋4:1其实结果挺合理
模仿棋是MCTS的梦魇现在回头再看第4局
unreproducible bug!!!AlphaGo通俗的解释
进入Go版参与讨论
a****t
发帖数: 7049
21
如果全清空了那它后面一开始必然是根据那个忒简单的rollout policy走到底的。这个
是弱智policy。

【在 O**l 的大作中提到】
: 突然崩了以后搜索树突然清空了
: 前面几十亿次的simulation的积累全部没有了
: 这么复杂的居然靠当前那步的几十M步 根本不可能converge

b*******8
发帖数: 37364
22
没看到也不奇怪,很容易发生,关键是后面不能出疯狗
修79和修疯狗是不同概念

【在 q*c 的大作中提到】
: 就是我的猜想,那是小概率,不是系统 bug
O**l
发帖数: 12923
23
所以这个时候应该重新分配时间
算他个3B次 找到converge的支 再走

【在 a****t 的大作中提到】
: 如果全清空了那它后面一开始必然是根据那个忒简单的rollout policy走到底的。这个
: 是弱智policy。

a****t
发帖数: 7049
24
对的,解决问题其实很简单,一旦发现模型错位(任何小概率事件发生),就多花时间
用最优秀的policy network赶紧再造MCT。

【在 O**l 的大作中提到】
: 但是我个人认为不是啥大问题
: 主要还是做得太糙

k*l
发帖数: 2574
25
棋渣复盘说明黑的形式还可以走对的。说明挖本身能赢的概率确实不高。
但是狗按照自己算出来的对手的下法走,结果就是连续缓手失败了。说明不是每步计算
,而是有记忆效应的,关键时刻就爆了。
k*l
发帖数: 2574
26
如果对手走出狗没有预料的下法,应该多花时间计算啊。而不是按照当前胜率,置之不
理。
b*******8
发帖数: 37364
27
万分之一就是咋呼,意思就是反正很小,具体多少不告诉你
d*********2
发帖数: 48111
28
一共283个落点选择, 这个万分之一是怎么来的?

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
O**l
发帖数: 12923
29
搞笑又不是均匀分布

【在 d*********2 的大作中提到】
: 一共283个落点选择, 这个万分之一是怎么来的?
a****t
发帖数: 7049
30
时间分配明显没着重研究,这个其实算次要的了。如果知道时间多就可以把79之后的算
对,那很快就能设计出优化分配。

【在 k*l 的大作中提到】
: 如果对手走出狗没有预料的下法,应该多花时间计算啊。而不是按照当前胜率,置之不
: 理。

相关主题
反MKL一局现在是不是确定alpha狗可以对人类让先了? (转载)
古力春兰怒斩金太子。神经网络的结构决定了他的极限
原来阿尔法下的是5秒版的ZEN看大家讨论中比较少提这个 reinforcement learning
进入Go版参与讨论
O**l
发帖数: 12923
31
主要压根没当围棋来研究
当了一个泛化的问题

【在 a****t 的大作中提到】
: 时间分配明显没着重研究,这个其实算次要的了。如果知道时间多就可以把79之后的算
: 对,那很快就能设计出优化分配。

s***u
发帖数: 80
32
那78手之后,按照职业棋手分析的合理应对怎么没有算出来?
说明机器在局中情况下能力很有问题。
原因未知。

【在 h*******2 的大作中提到】
: 阿狗对于白78只给出万分之一概率,直接相信李不会下
1 (共1页)
进入Go版参与讨论
相关主题
现在回头再看第4局锵锵请的港大计算机系主任不懂啊
AlphaGo通俗的解释田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?
反MKL一局AlphaGo的算法等技术分析
古力春兰怒斩金太子。我靠 小李凭这盘棋再入史册
原来阿尔法下的是5秒版的ZEN阿发狗证明了天才和疯子就一尺之遥
现在是不是确定alpha狗可以对人类让先了? (转载)阿法狗第四局最终并不是输在对妙手的漏算上
神经网络的结构决定了他的极限zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
看大家讨论中比较少提这个 reinforcement learning我现在敢80%肯定alpha go 搞不定小李的模仿棋
相关话题的讨论汇总
话题: 79话题: mct话题: 万分之一话题: 概率话题: 时间