由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - ALPHAGO输棋分析之四 -- 解决
相关主题
ALPHAGO输棋分析之五 -- 其他金镇浩:李世石将一胜难求
兄弟早就说阿发狗是会犯错误的阿法狗第二局最令人震惊的地方在于
ALPHAGO输棋分析之三 -- 原因哈比斯说没用高手期局训练啊
ALPHAGO输棋分析之一 -- 现象MKL的起源
ALPHAGO输棋分析之二 -- 原理四子棋zz
金明完9段点评AlphaGo: 缺点明显我和69的十番棋开始了
看来电脑围棋压倒人类就在今年了 (转载)○●○在美国围棋大会下了三天的快乐围棋
看阿法狗的自战棋谱有彻底崩溃的感觉下樊麾之前,谷歌围棋应该已经找过不少职业棋手喂着了吧。
相关话题的讨论汇总
话题: alphago话题: network话题: 巨空话题: value话题: 输棋
进入Go版参与讨论
1 (共1页)
s***u
发帖数: 80
1
从训练数据导向的角度,我认为要给机器灌输几十万局棋谱,均是成功打入/破空的,继
续训练Policy Network和Value Network。
这样Policy Network一旦再遇到巨空局面,相当于事先学习到了争夺“焦点在破空/守空
”上,会给出更多的建议招法在这附近。
同时Value Network也学习到了“巨空不保险”的知识。以后给出输赢判断才会更加准确

但是这个也要控制好平衡,否则以后ALPHAGO就会放任对手围成巨空。
另外,可能要修改Value Network截断仿真的使用策略。在某些情况下,甚至完全放弃,
因为他一直在给出错误导向的时候太可怕了
(个人认为,在存在没有完全围死的30目以上的巨空,或者没有完全活净的15个子以上
的大龙的时候,要大大减少Value Network的使用频率)。
几十万这样的对局棋谱从哪里来?
为了得到所需要的训练棋谱,需要首先把一只阿发狗改造成‘恨空型’ALPHAGO。
然后找到几十万个有巨空的局面,让ALPHAGO和‘恨空型’ALPHAGO对战。这样形成的对
局谱就可以用来训练两个网络的补丁了。
h*h
发帖数: 27852
2
好帖,支持马克

,继
守空
准确
弃,

【在 s***u 的大作中提到】
: 从训练数据导向的角度,我认为要给机器灌输几十万局棋谱,均是成功打入/破空的,继
: 续训练Policy Network和Value Network。
: 这样Policy Network一旦再遇到巨空局面,相当于事先学习到了争夺“焦点在破空/守空
: ”上,会给出更多的建议招法在这附近。
: 同时Value Network也学习到了“巨空不保险”的知识。以后给出输赢判断才会更加准确
: 。
: 但是这个也要控制好平衡,否则以后ALPHAGO就会放任对手围成巨空。
: 另外,可能要修改Value Network截断仿真的使用策略。在某些情况下,甚至完全放弃,
: 因为他一直在给出错误导向的时候太可怕了
: (个人认为,在存在没有完全围死的30目以上的巨空,或者没有完全活净的15个子以上

1 (共1页)
进入Go版参与讨论
相关主题
下樊麾之前,谷歌围棋应该已经找过不少职业棋手喂着了吧。ALPHAGO输棋分析之二 -- 原理
所谓机器与机器的顶尖对决,对人根本无意义金明完9段点评AlphaGo: 缺点明显
狗的输赢是个概率问题看来电脑围棋压倒人类就在今年了 (转载)
盖去姓名,很多业6看了棋谱觉得跟自己顶多是实力相当看阿法狗的自战棋谱有彻底崩溃的感觉
ALPHAGO输棋分析之五 -- 其他金镇浩:李世石将一胜难求
兄弟早就说阿发狗是会犯错误的阿法狗第二局最令人震惊的地方在于
ALPHAGO输棋分析之三 -- 原因哈比斯说没用高手期局训练啊
ALPHAGO输棋分析之一 -- 现象MKL的起源
相关话题的讨论汇总
话题: alphago话题: network话题: 巨空话题: value话题: 输棋