由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - [转载自新浪]阿尔法首次复盘人机大战 自评等级分远超柯洁
相关主题
谷歌工程师:再给阿尔法三个月 就能击败柯洁ALPHAGO输棋分析之三 -- 原因
疑似阿尔法围棋测试账号柯杰洁执白告负,与ALPHAGO弈出最接近对局zz (转载)
好文回顾:陈经:预测李世石4比1Nature重磅封面:谷歌人工智能击败欧洲围棋冠军
DeepMind: AlphaGo 携手中国顶尖棋手:共创棋妙未来浏览了Deepmind 关于AlphaGo的技术说明文件
这次阿狗居然是单机版的AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术
AlphaGo下一个挑战的有可能是柯洁李世石是不是对alphago的下棋方法了解太少了
谷歌推出真正2.0版本AlphaGo 摈弃人类棋谱(图)如果李世石先手补掉右边,是否优势?
想赢AlphaGo的唯一机会是走已有定式AlphaGo是何方神圣
相关话题的讨论汇总
话题: alphago话题: 席尔瓦话题: 人工智能话题: 李世石话题: 围棋
进入Go版参与讨论
1 (共1页)
Q******g
发帖数: 607
1
据钛媒体报道。
钛媒体注:“谷李”世纪大战硝烟散尽,由此引发的机器学习与人工智能的热潮不
减反增。日 前,AlphaGo (中文俗称“阿尔法狗”)项目负责人,有着阿尔法狗之父
之称的大卫·席尔瓦(David Silver)回到英国伦敦,在母校伦敦大学学院(
UniversityCollege London,UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李
世石的5番棋大战,在场的听众被禁止拍照。这也是赛后,阿尔法狗团队的首次 半公开
复盘。
UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留
学生张伟楠全程参与了这次分享会,并且在会后与席尔瓦进行了面对面的交流。钛媒体
独家约稿张伟楠,根据席尔瓦的分享及会后与席尔瓦的交流,写作此文,席尔瓦也透露
了AlphaGo的下一步可能动向以及应用前景。席尔瓦透露,AlphaGo的最新版本自我估分
在4500左右,远远超出积分3625的柯洁,实力水平大约在13段左右,人类选手中已然无
敌。
张伟楠与阿尔法狗之父席尔瓦在交流张伟楠与阿尔法狗之父席尔瓦在交流
两周前的那场人机大战,AlphaGo出人意料地获得了压倒性的胜利,4:1战胜了李
世石。棋局进程激烈精彩之处,不亚于那些人类棋手创造的历史名局。
3月24日,回到UCL大学,席尔瓦在复盘中详细讲述了AlphaGo背后的技术原理以及
谷李5场比赛的分析。
获得历史性的胜利之后,外界十分关心AlphaGo的下一步和未来,席尔瓦透露,在
《Nature》那篇文章引发广泛关注和轰动之后,AlphaGo团队还将再写一篇论文,与外
界分享AlphaGo与李世石比赛中的技术进步。
席尔瓦还表示,DeepMind一直希望能够为开发者社区做贡献,他们之前也公布了
DQN项目(deep-q-network)的代码——基于深度强化学习的游戏平台。未来他们可能
会公布AlphaGo的代码,只要能找到一个合适的方案,但是目前还没有找到。
投入20个人的团队,花费大量的财力去做围棋对弈,对谷歌来说意味着什么?下一
步会如何延伸到其他产业领域?
席尔瓦透露,DeepMind今后的着眼点是和人们日常生活息息相关,并可以改变世界
的应用,比如精准医疗、家用机器人以及智能手机助手。
AlphaGo之父十年磨一剑
似乎在一夜之间,机器选手战胜了人类最顶尖围棋选手。但是,对于席尔瓦来说,
人工智能围棋耗时十几年,最终不过是水到渠成。
作为AlphaGo的幕后团队的技术主管,也是谷歌DeepMind团队最重要的科学家之一
,席尔瓦还身兼UCL大学的教职,是该校计算机系的教授,教授“强化学习”的课程。
席尔瓦是在加拿大阿伯塔大学获得博士学位,师从世界上首屈一指的“强化学习”
大师理查德·萨顿(Richard S.Sutton)研究强化学习算法,后来在另一座科技圣殿美
国麻省理工学院从事博士后研究。
在攻读博士以及博士后工作期间,席尔瓦一直致力于强化学习在围棋人工智能上的
研究。到英国UCL大学计算机系执教以后,他还经常拿围棋作为授课的应用实例。
席尔瓦的课程开始听的人并非很多。三年前,我曾上过他的课程。有一次因故迟到
了20分钟,当时的教室里仍然可以找到座位。现在,随着他加入到Deepmind团队,尤其
是他掌舵AlphaGo项目名声大噪,他的课程也开始广受欢迎,迟到的人基本上只能站着
听课了。
加 入DeepMind之前,席尔瓦即已开始和CEO戴密斯·哈萨比斯(Demis Hassabis)
共同研究强化学习。哈萨比斯在UCL拿到了神经学博士学位。两个人都痴迷于游戏, 哈
萨比斯少年时曾经是英国国际象棋队队长,在13岁便已经获得国际象棋大师的头衔,青
年时自创游戏公司,而席尔瓦则长期对围棋情有独钟。
2014年初,在被谷歌收购之前,DeepMind即开始与UCL洽谈,希望能买断席尔瓦的
工作时间。这样可以保留他在大学的教职的同时,还可以让他在DeepMind全心工作。
加 盟DeepMind之后,席尔瓦成立了20个人的AlphaGo团队,专门研究围棋人工智能
。汇集整个团队的力量,他要求在技术研发的每一个环节上都追求 极致。AlphaGo团队
成员就透露,有的智能模块在谷歌团队看来已经很完美了,但是席尔瓦却仍认为不及格
,离完美还差很远。
长期专注于人工智能与围棋项目,在技术方面追求极致,再加上势大财雄的谷歌的
团队配合,最终成就了AlphaGo的骤然爆发。
复盘谷李大战
复盘是职业围棋选手经常做的一件事,他们相信总结过去一盘棋的经验和教训,可
以提高自己的棋艺。
AlphaGo团队也做了复盘,通过几张幻灯片的形式,席尔瓦复盘了这5场比赛的胜负
关键处,而在场的听众被禁止拍照。
第一盘的胜负关键处是,AlphaGo执白棋第102手打入黑空,职业高手们普遍认为这
是一招险招,看上去李世石对此也早有准备。事后看,棋局的进程却是李世石应对有误
,进入到了AlphaGo的计算步调中。再下了几手棋之后,AlphaGo已经优势明显。
第二盘棋的开局不久,AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔
瓦称其为反人类(unhuman)一手——第37手5路肩冲。观战的多数职业高手认为这不太
成立,超出了职业高手们正常的行棋逻辑。
随后的进程,这手棋的价值逐渐闪现,李世石又一次输得毫无脾气。
席尔瓦解释道:“多数评论员都第一时间批评这一步棋,从来没有人在这样的情况
下走出如此一着。在胜负已定之后,一些专业人士重新思考这一步,他们改口称自己很
可能也会走这一着。”
而在AlphaGo看来,当时只是一步很正常的走子选择而已。
对 于第一盘棋和第二盘棋,许多职业围棋选手以及媒体分析都认为,AlphaGo逆转
取胜,但是在AlphaGo自身的价值网络所做的实时胜率分析看来,自己 始终处于领先。
在AlphaGo获胜的4盘中,AlphaGo系统自有的胜率评估始终都是领先李世石,从头到尾
压制直到最终获胜。
第三盘和第五盘,AlphaGo 都是在棋局刚开始不久,就已经取得了明显优势并持续
提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同,AlphaGo的自有胜率评
估是基于一个价值模块,做出对棋局胜负的预计。
这两种判断截然不同。当第五盘右下角的争夺错综复杂时,AlphaGo选择脱先,转
而落子在其他位置。不少职业棋手认为,AlphaGo在此犯错并落后了,但AlphaGo的选择
却是依据全局最优估计而做出的。
以 几局的成败论,AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传
统的理解范畴,不再局限于棋手多年培养出来的围棋直觉和套路定式,会选择 探索职
业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上,还进行了大量的自
我对弈,从而研究出了一些人类从未涉及到的走法。
“神之一手”的背后
AlphaGo系统并非无懈可击,但是,漏洞并不是所谓的模仿棋、打劫等等。它的漏
洞体现在李世石赢得比赛的第四盘棋,AlphaGo取得巨大进步的价值模块出现了瑕疵,
这也是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盘失利。
在第四盘棋中,开局之后很快就几陷绝境中的李世石,弈出了被来自中国的世界冠
军古力成为“神之一手”的白78手,凌空一挖。坚韧如山的对手突然倒下,AlphaGo变
得不知所措,连续出现低级昏招,这也成就了AlphaGo有记载的公开的第一局失利。
对于AlphaGo的异常表现,各路观战的职业高手充满了猜测。即使是观赛的哈萨比
斯和席尔瓦也都不知道究竟发生了什么。
事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自
己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石
遥遥领先,之后再也没有缩短差距。
为什么AlphaGo面对李世石的第78手表现如此差,是因为它没有想到李世石的这手
棋吗?
席尔瓦揭晓了这一秘密。AlphaGo的计算体系中,的确曾经评估过这手棋,只是在
AlphaGo的评估中,李世石走那一子的概率大概是万分之一,最终,它没有想到李世石
会这样走,也就没有计算李世石这样走之后如何应对。
赛后,获胜的李世石则说,这一手在他看来是唯一的选择。
AlphaGo背后的蒙特卡洛树搜索依赖的策略网络,是根据人类对弈棋谱数据训练出
来的模型,它很难去预测白78手这样的所谓手筋妙招,也就很难判断基于这一步继续往
下搜索之后的胜负状态。
这就是AlphaGo在这5盘对局中表现出的唯一破绽,也是目前人类智慧还领先于
AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General
Intelligence)的地方。
人工智能已然无敌?
在此次大赛之前,多数来自职业围棋界的棋手包括李世石自己都认为,李世石会轻
松取胜。但是,DeepMind团队却信心满满。另一位DeepMind团队的主力成员也曾经在
UCL介绍AlphaGo的进展,在展望与李世石的比赛时,他曾就笃定地预言,AlphaGo会赢。
当 有人问及从去年10月战胜梵麾,到今年3月对阵李世石,半年时间当中,
AlphaGo究竟有哪些方面的提升时,席尔瓦简要回答说:“我们在系统的每一个模型上
尽可能推进效果极致,尤其在价值网络上获得了很大的提升。训练价值 网络的目标胜
率除了通过自我对弈的结果外,我们还使用了搜索策略去尽可能逼近理论的胜率。”
直观地说,3月版本的AlphaGo比半年前的水平大概是让4子——让对方先占据4个星
位!
在战胜李世石之后,中国、韩国、日本许多的职业棋手,包括李世石本人都希望能
够再与AlphaGo一战。
按照等级分排名,AlphaGo仅次于中国的世界冠军柯洁,排名世界第二。而席尔瓦
透露,AlphaGo的最新版本自我估分在4500左右,远远超出现在3600多的柯洁,实力水
平大约在13段左右,人类选手中已然无敌!
AlphaGo为什么会有这么强劲的表现?在讲座当中,席尔瓦部分地复述和解释了今
年1月《Nature》上发表的论文,讲述了人工智能的基本原理以及AlphaGo的技术框架。
对于人工智能来说,围棋游戏的难度在于,决策空间实在太大。决策(Decision
Making)是人工智能的关键要素,使得机器能够在人类的世界中发挥作用。
在围棋以及任何游戏中,一次决策往往使得游戏更新到了一个新的局面,于是影响
到了接下来的决策,一直到最终游戏的胜负。人工智能的关键就是在决策空间中搜索达
到最大效益的路径,最终体现在当前决策中。
围棋棋盘上棋子可能的组合方式的数量就有10的170次方之多,超过宇宙原子总数
。在近乎无穷的决策空间中,去暴力搜索出当前棋盘的下一步最优走子是绝对不可能的
事情。
AlphaGo的方案是在这样的超级空间中,做到尽可能有效的路径选择。其思路是一
个框架加两个模块:解决框架是蒙特卡洛树搜索(MonteCarlo Tree Search),两个模
块分别是策略网络和价值网络。
策 略网络(Policy Network)根据当前棋盘状态决策下一步走子,是典型的人工
智能决策问题。策略网络搭建的第一步,基于KGS围棋服务器上30万张业余选手对弈棋
谱的 监督学习(SupervisedLearning),来判断当前棋盘人类最可能的下一走子是什
么。
第二步,是利用监督学习得到的第一个策略网络去通过自我对弈来训练一个加强版
的策略网络,学习方法是强化学习(Reinforcement Learning),自我对弈3000万局,
从人类的走子策略中进一步提升。
遵循策略网络的判断,在蒙特卡洛树搜索框架下对每个棋盘状态的采样范围就大大
减小,这是一个搜索宽度的减小,但是由于一盘围棋总手数可以多达250步以上,搜索
的深度仍然带来无法处理的巨大计算量,而这就由第二个模块——价值网络来解决。
价值网络(Value Network)的功能是根据当前棋盘状态判断黑白子某一方的胜率
,是一个人工智能预测(Prediction)问题。
处 理预测问题的机器学习模型一般需要直接知道需要预测的真实目标是什么,比
如预测第二天的天气,或者预测用户是否会一周内购买某个商品,这些历史数据都有直
接的目标数据可供机器学习。而在围棋对局中,给定的一盘棋局完全可能在历史上就
找不到哪次对弈出现过这样的局面,也就不能直接得到对弈最终的胜负结果。
AlphaGo的解决方法是使用强化学习得到的策略网络,以该棋局为起点进行大量自
我对弈,并把最终的胜率记录下来作为价值网络学习的目标。
有了价值网络,蒙特卡洛树搜索也就不再需要一直采样到对弈的最后,而是在适当
的搜索深度停下来,直接用价值网络估计当前胜率。这样就通过降低搜索的深度来大大
减小了运算量。
AlphaGo整合了目前机器学习领域的大多数有效的学习模型,包括通过采样来逼近
最优解的蒙特卡洛树搜索,通过有监督学习和强化学习训练来降低搜索宽度并作出走子
决策的策略网络,以及通过有监督学习训练的降低搜索深度提前判断胜率的价值网络。
作为人类棋手翘楚,33岁的职业围棋九段高手李世石,过去15年获得了十几个世界
冠军头衔,总共下了1万盘围棋对弈,经过了3万个小时训练,每秒可以搜索10个走子可
能。
但是,作为人工智能科技进步的代表,吸收了近期机器学习人工智能的最新进展,
建立起了全新的价值网络和策略网络,诞生只有两年时间的AlphaGo,差不多经历了3万
小时的训练,每秒却可以搜索10万个走子可能。这一刻,胜负已分。
人工智能的巨头争夺战
在AlphaGo取得巨大成功,获得全世界广泛关注的背后,是谷歌、Facebook、微软
等几家科技巨头的竞争。基于人工智能,几大巨头的都开展了各自的项目研究,以及人
才争夺。
几天前的智能围棋大赛上,Facebook派出了自己研发的“黑暗森林”,获得了第二
名,其主创人员田渊栋正是来自于谷歌,他曾经服务于谷歌的无人驾驶汽车项目团队。
很明显,黑暗森林现在还不是AlphaGo的对手。
2014年下半年以及2015年年中,我曾经两次在微软剑桥研究院实习,参与了微软
Xbox音乐推荐引擎的研究项目,期望通过基于强化学习的人工智能算法来交互式地为用
户推荐他们喜欢的音乐并从用户提供的反馈中进一步学习。
该项目组直接负责人是特拉·格朗普(ThoreGraepel),业界大名鼎鼎的机器学习
专家,又一个技术大咖中的围棋高手。Windows中围棋游戏里的人工智能就是他负责研
发的,与席尔瓦一样,他也是UCL计算机系的兼职教授。
一 个周一的上午,当我来到微软剑桥办公室的时候,一个同事告诉我,格朗普已
经离职了,和席尔瓦一样,加入了DeepMind。他后来告诉我,他在 DeepMind感受到了
前所未有的魅力,以致于他很后悔没有早一些加入。他感叹自己从未见过凝聚力如此之
高,目标如此统一,而又没有任何考核压力的团 队。
后来,格朗普的名字也出现在了《Nature》关于AlphaGo的论文作者名单中,在谷
李大战间隙,他曾经与李世石一起接受电视台的采访,熟悉他的人能够明显地感受到,
他发自内心快乐。
我 在微软实习的另一位导师,是毕业于剑桥大学的贝叶斯机器学习方面的专家,
他有着扎实的数学功底,在2015年下半年也从微软离职,加入了剑桥的一家做语音 识
别智能系统的初创公司,不久之后该公司即被苹果公司收购。他带领一个12人的团队,
负责苹果Siri智能问答系统的一项技术。
就在最近, 我在伦敦的酒吧里见到了他,他私下透露,自己正在申请加入
DeepMind。他说,现在正处在人工智能真正爆发的历史转折点,从0到1一般的重大。未
来5 到10年人工智能将会井喷式地发展,无论是工业界还是学术界。在这样一个时代,
搞人工智能出身的自己难道不想奋力拥抱浪潮么?
在这样一种情境下,他不甘于在团队中做管理,他已经半年没有写过一行程序,没
有推过一个数学公式了。“今天的人工智能领域就像是一场举世瞩目的英超德比,全世
界的人们都为此感到沸腾。而这个时候,我们人工智能研究员就应该上场比赛,成为主
角,而不是在观众席上加油。”
AlphaGo的巨大效应让谷歌吸引人才方面占尽优势,但是,Facebook、苹果、微软
也不甘就此授首。
在 格朗普从微软离职之后,一位年轻的女研究员接管了我在微软的实习项目,两
人的研究成果在人工智能会议AAAI2016上发表。2015年上半年,她在微软 启动了一个
叫做AIX的人工智能项目,提供了一个通用人工智能的平台,可以使得计算机科学家通
过它编写智能学习程序并在微软旗下的《我的世界》 (Minecraft)游戏世界中测试。
在AIX里,科学家并不需要直接编程告诉机器人如何完成一个具体的任务,例如选
择什么样的路径攀登上一座山的顶峰,而是把如何学习并取得进步的程序输入机器人,
让它们来通过和环境的交互来自动学习到完成任务的办法,真正做到“授机器以渔”。
与谷歌不一样,微软延续了自己惯用的平台战略思路。巨头之间战略思路不同,事
属平常,但都非常看好人工智能、机器学习带来的战略机遇,并同时开始在人才、技术
、市场方面的布局和竞争,也许这场竞争会决定未来10年几家巨头竞争的胜负。(本文
独家首发钛媒体)
[ 钛媒体作者: 张伟楠,英国伦敦大学学院(UCL)博士候选人,即将受聘于上海
交大担任助理教授,北京优路科技联合创始人]
h*h
发帖数: 27852
2
自评4500,只要对方不出手筋
D*******r
发帖数: 2323
3
请先定义手筋?

【在 h*h 的大作中提到】
: 自评4500,只要对方不出手筋
M*******p
发帖数: 5626
4
deepmind应该不用搞的这么神秘了,alphago已经很完美了,可以拿出来公开对弈了,
而且很多alphago的自我对弈棋谱也可以公示了,4500的elo分数不用担心人类可以追的
上。
o*****p
发帖数: 2977
5
"事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自
己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石
遥遥领先,之后再也没有缩短差距。"
胡扯。他们的头在tweeter上第一时间承认了,一直走到86步左右Alphago才突然发现
自己输了。
就算是这是1/10000可能,这也不能解释它之后的失误。子已经在棋盘上了,这就是
100%,怎么多少步下来还不明白。

【在 Q******g 的大作中提到】
: 据钛媒体报道。
: 钛媒体注:“谷李”世纪大战硝烟散尽,由此引发的机器学习与人工智能的热潮不
: 减反增。日 前,AlphaGo (中文俗称“阿尔法狗”)项目负责人,有着阿尔法狗之父
: 之称的大卫·席尔瓦(David Silver)回到英国伦敦,在母校伦敦大学学院(
: UniversityCollege London,UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李
: 世石的5番棋大战,在场的听众被禁止拍照。这也是赛后,阿尔法狗团队的首次 半公开
: 复盘。
: UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留
: 学生张伟楠全程参与了这次分享会,并且在会后与席尔瓦进行了面对面的交流。钛媒体
: 独家约稿张伟楠,根据席尔瓦的分享及会后与席尔瓦的交流,写作此文,席尔瓦也透露

b*******8
发帖数: 37364
6
不让拍照,继续扣扣锁锁,屁大的事情,非要逼的大家说阴谋论。
b*******8
发帖数: 37364
7
丫这么搞,只会把自己搞成登月,将来无数人说阴谋论:一公测,没三天被人盘盘吊打
18K疯狗。

【在 M*******p 的大作中提到】
: deepmind应该不用搞的这么神秘了,alphago已经很完美了,可以拿出来公开对弈了,
: 而且很多alphago的自我对弈棋谱也可以公示了,4500的elo分数不用担心人类可以追的
: 上。

B****n
发帖数: 11290
8
好奇自評等級分到底是怎麼來的
不是說Alphago沒這個實力喔 而是等級分需要實戰來體現
等級分分愈高愈需要與眾多高手對戰多盤誤差才不會大
因為你對某種下法的高手保持高勝率 不表示你對多數高手也有一樣的勝率
我感覺這個自評等級分可能誤差蠻大的

【在 Q******g 的大作中提到】
: 据钛媒体报道。
: 钛媒体注:“谷李”世纪大战硝烟散尽,由此引发的机器学习与人工智能的热潮不
: 减反增。日 前,AlphaGo (中文俗称“阿尔法狗”)项目负责人,有着阿尔法狗之父
: 之称的大卫·席尔瓦(David Silver)回到英国伦敦,在母校伦敦大学学院(
: UniversityCollege London,UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李
: 世石的5番棋大战,在场的听众被禁止拍照。这也是赛后,阿尔法狗团队的首次 半公开
: 复盘。
: UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留
: 学生张伟楠全程参与了这次分享会,并且在会后与席尔瓦进行了面对面的交流。钛媒体
: 独家约稿张伟楠,根据席尔瓦的分享及会后与席尔瓦的交流,写作此文,席尔瓦也透露

M*******p
发帖数: 5626
9
肯定有误差的,但是从deepmind的角度来说,也算是一种“科学”的算法,因为他们认
为狗13至少不低于反悔的等级,而狗18又让狗13四子(不知道狗18能不能让反悔4子)
,从这个角度他们认为狗18至少4500分左右。可能还有一些其他算法,但是估计主要依
据就是这种评分系统来的。
如果狗狗真的完全解决了第四盘的问题,那么我觉得不管柯洁小李服不服气,狗18的
4500分应该水分不大(至少4000分以上没问题)。但是如果第四盘的问题在狗狗自己的
对局里面出现次数不低(比如20盘30盘出现至少1盘),那么狗狗的这个自我评分就有
点问题了。
deepmind什么时候来美国大学讲座? 真想去现场听一下。

【在 B****n 的大作中提到】
: 好奇自評等級分到底是怎麼來的
: 不是說Alphago沒這個實力喔 而是等級分需要實戰來體現
: 等級分分愈高愈需要與眾多高手對戰多盤誤差才不會大
: 因為你對某種下法的高手保持高勝率 不表示你對多數高手也有一樣的勝率
: 我感覺這個自評等級分可能誤差蠻大的

D*******r
发帖数: 2323
10
20盘才出现一次,也就是才5%的失败率,这就是等级分相差500的棋手之间的胜负率。
柯洁3600分,那么阿法勾也有4100分了。

【在 M*******p 的大作中提到】
: 肯定有误差的,但是从deepmind的角度来说,也算是一种“科学”的算法,因为他们认
: 为狗13至少不低于反悔的等级,而狗18又让狗13四子(不知道狗18能不能让反悔4子)
: ,从这个角度他们认为狗18至少4500分左右。可能还有一些其他算法,但是估计主要依
: 据就是这种评分系统来的。
: 如果狗狗真的完全解决了第四盘的问题,那么我觉得不管柯洁小李服不服气,狗18的
: 4500分应该水分不大(至少4000分以上没问题)。但是如果第四盘的问题在狗狗自己的
: 对局里面出现次数不低(比如20盘30盘出现至少1盘),那么狗狗的这个自我评分就有
: 点问题了。
: deepmind什么时候来美国大学讲座? 真想去现场听一下。

k*****e
发帖数: 22013
11
有人猜测是
如果对方下法完全没预料,
之前的计算全部推翻重算,
耗时多,为了不超时,算得糙。

【在 o*****p 的大作中提到】
: "事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自
: 己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石
: 遥遥领先,之后再也没有缩短差距。"
: 胡扯。他们的头在tweeter上第一时间承认了,一直走到86步左右Alphago才突然发现
: 自己输了。
: 就算是这是1/10000可能,这也不能解释它之后的失误。子已经在棋盘上了,这就是
: 100%,怎么多少步下来还不明白。

1 (共1页)
进入Go版参与讨论
相关主题
AlphaGo是何方神圣这次阿狗居然是单机版的
大家对Alphago的胜率理解有误AlphaGo下一个挑战的有可能是柯洁
现在最爽的是黄aja谷歌推出真正2.0版本AlphaGo 摈弃人类棋谱(图)
怎么才能发现alphago的漏洞原理想赢AlphaGo的唯一机会是走已有定式
谷歌工程师:再给阿尔法三个月 就能击败柯洁ALPHAGO输棋分析之三 -- 原因
疑似阿尔法围棋测试账号柯杰洁执白告负,与ALPHAGO弈出最接近对局zz (转载)
好文回顾:陈经:预测李世石4比1Nature重磅封面:谷歌人工智能击败欧洲围棋冠军
DeepMind: AlphaGo 携手中国顶尖棋手:共创棋妙未来浏览了Deepmind 关于AlphaGo的技术说明文件
相关话题的讨论汇总
话题: alphago话题: 席尔瓦话题: 人工智能话题: 李世石话题: 围棋