知名学术期刊《自然》发布的重磅论文公布进化后的阿法元

2017年10月20日07:56

来源:大河网-河南商报

  是否还记得去年,围棋界人机大战,阿法狗通过海量的人类棋谱在数月内棋艺速成,战胜了人类世界冠军。

  如今,阿法狗的升级版——谷歌DeepMind团队最新的研究成果,人工智能程序阿法元(AlphaGoZero)在没有任何人类经验输入的条件下,几天之内无师自通,成为策略类游戏的终结者。

  【消息】

  阿法元无师自通

  100比0完胜阿法狗

  去年,有个小孩读遍人世所有的棋谱,辛勤打谱,苦思冥想,棋艺精进,4比1打败世界冠军李世石,从此人间无敌手。他的名字叫阿法狗。

  今年,他的弟弟只靠一副棋盘和黑白两子,没看过棋谱,也没有一个人指点,从零开始自己参悟,100比0打败哥哥阿法狗。他的名字叫阿法元。

  英国“深度思维”公司开发出了“阿尔法围棋”,该公司团队在新一期英国《自然》杂志上发表题为《在没有人类知识条件下掌握围棋游戏》的论文,介绍了最新版的“阿尔法围棋-零”(阿法元)引起轰动。

  【特点】

  不借助人类经验

  全靠自我学习参悟

  之前阿法狗代表人工智能在围棋领域战胜了人类的世界冠军,但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习大数据参悟人类棋艺的基础之上,说白了,等于是借助了人类的经验利用超级大的数据库和精妙的算法能力。

  阿法元的神奇之处就在于,它是在没有任何经验知识的前提下,仅仅依靠人类给定了一个规则,就像我们学象棋只知道象走田马走日,就被关进了小黑屋,完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习和参悟,就达到超人甚至是超越前辈人工智能的境地。

  从需要预先输入人类知识,到能完全依靠自己摸索,阿法元的进步标志着人工智能的巨大突破,因为这意味着人工智能可以更好地进入对它来说本是一片空白的领域。

  【解释】

  数百万局的自我对弈

  建立不为人知的新战略

  简单来说,阿法元在数百万局自我对弈后,它独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。

  这就是最讽刺的地方,阿法狗可能并不是败在功能的硬件上,它恰恰是被人类的经验误导,学“坏”了。这再次证明了人类经验由于机能(大脑)、样本空间大小及演进模式的限制,往往只能达到局部最优而不自知,特别是在围棋这么复杂的变化中,人类很难完全进行全局预测,而机器学习则可以轻松突破这个限制。

  阿法元摆脱了人为的大数据,在人类给定的一个规则下能够自主发现新知识,发展新策略,并依靠这些东西击败人或者传承人类经验的人工智能代表,纠正人类的错误知识,而且是以惊人的速度达到这一点。

  但有趣的是,它的算法、程序,如同一个黑箱,在一次又一次的自我训练后,有了很多优化。但算法中的详情,人们并不知晓。

  【思考】

  人类经验和机器经验

  到底该听谁的

  除了技术创新之外,阿法元又一次引发了一个值得所有人工智能研究者思考的问题:在未来发展中,我们究竟应该如何看待人类经验的作用。

  阿法元已经可以给人类当围棋老师,指导人类思考之前没见过的走法,而不用完全拘泥于围棋大师的经验。也就是说,阿法元再次打破了人类经验的神秘感,让人脑中形成的经验也是可以被探测和学习的。

  杜克大学的陈怡然教授也提出了一个有趣的命题:未来在一些与日常生活有关的决策问题上,人类经验和机器经验同时存在,而机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?(据新华社)

编辑:魏蔚