• 2017年10月20日

    新版阿尔法狗自学围棋3天胜“旧狗”:具备强化学习能力


    韩媒称,谷歌DeepMind联合创始人德米斯·哈萨比斯和首席科学家大卫·西尔弗于18日在国际期刊《自然》刊登一篇论文,表明:“‘阿尔法狗’(AlphaGo)的最新版本‘Zero’的性能超越了打败世界围棋冠军的‘阿尔法狗’。”

    据韩国《朝鲜日报》10月19日报道,谷歌DeepMind首席执行官哈萨比斯称:“阿尔法元程序(AlphaGo Zero)通过三天的围棋自学就以100:0的比分完胜对阵李世石的AlphaGo Lee,经过21天的学习就超越了以3:0战胜柯杰九段的AlphaGo Master。”

    报道称,“阿尔法狗”之前通过人类棋手的棋谱进行训练,学习如何下围棋。去年以4:1打败李世石九段的AlphaGo Lee,利用七个月的时间学习了16万份棋谱。但是阿尔法元程序与之前的版本不同,只掌握了围棋基本规则,并无其他任何信息的输入。即在没有输入人类棋谱数据的情况下,通过下围棋的过程自动生成了大数据。

    报道称,韩国电子通讯研究院(ETRI)高级研究员李京远(音)表示:“阿尔法元程序的优势是会用强化学习。”强化学习是人类或动物大脑的实际运作方式。

    世界著名脑科学家、美国耶鲁大学医学教授李大烈(音)表示:“强化学习是100年前出现的心理学概念,但是最近在脑科学领域运用十分活跃,脑科学的研究成果直接对人工智能开发产生积极影响。”

    报道称,专家们期待阿尔法元程序增大人工智能运用幅度。例如,向阿尔法元程序输入首尔市人口分布和业务空间数据,在没有任何其他相关数据的情况下,也能绘制出与当前完全不同的、高效的地铁及公交路线图。还能对无人驾驶车运行提供安全保障,目前靠人类无法计算出其在运行过程当中出现事故的所有情况,但是通过阿尔法元程序可以预测所有可能性,包括目前从未出现的情况。

    报道称,但阿尔法元程序也存在局限性。韩国科学技术计划评价院车斗元研究员表示:“目前人们无法明确解释阿尔法元程序算出的每一种走法,所以运用到实际生活,将有可能出现一些副作用。”

    _____________

    请加入我们的FacebookTwitterG+,或者新浪微博获取最快资讯,我们的微信订阅号是:sgnypost