人工智能继续进阶

来源：科技日报 2017-12-15 17:56:28

在人工智能(AI)领域，“阿法狗”(AlphaGo)是个嚣张的名字。自2016年3月甫出茅庐震惊世人后，该程序妙手迭出，一路刷新纪录。

至本月初，谷歌的AI子公司深度思维宣布“阿法狗”升级成了“阿法零”(AlphaZero)，已一举击败国际象棋、将棋、围棋类三个世界冠军级的电脑程序。

12月11日，该公司发布“阿法狗”教学工具。两天后，团队资深研究员、曾代AI执子的“人肉臂”黄士杰，宣布正式离开“阿法狗”，转投深度思维其他项目。

“阿法狗”不断升级

2016年，名为“阿法狗”的AI在和所有其他围棋程序的对抗中获得99.8%的胜率后，进一步学习，于当年3月挑战人类围棋世界冠军。五局鏖战，人类1∶4不敌AI，轰动一时。人们将这一成绩视为彼时人工智能的巅峰之作，没成想，这只是“阿法狗”的起步。

今年1月，一个神秘账号Master在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手，豪取胜利，随后战赢“棋圣”聂卫平，直至60盘决胜收官时自爆身份，公布自己正是“阿法狗”新版。

10月，“阿法狗”程序再次升级——“阿法元”(AlphaGo Zero)出现，其以100∶0的不败战绩，狠狠击败了曾书写历史的旧版“阿法狗”，而且能够从空白状态起，在不需要任何人类棋谱输入的条件下，无师自通，自学围棋。

直至12月6日，深度思维再出惊人之举：其研发的新一代“阿法零”，凭借强劲的计算资源，使其经过不到24小时的自我对弈强化学习，就接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序，自此成了全能棋王。

“阿法零”独孤求败

最新出现的“阿法零”，是深度思维团队继“阿法元”问世之后带给人们的又一全新算法，并称它是“更通用版本”。

目前，“阿法零”算法可以在8个小时训练后击败去年对战李世石版本的“阿法狗”，再以4小时训练击败世界顶级的国际象棋程序Stockfish;又用2小时训练击败世界顶级将棋程序Elmo。

与前辈“阿法元”相比，“阿法零”有很多自己的独到之处。首先，“阿法元”是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化，而“阿法零”会将平局及其他潜在结果都考虑在内，深一步估计和优化;其次，“阿法零”并不是靠转变棋盘位置进行数据增强，它只对单一神经网络进行维护，并不断更新该神经网络;最后，“阿法零”所有对弈都重复使用相同的超参数(开始学习过程之前设置值的参数，而非通过训练得到的参数数据)，因此无需额外针对特定某种棋类再进行调整。

下一步落地应用

本月11日，深度思维拿出了一套“阿法狗”教学工具。“阿法狗”团队核心成员黄士杰在其社交媒体账号上介绍说，该教学工具总共收录了约6000个近代围棋史上主要的开局变化，从23万个人类棋谱中收集而来，而所有盘面都有“阿法狗”评估的胜率及推荐的下法。

这套教学使用的其实是神秘账号Master那一版的“阿法狗”。但这里所有的胜率与下法，AI都思考过将近10分钟——这意味着1000万次模拟，而每一个开局变化，“阿法狗”都固定延伸20步棋。再加上下法，整套教学工具约有2万个分支变化，37万个盘面。团队成员希望，人们能感受这套教学工具中的创新，并可从中获益。

教学系统推出两天后，黄士杰宣布正式告别“阿法狗”，投身公司的其他研究中。

其实早在今年5月，当“阿法狗”战胜柯洁后，深度思维就宣布此后该程序不会再参加到人机大战的竞技中去。团队的下一步计划，是研发出广泛算法以投入应用，包括给出疾病的治疗方案、设法将能源消耗降低，以及发明出革命性新材料等。

现在，深度思维已与谷歌数据中心共同研发管理制冷系统的新技术，并与英国全民医疗健康系统达成合作。他们，在让AI相关算法真实落地于应用中。

关键词：进阶人工智能

责任编辑：sdnew003

返回首页返回IT首页

人工智能继续进阶

相关新闻

热文排行

财经

综合

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题

人工智能继续进阶

相关新闻

热文排行 财经 综合 黄金360

关注 热门主题

综合热门 热门主题

科技热门 热门主题

热文排行

财经

综合

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题