AlphaZero:通用型的棋类人工智能程序

来源: 经济日报-中国经济网 2017-12-26 17:06:58
  

今年,Deepmind的“AlphaGo”在围棋领域的胜利让不少人了解到人工智能的强大。当时有人还认为没有人类棋手的经验,人工智能很难快速达到如今的成绩,但后来推出的AlphaGo Zero却是从0开始,自己学习围棋,又取得超越AlphaGo的成绩。如今Deepmind再次将这种强大的算法泛化,提出了AlphaZero:一种可以从零开始,在多种不同的任务中通过自我对弈,达到超越人类水平的新算法。这种算法可以通过24小时的对弈训练后,就可以在日本将棋和国际象棋领域击败目前业内顶尖的计算机程序(这些程序早就战胜了人类棋手)。以下是AlphaZero取得的成绩:

8小时自我训练战胜李世石版本AlphaGo;12小时自我训练战胜世界顶级国际象棋程序Stockfish;14小时自我训练战胜世界顶级将棋程序Elmo。

国际象棋算法的历史和计算机一样古老,虽然很多计算机大师在很久以前就开始了国际象棋算法的开发,但众所周知,国际象棋算法仍然花费了很久才战胜了人类。国际象棋算法存在一个问题,就是它只能在国际象棋领域起作用,如果不经过大幅改造,这个算法是完全不能在其他领域其作用,而大幅改造又失去了利用这一算法的意义。

创造一个规则简单但能在不同领域应用的算法一直是人工智能领域的重要课题。AlphaGo Zero就是一种使用卷积神经网的算法,它可以只通过强化学习进行自我对弈训练,也就是只通过输入围棋规则就能达到超越人类的水平。而新开发的AlphaZero则是能在其他领域获得同样的成绩,在没有输入除了规则以外的任何信息的情况下,AlphaZero仍然可以通过自我学习取得战胜人类顶尖选手的成绩。

1997年“深蓝”击败人类世界冠军卡斯帕罗夫,从那以后计算机程序的国际象棋水平一直在人类之上。这些程序必须得按照人类大师仔细调整的权重来计算落子的优劣。在日本将棋领域,计算机程序的进展就更为缓慢了,日本将棋棋盘更大,而且被吃掉的棋子可以改变阵营,重新上场,还能被放置在大部分位置上。正是因为这些原因,知道2017年计算机程序才在日本将棋领域战胜人类冠军。而围棋的规则是相对比较简单的,适合AlphaGo中的神经网络体系结构。

这三种棋有着很大的区别,从基础构架来说并不兼容,如果让AlphaGo去学习日本将棋和国际象棋是很困难的。但是AlphaZero却不但能完胜其他程序,还能用更少的计算量实现胜利。(王蔚)

责任编辑:sdnew003
我要评论查看所有评论
昵称:

 遵守中华人民共和国有关法律、法规,遵守《互联网新闻信息服务管理规定》。

 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。

 您在鲁商网发表的言论,我们有权在网站内转载或引用。

相关新闻

版权与免责声明:

1 本网注明“来源:×××”(非泗水网络电视台)的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,本网不承担此类稿件侵权行为的连带责任。

2 在本网的新闻页面或BBS上进行跟帖或发表言论者,文责自负。

3 相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。

4 如涉及作品内容、版权等其它问题,请在30日内同本网联系。

泗水网络电视台广告服务中心

广告热线: