还记得那位“围棋大师”AlphaGo吗？这次它输的非常彻底

2017年10月19日 20:51:00
来源：威锋网作者：威锋网

原标题：还记得那位“围棋大师”AlphaGo吗？这次它输的非常彻底　　如今，说起由谷歌旗下团队 D

原标题：还记得那位“围棋大师”AlphaGo吗？这次它输的非常彻底

　　如今，说起由谷歌旗下团队 DeepMind 所开发的人工智能（AI）AlphaGo，你的头脑当中会回想起什么呢？是它在16年3月与围棋高手李世石的一战成名，还是化身“Master”在30秒快棋战当中连克数十名世界级高手，亦或是今年5月份让柯杰连负三局进而崩溃的强横实力？不可否认，当战胜这个星球上最强大的围棋棋士时，实际上它就已经成为了真正意义上的“全场最佳”，而正当我们兴奋地想要看看它究竟能够制霸多久时，今早却突然传来“噩耗”，AlphaGo败了，并且败的是如此的惨！

　　“零号机”的又一次胜利！

　　在今天凌晨才刚刚出版的《自然》杂志上，DeepMind 团队详细介绍了他们在2016年击败李世石的 AlphaGo，因为它是史上第一个在围棋项目上击败人类的机器，这毫无疑问是人工智能技术方面一座新的里程碑。而在这之后，他们又开发出了新一代的人工智能：AlphaGo Zero。

　　那么这个新版本的AlphaGo究竟有多厉害呢？一组数据足以证明！据了解打败李世石的AlphaGo用了3000万盘比赛作为训练数据，而AlphaGo Zero则只用了490万盘比赛数据。经过3天的训练，AlphaGo Zero就以100：0的比分完胜对阵李世石的那版AlphaGo。此时它对阵 AlphaGo Master 的成绩为压倒性的 89：11，Master 则是上面提到打败柯洁的版本；而经过40天的自我对弈之后，它最终以100战全胜的成绩全面超越了 AlphaGo Master。

　　结果表明，具体到不同技术的效果，人工智能在这一领域仍有很多学习的空间。AlphaGo Master使用了很多与AlphaGo Zero相同的开发技术，但它需要首先利用人类的数据进行训练，随后才切换成自我对弈。

　　值得注意的是，虽然AlphaGo Zero在几周的训练期间学会了一些关键概念，但该系统学习的方法与人类有所不同。另外，AlphaGo Zero也比前几代系统更加节能，AlphaGo Lee需要使用几台机器和48个谷歌TPU机器学习加速芯片。其上一代AlphaGo Fan则要用到176个GPU芯片。AlphaGo Zero只需要使用一台配有4个TPU的机器即可

　　它为什么这么牛？

　　比前代作品更高级、更迅速，同时也更节能，虽然我们都知道这是一个“升级版本”理应做到的，但其拉开前代产品多个身位的实力还是令所有人震惊，那么它究竟是如何做到的呢？

　　DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯（Demis Hassabis）针对这一问题给出了答案。他指出，如果说，上一代的 AlphaGo 是通过分析人类目前留下了成千上万场对决和赛局来学习围棋的规律和制胜方法的话，那么使用了强化学习技术（reinforcement learning）的 AlphaGo Zero 则更加简单，它只需要知道游戏规则，就可以开始自我学习。

　　“它的学习方式就是自己和自己玩，从完全没有任何规律的随机游戏开始。在这个过程中，它很快就超过了人类水平，并最终以 100：0 的战绩击败了论文中提到的上一代 AlphaGo。这项技术比上一代 AlphaGo 更强就在于他不受限于人类的知识。它可以从零开始自己学习，直到击败世界上最强的围棋选手：AlphaGo 自己。”

　　AlphaGo Zero相较前代还有几点明显的差别：首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。第三，AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。

　　当然，AlphaGo Zero也并不是第一种采用自主运算的人工智能程序，事实上埃隆·马斯克旗下的非营利人工智能开发机构OpenAI也采用了类似技术来训练一种AI程序，而这个程序相信所有的《Dota2》玩家都不会陌生，它就是在今年TI7国际邀请赛当中首度亮相的OpenAI。并且在当场的solo较量当中，连续两局战胜了曾经的天才中单，来自乌克兰知名战队NAVI的Dendi。并且在赛后，OpenAI 的老板马斯克还在自己的 Twitter 上怒刷一波存在，并认为 OpenAI 第一次在电竞上完胜世界顶级选手这件事，可比象棋围棋要复杂的多。

　　所以，有什么用呢？

　　“计算机下棋再强，有什么用？”马云在今年曾经对AlphaGo提出过质疑，这确实也是许多普通吃瓜群众的质疑。计算机下棋，除了欺负柯洁弟弟，徒增一下人类的紧张气氛之外确实没有什么用。但是，重要的是，在研究计算机解决围棋这一课题的过程中，DeepMind的工程师在人工智能上产生了重要的突破。这些突破可以广泛的应用到其它实际生产的领域，比如在去年7月份，DeepMind就表示：如果全面推动 AI 实装到数据中心的话，最高可以达到 15%的用电削减。

　　Deepmind认为，这一次AlphaGo Zero上的突破能够让人工智能在一些缺少数据或数据异常昂贵的领域更好的发展，比如模拟蛋白质折叠研发新药、寻找新的化合材料等。最重要的是，通过算法提升人工智能的效率，能够大幅减少对硬件“堆料”的依赖。

　　如果你觉得这一理论太过难懂，那么不如用一种更为直接的方式来来让你理解这背后的价值。以下这张图是AlphaGo诞生以来四个版本的能耗对比，今年上半年谷歌方面曾经公布了其在2015年全年的数据中心耗电情况，当时谷歌一年的用电量为57亿千瓦时，如果以北京这种高人均用电的大城市做对比，这相当于北京712万人的用电量。在这样的数字上，仅仅是节省10%，也能够对成本和环境造成巨大影响。

　　还有另一个对比可能让你理解人工智能对我们生活的改变。如果你是90年代生人，应该还记得在生物书上看到过那个“人类基因组计划”——对一个人的23对染色体进行全量测序。这个耗时13年，耗资超过10亿美元，美国，中国，英国，日本，法国和德国6个国家20多所大学和研究机构完成的“世纪工程”。如今如果利用机器学习“再做一次”的周期大约为两周，成本大约为2万美金。而包括英特尔、华大基因、IBM和谷歌等在内的新科技公司，正在力图在2020年把这个数字降到24小时，1000美元。

　　而全量基因测序可以被认为是人类“攻克癌症”的重要一步，无论是在癌症的预防、筛查、优生还是对癌症药物的研究和治疗上，都会彻底改变现有癌症的现有诊疗方式。

　　经过了几次人类与人工智能之间的博弈之后，如今不少人已经对这种全新的产物有了意思恐惧感，但实际上完全没有必要，在不久的将来它所承载的也只能是为人类服务的重担，毕竟在越有规则的领域，它领先人类的步伐就越大，而反倒是需要考虑变量或者不确定因素的情况下，还是人类思考的更加长远。