DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

image

谷歌旗下人工智能公司 DeepMind 一直都热衷于在棋盘上击败所有人类对手。DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero。

AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手

这次的新技术 AlphaZero 在学习 8 个小时之后就成功的击败了之前“碾压”人类冠军的前任 AlphaGo Lee。同时又只用 4 个小时的训练就能击败顶级的国际象棋程序 Stockfish。最后,又经过 2 个小时的训练后击败了日本传统棋类项目的将棋程序 Elmo,三种棋类都已经超越了国际顶级水准。而 AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。

AlphaZero 应用了与类似 AlphaGo Zero 但更通用的算法,因为它并非专门针对下棋设计,它只掌握最基本的棋类规则,但并没有专门的策略和战术代码,然后通过名为“强化学习”的训练方法,不断重复训练快速掌握规则,算是之前 AlphaGo Zero 的增强版。

其实这种强化式学习方式本身并不新鲜。今年 10 月创建的 AlphaGo Zero 也使用了同样的方法。但是这次新的 AlphaZero 要比之前更具通用性,因此能够在没有事先准备的情况下应用于更广泛的用途。

值得注意的是,在不到 24 小时的时间里,同一个计算机程序能够通过自我学习的方式实现在三种不同棋类项目同时达到“超越人类”的水平,这是人工智能领域所取得的新成就。

现在 DeepMind 距离公司梦寐以求的通用思维机器目标又近了一步,不过依然面对着非常大的挑战。今年年初,DeepMind 首席执行官 Demis Hassabis 在展示最新成果时表示,虽然该技术未来可能对解决一系列科学问题有所帮助,比如创新设计和药品研发,但是这些用途与棋类游戏相比有本质的区别。团队需要大量的工作来找出如何解决这些问题的方式。

参考:腾讯科技

Read More – 

DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero