AlphaGo 真的要去打星际了？DeepMind 用星际争霸训练 AI

Uploads%2farticles%2f11731%2fcyclone protoss large

2017-08-11

人工智能不下围棋改玩电竞。

在征服了雅达利游戏，以及围棋选手李世石和柯洁之后，Google 旗下的人工智能实验室 DeepMind 将眼光瞄向了更高的挑战 —— 星际争霸。

事实上，星际争霸的游戏方式非常适合 DeepMind 训练人工智能的记忆、计划等高级的技能。自去年 AlphaGo 打败李世石之后，DeepMind 就和星际争霸的创造者暴雪游戏公司达成合作，用游戏训练 AI。今天，用于训练 AI 系统的软件在 Deep Mind 官网上发布了出来。

这个叫做 SC2LE 的软件主要包括一套用于加速 AI 在星际争霸的训练的工具，具体内容如下：

由暴雪公司开发的机器学习 API，帮助开发者和研究人员参与到星际争霸游戏中
一个匿名的游戏数据集
开源的 DeepMind 工具集 PySC2，可以让研究人员非常容易地使用暴雪游戏的 API
一系列简单的增强学习迷你游戏，用于测试 AI 系统特定的功能和任务
一些研究论文，帮助开发者了解整个游戏环境，报告迷你游戏的测试结果等

SC2LE 软件工具包能够让 AI 系统像人类玩家一样玩游戏，也就是说，AI 系统和人类玩家有着相同的约束条件，比如开局时无法看到游戏的全地图、无法快速点击鼠标。这就要求 AI 系统通过不断地试错来进行学习，或者叫做「增强学习」。

为什么星际争霸可以用来训练 AI 系统呢？

在计算的精度和速度上，计算机远超人类，但是在更高层级的「抽象思维」能力上，计算机短时间内还无法达到人类的水平，而电子游戏就是训练计算机「抽象思维」的重要工具。星际争霸被玩家们称作最难的即时战略游戏，该游戏的搜索和决策空间比围棋大了多个数量级，AI 在进行训练时不仅要考虑战斗策略，环境探索，建筑和技能升级，还要考虑资源的搜集和分配等因素。另外，游戏早期所采用的生产和战斗策略不一定会立即产生效果，所以游戏玩家必须做好长期的战略规划，这对 AI 来说是个不小的挑战。

DeepMind 研究员，同时也是星际争霸顶级玩家的 Oriol Vinyals 说：「游戏提供的一个很有趣的机制叫做『战斗迷雾』，它迫使玩家探索地图，找到敌人的位置，分析敌人的发展状况。对于人类玩家来说，『探索地图』这样的游戏方式已经习以为常，但对 AI 来讲就不一定，AI 需要不断地学习才能形成一种常识，这样的挑战在之前的围棋大战是不存在的。」

对于 AI 的训练，DeepMind 希望通过一系列的「迷你游戏」，将整个游戏分解成多个可管理的，简单的机制进行训练，比如收集资源、游戏单位的移动、造房子等，然后从中来评估 AI 的训练结果。

根据 DeepMind 的初步调查显示，AI 在这些迷你游戏中表现良好。但在一场完整的游戏比赛中，再强大的 AI 系统也无法完成一场最简单的星际争霸比赛，DeepMind 表示，他们将继续优化训练方法，争取在深度增强学习领域有所突破。

DeepMind 和暴雪的训练正在进行中，但是已经有专业玩家对「人机大战」表示兴趣十足。韩国星际电竞选手卞玄宇说：「我不认为现在的人工智能在星际争霸上能够打败一位专业的玩家，至少在我有生之年内不会。」

计算机不断采用新的方式来解决问题，并形成一种「常识」，这是一件很有挑战性，也很有意思的事情，它有可能会给世人带来很多惊喜。不过，作为一名 AI 和电子游戏的爱好者，我期待着人类玩家和人工智能在星际争霸上对决的那天。

人工智能

DeepMind

增强学习

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：Anker 公布了一款只卖 35 刀的智能音箱，紧随其后的是一套智能家居全家桶

下一篇：深扒苹果带摄像头 AirPods 「说明书」，苹果全新形态的新品真要来了？