Uploads%2farticles%2f11731%2fcyclone protoss large
|
2017-08-11

AlphaGo 真的要去打星际了?DeepMind 用星际争霸训练 AI

人工智能不下围棋改玩电竞。

在征服了雅达利游戏,以及围棋选手李世石和柯洁之后,Google 旗下的人工智能实验室 DeepMind 将眼光瞄向了更高的挑战 —— 星际争霸。

事实上,星际争霸的游戏方式非常适合 DeepMind 训练人工智能的记忆、计划等高级的技能。自去年 AlphaGo 打败李世石之后,DeepMind 就和星际争霸的创造者暴雪游戏公司达成合作,用游戏训练 AI。今天,用于训练 AI 系统的软件在 Deep Mind 官网上发布了出来。

这个叫做 SC2LE 的软件主要包括一套用于加速 AI 在星际争霸的训练的工具,具体内容如下:

  • 由暴雪公司开发的机器学习 API,帮助开发者和研究人员参与到星际争霸游戏中
  • 一个匿名的游戏数据集
  • 开源的 DeepMind 工具集 PySC2,可以让研究人员非常容易地使用暴雪游戏的 API
  • 一系列简单的增强学习迷你游戏,用于测试 AI 系统特定的功能和任务
  • 一些研究论文,帮助开发者了解整个游戏环境,报告迷你游戏的测试结果等

SC2LE 软件工具包能够让 AI 系统像人类玩家一样玩游戏,也就是说,AI 系统和人类玩家有着相同的约束条件,比如开局时无法看到游戏的全地图、无法快速点击鼠标。这就要求 AI 系统通过不断地试错来进行学习, 或者叫做「增强学习」。

为什么星际争霸可以用来训练 AI 系统呢?

在计算的精度和速度上,计算机远超人类,但是在更高层级的「抽象思维」能力上,计算机短时间内还无法达到人类的水平,而电子游戏就是训练计算机「抽象思维」的重要工具。星际争霸被玩家们称作最难的即时战略游戏,该游戏的搜索和决策空间比围棋大了多个数量级,AI 在进行训练时不仅要考虑战斗策略,环境探索,建筑和技能升级,还要考虑资源的搜集和分配等因素。另外,游戏早期所采用的生产和战斗策略不一定会立即产生效果,所以游戏玩家必须做好长期的战略规划,这对 AI 来说是个不小的挑战。

DeepMind 研究员,同时也是星际争霸顶级玩家的 Oriol Vinyals 说:「游戏提供的一个很有趣的机制叫做『战斗迷雾』,它迫使玩家探索地图,找到敌人的位置,分析敌人的发展状况。对于人类玩家来说,『探索地图』这样的游戏方式已经习以为常,但对 AI 来讲就不一定 ,AI 需要不断地学习才能形成一种常识,这样的挑战在之前的围棋大战是不存在的。」

对于 AI 的训练,DeepMind 希望通过一系列的「迷你游戏」,将整个游戏分解成多个可管理的,简单的机制进行训练,比如收集资源、游戏单位的移动、造房子等,然后从中来评估 AI 的训练结果。

根据 DeepMind 的初步调查显示,AI 在这些迷你游戏中表现良好。但在一场完整的游戏比赛中,再强大的 AI 系统也无法完成一场最简单的星际争霸比赛,DeepMind 表示,他们将继续优化训练方法,争取在深度增强学习领域有所突破。

DeepMind 和暴雪的训练正在进行中,但是已经有专业玩家对「人机大战」表示兴趣十足。韩国星际电竞选手卞玄宇说:「我不认为现在的人工智能在星际争霸上能够打败一位专业的玩家,至少在我有生之年内不会。」

计算机不断采用新的方式来解决问题,并形成一种「常识」,这是一件很有挑战性,也很有意思的事情,它有可能会给世人带来很多惊喜。不过,作为一名 AI 和电子游戏的爱好者,我期待着人类玩家和人工智能在星际争霸上对决的那天。

>>
Back to top btn