2017-07-12

DeepMind 的 AI 机器人正在自学障碍跑，既奇怪又有趣

就像一个蹒跚学步的宝宝，跌倒了自己就能爬起来。

谷歌的人工智能子公司 DeepMind 最近连续发布了三篇论文，探讨了如何使用「强化学习」的方法来教导 AI，使它能在不熟悉或复杂的环境里自主导航运动路线。

这是一项在虚拟世界中对人工智能进行的测试，运动智能（motor intelligence）学习如何控制和协调柔韧的身体在各种复杂环境中解决任务，涵括了计算机动画（Computer animation）和生物力学（Biomechanics）等多个领域的知识。

有一天将这个这项程序加载到实体机器人身上，同样可以驱动机器人做出相同的反应。下面是完整的演示视频：

从视频中可以看到看到，棒状机器人会根据特殊地形做出不同的行为，包括跳跃、转向、蹲伏等智能肢体动作。而这些动作并不需要为其编写特定的计算机程序，在棒状机器人的身体与环境交互的过程中，逐渐建立最佳的行为模式。最终机器人会在在没有特殊指示的情况下发展出了复杂技能，这一方法可被应用于训练系统中多个不同的仿真身体。

而 DeepMind 的三篇论文，也分别从三个角度探寻了 AI 如何产生灵活和自然行为的方法，它们将来有望于应用在实体机器人身上进行训练。

强化学习：如何在丰富的自然环境中产生运动行为？

此前 DeepMind 的研究，可能会更多集中在算法层面的问题，例如如何模拟人类大脑的思考活动，如何进行决策与选择，最具代表性的研究成果就是 AlphaGo。

但是如何教会一个 AI 运动行为呢？例如一次跳跃、翻转与奔跑。首先，我们要解决的是该如何精准的描述一个运动行为，在第一篇论文『Emergence of Locomotion Behaviours in Rich Environments』中，探讨了如何通过一个策略梯度清华学习的全新可拓展变体，训练各种不同的模拟人体在不同的地形中的运动，例如跳跃、转向与蹲伏。

对抗模仿学习：如何从动作捕捉中学习人类行为？

当智能体学会了基础性的运动，就要开始学习一些特性复杂的技能。例如：行走的步态、从地上起身、跑步与转弯绕过障碍物等。在第二篇论文『Learning human behaviors from motion capture by adversarial imitation』中，DeepMind 则展示了一套可通过运动数据捕捉建立多个子技能策略网络的方法，并使用生成对抗模仿学习训练通用神经网络，从而根据有限的示例生成与人类相似的动作模式。

多行为的鲁棒性模仿：如何在多种行为模式中进行切换？

当智能体习得各种运动方案后，那么该如何处理两种不同行为模式之间的切换过程，例如从步行变为跑步，使得其过渡自然呢？在第三篇论文『Robust Imitation of Diverse Behaviors』中，则展示了一种当前最优生成的神经网络架构，使得智能体能够学习不同行为之间的关系，并模拟它们产生具体的动作。

DeepMind 研究团队指出，其未来的工作将主要集中在指导以上方案「在更为复杂的情况下协调做出更为广泛的动作范围」。事实上，单纯的模拟人类行为并不是 DeepMind 团队的最终目的，它们只是想用创造性的解决方案来克服现有的 AI 机器人运动障碍，他们认为机器人甚至可以摆脱人类的运动模式，创造出新的运动行为。只是大多数时候，研究团队认为能提供的最有效的办法，依然不是最自然的。

DeepMind