自学抓取物体的机械臂，Google机器学习再次震惊世界

Uploads%2farticles%2f10699%2frobot arm google

2016-03-11

或许与围棋连胜两局地球上最聪明的人之一相比，抓取物体听起来并没有那么酷炫——毕竟我们大多数人不会手滑拿不住一个杯子，就连一个2岁小孩也能够学会把地上的玩具捡起来。不过倘若说这背后所涉及到的方式方法与AlphaGo战胜李世石所用的是一个模子里面刻出来的，你是否就会有些兴趣了呢？

这两者的背后都使用了强化学习 (reinforcement learning) 的算法。什么叫做强化学习呢？我们打个比方：当你在训练狗狗坐下的时候，如果它做出对的动作，你会给它一块小饼干，跟它说“乖宝宝”；如果它做错了，它将没有饼干，或者轻轻的被你拍一下头；经过长时间的训练之后，它就知道坐下，就能够得到奖励。这对于机器来讲也是一样的，只不过对它而言小饼干，就是一个对未来收益的预期，而它的目标就是如何做出对的选择，来最大化这个收益。

有了基本的概念之后，我们再来看一下维基百科严格的定义：强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。换言之，只要我们能够有效的区分“好”和“坏”，那么我们就可以用增强学习的方法，让机器在不断的实验中，逐渐学会做出“好”的行为。

这种方法与传统程序编写的最大区别就在于，传统意义上的程序是通过分析以及一系列的if-else来表达我们对于事情的理解，换言之，这种方法最大的弊端就是，倘若我们不能够清晰的梳理出一件事情为什么这样做的时候，我们便无从成功的让机器模仿做出类似的行为，更无法处理形形色色的突发意外情况。然而强化学习的方法则我们只需要提供一个“足够好”的初始条件，接下来，让机器自己在无数次的失败中调整、学习就好。就拿围棋来说，研究人员无需先成为围棋的个中高手，AlphaGo在与李世石对决以前，它已经和自己下了以百万为单位局的围棋，并从自己身上学到了无数的教训了。同样，我们无须理解我们是如何能够抓起形形色色的物体的，研究人员观察到800,000的练习之后，机器开始学会硬的物体要抓边缘，柔软的物体则可以捏着中间，甚至一些形状不规则或者被挡住的物体，它们还会先把障碍清开，是不是很聪明呢？有兴趣的朋友可以看看论文的原文。

当然除了研究上的意义，我更关心的是，这将给工业界带来怎样的震动。毕竟，我们很多决策问题都有类似明确的“好”与“坏”的标准，而倘若我们能够恰当的把增强学习的方法带入到应用当中，或许人和机器的分工又将再一次被深刻的改变。

谷歌