Uploads%2farticles%2f10699%2frobot arm google
|
2016-03-11

自学抓取物体的机械臂,Google机器学习再次震惊世界

或许与围棋连胜两局地球上最聪明的人之一相比,抓取物体听起来并没有那么酷炫——毕竟我们大多数人不会手滑拿不住一个杯子,就连一个2岁小孩也能够学会把地上的玩具捡起来。不过倘若说这背后所涉及到的方式方法与AlphaGo战胜李世石所用的是一个模子里面刻出来的,你是否就会有些兴趣了呢?

这两者的背后都使用了强化学习 (reinforcement learning) 的算法。什么叫做强化学习呢?我们打个比方:当你在训练狗狗坐下的时候,如果它做出对的动作,你会给它一块小饼干,跟它说“乖宝宝”;如果它做错了,它将没有饼干,或者轻轻的被你拍一下头;经过长时间的训练之后,它就知道坐下,就能够得到奖励。这对于机器来讲也是一样的,只不过对它而言小饼干,就是一个对未来收益的预期,而它的目标就是如何做出对的选择,来最大化这个收益。

有了基本的概念之后,我们再来看一下维基百科严格的定义:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。换言之,只要我们能够有效的区分“好”和“坏”,那么我们就可以用增强学习的方法,让机器在不断的实验中,逐渐学会做出“好”的行为。


这种方法与传统程序编写的最大区别就在于,传统意义上的程序是通过分析以及一系列的if-else来表达我们对于事情的理解,换言之,这种方法最大的弊端就是,倘若我们不能够清晰的梳理出一件事情为什么这样做的时候,我们便无从成功的让机器模仿做出类似的行为,更无法处理形形色色的突发意外情况。然而强化学习的方法则我们只需要提供一个“足够好”的初始条件,接下来,让机器自己在无数次的失败中调整、学习就好。就拿围棋来说,研究人员无需先成为围棋的个中高手,AlphaGo在与李世石对决以前,它已经和自己下了以百万为单位局的围棋,并从自己身上学到了无数的教训了。同样,我们无须理解我们是如何能够抓起形形色色的物体的,研究人员观察到800,000的练习之后,机器开始学会硬的物体要抓边缘,柔软的物体则可以捏着中间,甚至一些形状不规则或者被挡住的物体,它们还会先把障碍清开,是不是很聪明呢?有兴趣的朋友可以看看论文的原文

当然除了研究上的意义,我更关心的是,这将给工业界带来怎样的震动。毕竟,我们很多决策问题都有类似明确的“好”与“坏”的标准,而倘若我们能够恰当的把增强学习的方法带入到应用当中,或许人和机器的分工又将再一次被深刻的改变。

Back to top btn