Uploads%2farticles%2f11063%2fu 570207921 2315372582 fm 21 gp 0
|
2016-08-31

对话阅面科技创始人赵京雷,如何软硬兼施,让机器拥有一双聪慧的「眼睛」|连线湾星人

要想真正的解决机器视觉的问题,必须要做硬件。

要想真正的解决机器视觉的问题,必须要做硬件。

本期嘉宾介绍:

赵京雷,阅面科技创始人 & CEO,上交大人工智能博士,前 Wise nut 算法总监,前阿里北京算法研究中心负责人、高级算法专家。2015 年成立阅面科技(ReadSense)。

关于阅面科技(ReadSense):

阅面科技(ReadSense)是一家人工智能企业,专注于深度学习和嵌入式视觉,为智能机器提供视觉识别技术,包括面部识别(Readface)、手势识别(Readhand)、人体识别(Readbody)以及环境感知(Readway)。另外在硬件层面上,主要针对需要深入建模,对计算等方面有非常高的性能要求的情况,给出的一个优化好的软硬件一体化解决方案。

目前,阅面科技总部在上海,并在北京、南京以及美国的明尼苏达设有研发分布。 团队来自阿里巴巴、百度以及卡内基梅隆等国内外知名大型企业。

以下是赵京雷在「连线湾星人」活动中与小伙伴们的对话实录,经深圳湾(公众号 ID:shenzhenware)编辑整理:

深圳湾:感谢赵总来深圳湾交流!能否再对你们「自主研发的创新性视觉算法,硬件模组及芯片,提供一体化解决方案」做进一步的介绍?

赵京雷:谢谢各位,现在的视觉算法早已舍弃了底层的传统方法,全都必须采用深度学习。在深度学习框架上,我们主要解决了检测、追踪和识别三块,基于自主算法的不断优化,可以构建一系列诸如人脸识别、手势识别、人体识别以及场景感知算法。

视觉算法前端运算的最终形式是视觉芯片,我们基于算法会提供软硬件一体的解决方案,帮助行业解决视觉问题。

深圳湾:赵总能介绍一下阅面现在的合作案例吗?

赵京雷:我们目前在机器人、扫地机器人、车载设备和 loT 等行业有很多的合作伙伴,具体可以找个机会做进一步交流。

深圳湾:有人说人工智能就是机器人,赵总同意这个观点吗?

赵京雷: (人工智能与机器人)这两个概念是很不同的,但在某种意义上,也可以这样说。 机器人在英文中叫做 Robotics,不一定是指人形的机器,其典型特点是,具备了部分人类或者生物认知能力的机器。 另外,机器人不一定要有硬件载体,人工智能算法本身接入虚拟形象也可以成为某种意义上的机器人。

深圳湾:从做算法层产品,到自己做硬件,碰到哪些过坑? 又是怎么解决这些坑的?

赵京雷: 硬件和算法产品的做法差别非常大,但在目前,要想真正的解决机器视觉的问题,必须要做硬件。另外,做硬件要考虑性能、功耗、价格和供应链以及与软件算法的整合优化等。幸亏团队里有硬件产品经验比较丰富的同事,解决起来相对没那么费劲。我们也一直在加强硬件方面人才的积累。

深圳湾:本地化算法嵌入硬件模块,没连接云端能实现大数据分析和深度学习吗?

赵京雷 : 在机器学习中,目前主流的算法分为从大数据中去学习的训练阶段,和对新数据处理的预测阶段。不管算法是运行在云端还是本地,都要先从大数据中去习得能力。所以预测端代码跑在前端还是云端和离线的数据处理是没关系的,云端的预测模型也需要部署上去,两者都是基于训练阶段结合大数据训练出来的。

深圳湾 : 明白,这样的话,离线的优势确实就比较明显了。我们现在会接触到一些机器人并发现,在语音方面,它们会时常因为链接云端而出现联网状态下反应慢的情况,但离线就解决了网络延迟时间的问题。

深圳湾:萨曼莎是靠什么?系统算法?未来所谓的机器人是不是都可以如精灵般虚拟的存在着。

赵京雷: 萨曼莎某种意义上是一个「人工智能程序」或算法,也可以称之为一个机器人,只不过这个机器人没有传统意义上的机器人躯干。 她具备了机器人必备的人工智能认知系统,比如语音识别,语言阅读和理解能力,以及视觉能力(通过连接到互联网的各个摄像头的视频数据进行处理)。未来的机器人可以有硬件载体,也可以是存在于 AR、VR 等场景的虚拟影像。

深圳湾:对于手势动作的识别(ReadHand),你是怎么解决多角度的识别? 目前手势识别的应用场景停留在简单交互的控制上,比如体感游戏、非触屏幕,这类场景由于限制了用户与摄像头之间的距离、角度,因此识别率非常之高,当然算法模型也就可以仅根据这类场景的样本进行训练。但如果打破这个限制,当手势与摄像头的环境变得无法控制时,同个一个定义手势,就会出现无数个视觉样本,这个时候还有可能建立起有效的训练模型吗?

赵京雷:关于手势识别,主流有 2D 和 3D 的方案,除了 VR 和 AR 中一些需要精确捕捉手部关节运动的应用,其他手势都可以使用 2D 来做。2D 的数据量比较大,对深度学习尤其适用。影响手势识别角度的最关键的是手部检测,也就是把手从图片中检测出来。在样本量够的情况下,目前深度学习是有能力构建非常精确的多角度手部检测模型。以前,3D 的方法在手部检测方面比 2D 有明显优势,但在深度学习和大样本的情况下,这种优势正在消失。

深圳湾:对于面部表情或手势等,不同的人,不同的地区和国家。他们的表现出来的表情和手势都是不同的,这该如何更有效的识别呢?

赵京雷 : 人类是有共同的认知的,形体和表情的差异基本不大。 另外,人机交互算法提供的是对头部、手部以及人体的基本检测、追踪和基本动作辨识能力。基于之上去构建语义是应用层和产品层的事情。完全可以在应用层定义不同的含义。

深圳湾:最近有一些消息称,市面上绝大多数监控摄像头虽说是高清摄像头,但实际上,在 10 米之外,摄像头捕捉到的面孔信息,已经非常模糊了。阅面会有这方面的技术突破吗?

赵京雷:我们一直在加强对远距离和模糊信息的处理手段。未来的视觉识别都是「无感」的,也就是不能要求被识别的目标摆 pose,由于运动、角度等影响,真实的图像质量普遍偏低,实际的产品必须要考虑到这些问题。表情识别只是我们解决方案中很小的一部分。

深圳湾:之前有听说过「计算机做人脸识别会比人更准」这样类似的话,但是实际上所见到的机器人中并不是这样,想必这话也不是没有由来。赵总在人工算法上有深度的研究,想请问什么情况下,会如同所说的比人识别的还要准呢?

赵京雷: 计算机做人脸识别在大部分的情况下远远不如人类准,而且在某些特定场景下相差甚远,因为机器受灯光、角度、模糊影响很大。 在人脸识别领域,有个基本的测试数据集叫做 LFW,不同家的算法都会在上面比较一下在这个数据集上的精度,这个数据集虽然和实用场景还相差甚远,但为算法研究建立了一个基本的标准。

在 LFW 上,人可以在上面做到 97.5% 的人脸识别准确率,而机器可以做到 99.5% 以上,我们所说的机器比人准,很大程度上来源于此。

深圳湾:在人工智能的憧憬上,我比较向往电影『Her』中的 OS 系统,即能处理程序化的事务,也能读懂人类的心理情绪。在识别情绪上,阅面有脸部识别(ReadFace),可以通过摄像头实时的识别人脸的情绪变化。但计算机读懂的只是一个情绪模型的置信值,计算机并不能懂人心情的缘由,因此无法精准的给出正确的反馈。我觉得这是人工智能目前遇到最大的瓶颈,不知道您对此有什么好的想法?

赵京雷:在目前,之所以表情识别是人脸识别中最难的问题,一方面主要是因为数据的不一致,人类在某种情感上较难建立标准的定义;另一方面就像你所说的,机器不太能理解面部表情潜在的心情缘由。通过多模态的输入,比如结合体征特征,声音特征等对情绪进行建模,目前也有人在尝试,总体进展和实用性不大。

人工智能目前的最大瓶颈其实是在模型本身,现在深度学习模型也只是对人脑的认知机制刻画了一个皮毛。而对大脑认知结构进一步的认知(比如心理学和生物学),将会对 AI 带来本质性的突破。

深圳湾:机器视觉可以识别捕捉到人脸上微妙的肌肉的变化,包括识别表情,是否考虑和心理学家合作,或者是结合表情的大数据,做出测谎机器人?

赵京雷: 微表情的研究仅仅停留在学术上,目前工业实现基本没有可能。

预告:

这是个能语音编程的未来机器人,和 NXROBO 联合创始人聊聊机器人产品的定义|连线湾星人


Uploads%2fusers%2favatar%2f338640627%2fthumb shining portrait squre

感谢雷子的精彩分享,以及耐心的解答。这个团队做的事情很有意思,期待再次做客深圳湾。

>>
Back to top btn