Uploads%2farticles%2f11078%2fwechatimg15

行业观察 |

2016-09-07

要让人工智能有「灵气」？得赋予它一双聪慧的「眼睛」

当我们期待人工智能超越人类智能这个奇点的临近，我们就必须让计算机具备比人类更强大的视觉能力。

林亿

编者按：上周，阅面科技创始人 & CEO 赵京雷做客深圳湾（公众号 ID：shenzhenware）的「连线湾星人」活动，与各位小伙伴们讨论了当下行业热议的人工智能以及机器视觉的相关问题。本文对赵京雷在该活动中的讨论进行了编辑和整理。

关于赵京雷：上海交通大学人工智能博士，曾任 WiseNut 算法总监，阿里北京算法研究中心负责人、高级算法专家，专注人工智能领域算法研究超过15 年。

初衷：让机器具有一双聪慧的「眼睛」，朝更智能化的方向发展

在一次聚会中，赵京雷与朋友们讨论了这么一个问题：什么样的平台，会成为继智能手机之后最有发展潜力的一个平台？大家普遍认为，人工智能的发展既是必然的趋势，同时也是也是不可或缺的技术。

而视觉将在人机交互中扮演着重要的角色，它能够让机器从被动接受命令到主动去感知世界，而就目前来看，计算机视觉的发展还处于比较前期的状态。自从深度学习出现后，人工智能领域迸发出了许多创业机会。然而，这些人工智能产品中的大部分并不「智能」。

2015 年，赵京雷成立阅面科技（ReadSense），主攻计算机视觉和机器学习，让机器具有一双智慧的「眼睛」，朝更智能化的方向发展。

在赵京雷看来，只有赋予计算机视觉感知能力，像人一样看到并主动理解周围的世界，人工智能才真正开始具有「灵气」。「当我们期待人工智能超越人类智能这个奇点的临近，我们就必须让计算机具备比人类更强大的视觉能力。而在这个最好的时代等待计算机视觉的将会是全新的挑战」

内容：提供软硬件一体化解决方案，帮助行业（智能家居、机器人、车载设备等）解决视觉问题

「现在的视觉算法早已舍弃了底层的传统方法，全都必须采用深度学习。在深度学习框架上，我们主要解决了检测、追踪和识别三块，基于自主算法的不断优化，可以构建一系列诸如人脸情绪识别、手势识别、人体识别以及场景感知算法。」

视觉算法前端运算的最终形式是视觉芯片，阅面科技正自主研发创新性视觉算法，硬件模组及芯片，旨在做一套软硬件一体化解决方案（包括软件 SDK、嵌入式硬件模组以及视觉 sensor 等），帮助行业解决视觉问题，涵盖智能机器人、智能家居、智能玩具和车载设备等。

做算法出身的赵京雷坦言：「硬件和算法产品的做法差别非常大，但在目前，要想真正的解决机器视觉的问题，必须要做硬件。而做硬件要考虑性能、功耗、价格和供应链以及与软件算法的整合优化等。幸亏团队里有硬件产品经验比较丰富的同事，解决起来相对没那么费劲。另外，我们也一直在加强硬件方面人才的积累。」在前期一年多的时间里，团队主要还是将精力放在底层算法和数据上。

以往的智能解决方案一般都需要连接云端，相应的，机器会容易因此出现响应速度慢等问题。而阅面的一体化解决方案运用深度学习技术以及海量的数据，可在脱离云端的情况下，利用本地化算法实现硬件嵌入。对于情绪识别这中必须得到实时反馈的服务，需要算法前端化嵌入移动端来实现高效运行，云端处理显然不是最好的选择。

而离线是否会影响机器的深度学习和大数据分析呢？赵京雷向我们解释了其中的原理：在机器学习中，目前主流的算法分为从大数据中去学习的训练阶段，和对新数据处理的预测阶段。而不管算法是运行在云端还是本地，都要先从大数据中去习得能力。所以，不管是前端还是云端，两者的预测模型都需要有事先的部署，预测端代码和离线的数据处理并没有什么关系。

技术：关于手势识别、表情识别、建模的那些事

关于手势识别如何解决多角度的问题，赵京雷表示：目前，手势识别有 2D、3D 这两种主流方案。除了 VR、AR 中一些需要精准捕捉手部关节运动的应用外，一般的手势均可采用 2D 方案。另外，影响手势多角度识别的关键在于手部检测环节（就是从图片中检测出手势）。

在以往，比起 2D 方案，3D 方案在手部检测方面具有更大的优势，而这种优势已逐渐消失：2D 拥有更大的数据量，尤其适用于深度学习，在样本量足够大的情况下，深度学习有能力构建更高度精确的多角度手部检测模型。

表情识别可谓是人脸识别中最大的难题，一方面，数据的不一致性，使得人类在某种情感上较难建立标准的定义；另一方面，对于人脸，计算机只能识别出一个情绪模型的置信值，这也是机器不能读懂面部表情下潜在心情的缘由。

据赵京雷介绍，为了改善这一局面，目前也有人在尝试这样一种方法：通过多模态的输入，比如结合体征特征、声音特征等对情绪进行建模。但总体进展和实用性不大。

摄像头在捕捉面孔信息时，难免会遇到因为远距离而导致画面模糊的问题。阅面科技也一直在加强处理这方面问题的技术，其中，表情识别是他们解决方案中很小的一部分。

赵京雷还表示，未来的视觉识别将是「无感」的，也就是不能要求被识别的目标摆 pose。受人体运动、角度等影响，摄像头所捕捉到的图像质量普遍偏低，在考虑实际的产品时，也必须考虑到这些问题。

赵京雷进一步说道，目前人工智能最大瓶颈在模型本身，现在深度学习模型也只是对人脑的认知机制刻画了一个皮毛，而对大脑认知结构的进一步认知（比如心理学和生物学），将会对 AI 带来本质性的突破。

理解：「人工智能」与「机器人」

到现在为止，相信许多人对「人工智能」的概念还是了解得不够清楚，甚至还会与「机器人」这个概念混淆。对人工智能有多年研究经验的赵京雷对「人工智能」的存在形式做了一番解说：

「人工智能」与「机器人」是两个截然不同的概念，但在某种意义上，「人工智能」可以等同于「机器人」。机器人是具备了部分人类或者生物认知能力的机器，但不一定是人形机器人。

另外，机器人不一定要有硬件载体，人工智能算法本身接入虚拟形象也可以成为某种意义上的机器人。未来的机器人可以有硬件载体，也可以是存在于 AR、VR 等场景的虚拟影像。

编辑：林亿

题图：电影『机器人 9 号』

● ● ●

下期「连线湾星人」活动预告：
「灵聚人工大脑可以立即改善当前智能硬件和机器人的窘境，而不是只着眼于遥远未来的实验室技术。」

经历过多次创业，为何还会选择在 40 岁创业做灵聚人工大脑？
在人工大脑和其它自然语音交互系统区别在哪？
为何选择用 NAO 机器人作为硬件载体？
产品定位是商用级人工大脑，是否有考虑和家庭机器人合作？

灵聚科技今年 8 月刚刚拿了 A 轮却还依然很低调，最近在发展什么？人工大脑领域还能有什么样的创新和突破？

点击此处或长按图片中的二维码，参与 9 月 8 日（周四）晚上的「连线湾星人」在线活动，和灵聚科技创始人张胜，聊聊人工大脑未来的发展前景和技术方向。

人工智能

机器人

机器视觉

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：越疆魔术师 Dobot Magician ：这个桌面小助手给你一个操控万物的新方式

下一篇：健康、运动、时尚全面兼顾，三星 Galaxy Watch 8 卷出了新高度

初衷：让机器具有一双聪慧的「眼睛」，朝更智能化的方向发展

内容：提供软硬件一体化解决方案，帮助行业（智能家居、机器人、车载设备等）解决视觉问题

技术：关于手势识别、表情识别、建模的那些事

理解：「人工智能」与「机器人」

下期「连线湾星人」活动预告：「灵聚人工大脑可以立即改善当前智能硬件和机器人的窘境，而不是只着眼于遥远未来的实验室技术。」

下期「连线湾星人」活动预告：
「灵聚人工大脑可以立即改善当前智能硬件和机器人的窘境，而不是只着眼于遥远未来的实验室技术。」