机器人也能读懂人类的情绪？看 OpenPose 是如何通过 500 个摄像头做到的

Uploads%2farticles%2f11700%2fpanoptic pose detection 900x600 min

前沿技术 |

2017-07-25

机器人也能读懂人类的情绪？看 OpenPose 是如何通过 500 个摄像头做到的

给机器人一个眼神，它就能帮你捶腿了。

谈哲

试想一个情景：当你的一位朋友说她感觉很放松，但是你明明看到她的拳头是紧握的，你可能会怀疑她在骗你。面对同样的情景，一台不那么智能的机器人却可能会相信她的话。

人类有时候不一定会说真话，但他们的肢体语言却常常表达出他们最真实的情感。如今我们在计算机视觉及面部识别技术方面已经进步了很多，但对于机器人来说，要识别到人类微妙的身体运动依然很难，这会导致其在判别人类真实意图时，可能会漏掉很多重要线索。

针对这个技术盲点，卡内基梅隆大学（Carnegie Mellon University）的研究人员开发了一个身体跟踪系统，并命名为 OpenPose。该系统能实时跟踪人的肢体运动，包括手和脸部。它使用计算机视觉和机器学习技术来处理视频帧，甚至可以同时跟踪多个人的运动。

OpenPose 不仅可以跟踪人的面部表情、躯干和四肢，还可以跟踪单个手指。为了做到这一点，研究人员使用了卡内基梅隆大学 Panoptic Studio 实验室的相机系统技术，在一个两层式园顶结构上布有 500 个摄像头，它们会从各种角度拍摄身体姿势，然后使用这些图像数据来重建数据集，描摹特定点的 3D 运动轨迹。

从圆顶上的相机捕获到的图像是 2D 的，采集完图像后，系统会通过关键点检测器传递这些图像，以识别和标记特定的身体部位，以帮助身体跟踪算法了解每个姿势如何从不同的角度出现，并最终以 3D 效果呈现。

卡内基梅隆大学机器人学副教授 Yaser Sheikh 表示，跟踪二维人体形态和运动的这些方法，为人类和机器之间的互动开辟了新的途径，并能帮助人类以及机器人更加准确的了解周围环境。举个例子，识别手姿势的能力将使人们能够以新的、更自然的方式与计算机进行交互，仅仅通过用手指向桌上的杯子，无需说话就能让计算机知道人想要传达的信息。

加载了这种读取人类情绪技术的机器人能应用到社交空间，并能够察觉到周围的人在做什么。例如，能识别即将闯红灯过马路的人并发出警报，也可为自闭症、阅读障碍和抑郁症等疾病患者提供行为诊断和康复方案。

为了鼓励更多的研究与应用，研究人员已经分别发布了用于多人运动和手姿态分析的计算机代码，根据 Sheikh 的介绍，目前已有包括汽车公司在内的 20 多个商业集团对该技术产生了兴趣。

「现在，我们能够突破许多技术障碍，主要是因为 10 年前的 NSF 授权，」Sheikh 说：「除了共享代码之外，我们还分享了实验中捕获的所有数据。」

除了Sheikh，博士生 Simon 和硕士生 Zhe Cao 与 Shih-En Wei 等也参与了多人姿势识别的研究。手部检测研究则包括 Sheikh，Joo，Simon 和机器人学院的辅助教授 Iain Matthew。硕士研究生Gines Hidalgo Martinez 也参与了这项工作，负责管理源代码。

OpenPose 项目归属于卡内基梅隆大学计算机科学学院的 CMU AI 计划，该计划旨在通过利用学校在计算机视觉，机器学习，机器人，自然语言处理和人机交互方面的优势，推进人工智能研究和教育。

机器人