用耳机就能做面部识别，看看康奈尔大学的新研究 | 元宇宙前沿

2022-07-22

说话、微笑、眨眼、嘟嘴，都可以实时识别生成虚拟面部表情。

前不久，一段国外女生模仿 NPC（游戏中非玩家角色）的视频走红，画面中女生无论面部表情、肢体动作都与 NPC 非常相像，一度让人分不清到底是现实还是游戏。

相比于真人实力模拟虚拟形象，随着元宇宙的兴起，如今数字人则做到了对真人的虚拟复刻。

另外，在线上会议、视频直播、运动健身场景，已经出现了不少数字人身影。而用摄像头，通过面部拍摄和 AI 算法，识别面部表情，进而映射至相对应的使用场景中，是目前行业比较主流的方案。

此外，在 XR 领域，此前曝光的一份 Magic Leap 专利文件，还探索了一把仅通过摄像头拍摄眼部（如眉毛、眼睛形态变化）的方式，来识别面部表情。

最近，康奈尔大学公布的一项名为 EarIO 的技术研究中，使用「耳机」就做到了面部识别的功能。

在演示过程中，工作人员佩戴了一款类似开放式耳机的设备，内置有电池、麦克风、发声单元、蓝牙模组等硬件装置。

实现原理为，将设备与手机蓝牙连接，并完成程序的部署设定。在预先完成人脸转化为虚拟形象后，通过装置两侧的发声单元朝面部发射音频（人耳不可听的频率）信息，麦克风捕捉回声。

随着真人说话、微笑、眨眼、嘟嘴所产生的面部肌肉变化，所接收到的回声（独特的回声轮廓）也随之变化，通过深度学习算法，将收集到的声音数据与数据库中由 TruthDepth 相机拍摄的 52 个面部表情参数完成匹配，最终转化为实时的面部表情。

不同于摄像头的大体积、高功耗，作为耳机形态的 EarIO 在这方面也有着天然的优越性。EarIO 可以以 86Hz 的频率进行采样，功耗仅为 154mW。

当然，EarIO 目前也存在着不少问题，比如设备并不能做到即戴即用，而是需要至少花上半个小时进行数据训练。同时，在数据的判别上略显不足，有一定的出错率。该研究团队表示，后续将会继续优化，攻克这些问题。

据悉，EarIO 已经做到了与市售的无线视频会议耳机兼容，支持视频会议下虚拟头像的使用。

湾里点评：在今年 GTC 大会上，英伟达也亮相了一款名为 Audio2Face 的应用，应用了大量的深度学习和语音技术，仅使用说话者语音即可模拟人物 3D 表情。

而无论是通过摄像头、麦克风硬件的方式，还是以音频 AI 纯软件算法合成，殊途同归，或许未来都将成为构建元宇宙世界「虚拟表情」重要的应用技术。

主笔：达达 / 深圳湾

编辑：陈述 / 深圳湾

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：想做行业标杆的高通骁龙 W5+/W5 可穿戴平台，到底有几把刷子？

下一篇：美的把全屋智能门槛打到 2999 元，这波「懒人经济」你跟吗？