Uploads%2farticles%2f15711%2fhero
|
2022-07-22

用耳机就能做面部识别,看看康奈尔大学的新研究 | 元宇宙前沿

说话、微笑、眨眼、嘟嘴,都可以实时识别生成虚拟面部表情。

前不久,一段国外女生模仿 NPC(游戏中非玩家角色)的视频走红,画面中女生无论面部表情、肢体动作都与 NPC 非常相像,一度让人分不清到底是现实还是游戏。

相比于真人实力模拟虚拟形象,随着元宇宙的兴起,如今数字人则做到了对真人的虚拟复刻。

另外,在线上会议、视频直播、运动健身场景,已经出现了不少数字人身影。而用摄像头,通过面部拍摄和 AI 算法,识别面部表情,进而映射至相对应的使用场景中,是目前行业比较主流的方案。

此外,在 XR 领域,此前曝光的一份 Magic Leap 专利文件,还探索了一把仅通过摄像头拍摄眼部(如眉毛、眼睛形态变化)的方式,来识别面部表情。

最近,康奈尔大学公布的一项名为 EarIO 的技术研究中,使用「耳机」就做到了面部识别的功能。

在演示过程中,工作人员佩戴了一款类似开放式耳机的设备,内置有电池、麦克风、发声单元、蓝牙模组等硬件装置。

devices

实现原理为,将设备与手机蓝牙连接,并完成程序的部署设定。在预先完成人脸转化为虚拟形象后,通过装置两侧的发声单元朝面部发射音频(人耳不可听的频率)信息,麦克风捕捉回声。

%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions

随着真人说话、微笑、眨眼、嘟嘴所产生的面部肌肉变化,所接收到的回声(独特的回声轮廓)也随之变化,通过深度学习算法,将收集到的声音数据与数据库中由 TruthDepth 相机拍摄的 52 个面部表情参数完成匹配,最终转化为实时的面部表情。

%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions
%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions

不同于摄像头的大体积、高功耗,作为耳机形态的 EarIO 在这方面也有着天然的优越性。EarIO 可以以 86Hz 的频率进行采样,功耗仅为 154mW。

当然,EarIO 目前也存在着不少问题,比如设备并不能做到即戴即用,而是需要至少花上半个小时进行数据训练。同时,在数据的判别上略显不足,有一定的出错率。该研究团队表示,后续将会继续优化,攻克这些问题。

据悉,EarIO 已经做到了与市售的无线视频会议耳机兼容,支持视频会议下虚拟头像的使用。

湾里点评:在今年 GTC 大会上,英伟达也亮相了一款名为 Audio2Face 的应用,应用了大量的深度学习和语音技术,仅使用说话者语音即可模拟人物 3D 表情。

而无论是通过摄像头、麦克风硬件的方式,还是以音频 AI 纯软件算法合成,殊途同归,或许未来都将成为构建元宇宙世界「虚拟表情」重要的应用技术。


主笔:达达 / 深圳湾

编辑:陈述 / 深圳湾

>>
Back to top btn