Uploads%2farticles%2f13494%2f640 18
|
2019-10-14

随时唤醒语音助手,真不是一句话的事儿 | 深圳湾夜话

实时在线的低功耗语音唤醒,技术解析与应用前景,听听各路专家怎么说

近年来,在运动、车载、商超、地铁、公交等随行场景,我们看到了越来越多的设备增加了语音交互的功能。

应用场景的变化,对于语音唤醒的快速和灵活反应,以及功耗和算力,甚至硬件设备本身的结构设计,都提出了新的要求。

算法商、芯片商、设备商、甚至云服务提供商,都给出了不同的解决方案,但共同的目标都是让设备的功耗更低,让语音交互的体验更好。

在第 122 期「深圳湾夜话」上,来自思必驰、QuickLogic、顺丰科技、步步高的嘉宾,分享了他们在低功耗语音唤醒方面的技术和应用。

△ 从左依次为:陈苇珍 / 思必驰低功耗商务负责人、尚进 / QuickLogic 中国区销售负责人、熊思杰 / 顺丰科技「小丰」产品负责人、颜秋洪 / 步步高教育电子技术总监

算法商怎么做?

在算法层面,思必驰提供了从 DSP 到 AP 的一整套集成方案,包括双麦定向波束、命令词检测、骨传导特征检测等多项技术方案,实现设备从低功耗唤醒、到唤醒验证、再到声纹识别的多级唤醒。

△ 现场产品展示:思必驰低功耗模组

通常情况下,语音唤醒的算法运行在 DSP 中,因语音交互而产生的数据也在 DSP 上缓存,通过独立的麦克风做唤醒输入,经过数据交换,将缓存数据输送到 AP 中,再触发二级唤醒和声纹验证。

而在设备处于待机或休眠的超低功耗状态,或者当设备在播放音乐时,就会自动切换到「闯入模式」,语音数据也会直接传输给 AP 芯片,触发二级唤醒和声纹验证,实现低功耗算法中的回声消除(AEC)。

△ 低功耗算法技术特点 | 思必驰演讲 PPT 截图

基于以上工作流程,要做到「实时在线」的语音唤醒,在算法的基础上,还需要在麦克风阵列、定向波束、命令词检测、骨传导特征检测、蓝牙传输协议、以及云端多个方面进行优化。

在麦克风阵列的声学结构设计方面,有很多「Know-How」学问。比如市面上常见的双麦克风结构设计,需要做线性分布和水平放置,最佳间距为 30mm,声音流向要与麦克风垂直,麦克风拾音孔要水平朝上且处于同一平面,收音腔设计除了单孔型还有网状自由场型,隔音减震设计也有讲究,等等。思必驰的工程师会协助客户完成从麦克风选型到麦克风参数评估的方方面面。

设备有了「听清」的能力后,就要解决命令词也就