思必驰低功耗算法方案：实现设备从低功耗唤醒、到唤醒验证、再到声纹识别的多级唤醒

解决方案 |

2019-10-17

低功耗语音唤醒的应用不仅在耳机、手表、小家电等消费电子产品领域有着丰富的应用，在物流配送、专车驾驶、餐饮服务等 toB 的垂直场景，也有巨大的需求空间。

周森森

近年来，在运动、车载、商超、地铁、公交等随行场景，我们看到了越来越多的设备增加了语音交互的功能。

应用场景的变化，对于语音唤醒的快速和灵活反应，以及功耗和算力，甚至硬件设备本身的结构设计，都提出了新的要求。

在算法层面，思必驰提供了从 DSP 到 AP 的一整套集成方案，包括双麦定向波束、命令词检测、骨传导特征检测等多项技术方案，实现设备从低功耗唤醒、到唤醒验证、再到声纹识别的多级唤醒。

通常情况下，语音唤醒的算法运行在 DSP 中，因语音交互而产生的数据也在 DSP 上缓存，通过独立的麦克风做唤醒输入，经过数据交换，将缓存数据输送到 AP 中，再触发二级唤醒和声纹验证。

而在设备处于待机或休眠的超低功耗状态，或者当设备在播放音乐时，就会自动切换到「闯入模式」，语音数据也会直接传输给 AP 芯片，触发二级唤醒和声纹验证，实现低功耗算法中的回声消除（AEC）。

△ 低功耗算法技术特点

基于以上工作流程，要做到「实时在线」的语音唤醒，在算法的基础上，还需要在麦克风阵列、定向波束、命令词检测、骨传导特征检测、蓝牙传输协议、以及云端多个方面进行优化。

在麦克风阵列的声学结构设计方面，有很多「Know-How」学问。比如市面上常见的双麦克风结构设计，需要做线性分布和水平放置，最佳间距为 30mm，声音流向要与麦克风垂直，麦克风拾音孔要水平朝上且处于同一平面，收音腔设计除了单孔型还有网状自由场型，隔音减震设计也有讲究，等等。思必驰的工程师会协助客户完成从麦克风选型到麦克风参数评估的方方面面。

设备有了「听清」的能力后，就要解决命令词也就是「听懂」的问题。拿蓝牙耳机产品来举例，类似播放/暂停音乐、拨打/挂断电话、支付宝扫一扫这样的操控命令，甚至一些品牌命令词，都可以直接储存到设备上，在设备上直接完成调用。