活动报道 |

2017-04-18

从传统麦克风到智能麦克风，语音技术在硬件上的进化与转变 | WARE 2017

语音技术看似简单，实则是一个庞大和复杂的工程。

孔令双

在人机交互领域，语音是最自然的交互方式，完整的语音系统涉及到人声唤醒、语音识别、语义分析、逻辑判断、信息回馈、语音合成，以及机器的麦克风阵列、音频编解码、应用处理器等，从软件到硬件的方方面面。

对于用户来说，通过额外的操作唤醒语音设备的方式显得多此一举，未来的语音设备必定是全天候 24 小时在线，随时随地聆听，等待用户的唤醒。

在深圳湾举办的「WARE 2017 语音智能平台与应用峰会」中，瑞声科技高级研发工程师张金宇从语音交互的硬件基础上进行分享和交流，和在场的观众共同探讨语音技术未来的发展趋势。

以下来自张金宇在「WARE 2017 语音智能平台与应用峰会」的演讲整理。

语音技术应该「随时随地」，并且「自然而然」

人机交互分三类，首先是视觉交互，它的特点是丰富、沉浸，比如在一些游戏和娱乐领域的应用，因为它能够提供足够丰富的信息量，给用户展现具有冲击力的画面，3D 眼镜和体感操控的浪潮更是把沉浸式的视觉体验推到了一个极致。第二是触觉的交互，包括键盘、触屏，这种交互方式应用于对操作精准度要求更高的场合，比如日常办公、设计领域。第三是语音，语音交互一个很重要的市场是家居和生活领域，其特点是自然开放，随时随地工作，给我们轻松便利的反馈和信息支持。

语音是一个很开放的东西，在机器对话中，我们希望机器人不仅仅是菜单式的选择，而是能够结合上下文进行理解，然后做出有效的回应，这也是语音技术的一个难点。在生活中，语音可以解放我们的双眼和双手，把「智能」放到幕后，不再让「智能」成为生活的负担，而是隐藏在背后的，称职的助手。

对于家里的老人和小孩来说，他们不容易掌握最酷炫的技术，也常常不喜欢去操作功能复杂的智能家电。我们能不能为他们做些什么呢？语音技术是一个天然的、低学习成本的交互方式，随着语音交互技术的成熟，我们让这些人群更好地享受智能设备带来的便捷。

所以，一个语音助手，它应该做到的是自然而然，随时随地。随着技术臻于成熟和精致，让它学着理解我们既有的语言习惯，不需要我们懂它。这样，「智能」才能真正的深入到人们的生活，而不是让人「眼前一亮」的技术。

功耗更低、体积更小、成本更少的智能麦克风

为了适应智能交互的要求，我们希望语音系统可以 24 小时全天候工作，你可以随时给它一个信息，让它唤醒一个设备，然后让它去识别，这样才适合我们生活的状态，但是这样做功耗太大。

为了解决这些问题，我们尝试着先于市场迈出一小步，开发了一款智能麦克风。这款智能麦克风把语音唤醒功能集成在一块芯片上，允许麦克风外的整机处于休眠状态，从而节省电量的消耗。当用户开启语音助手的时候，麦克风会发出一个信号，唤醒需要开启的模块。这款智能麦克风最低可以做到低于 100 微瓦安的静态功率，可以完成毫秒级的触发动作，真正地让用户摆脱了对功耗的顾虑。

除了功耗之外，我们还希望它的体积足够小，成本足够低，并可以适用于不同类型，不同应用场景的设备。

我们开发了 Analog AVD 技术，用以区分人声与环境噪声，避免在嘈杂的环境下长时间的处于唤醒状态。我们引入了小体积、低主频、低功耗的关键字识别单元，为更多的智能设备提供低门槛的语音控制方案。我们加入了压电麦克风的 wake on sound 功能，实现了接近零功耗的静态模式。借助立体封装技术，我们把这些功能封装于数个毫米的极致空间之内。

语音产品要结合不同的应用场景和需求

防水与防尘已经逐渐成为主流手机的标准配置。现有的双层结构的电容式 MEMS 麦克风，当水或者颗粒物进入振膜和背极之间的间隙，会引起致命的失效。目前主流的手机，比如 iPhone7 或者三星 S7，均通过一层防水膜屏蔽异物的侵入，但仅仅用于防范正常使用中的意外进水，并不能让用户自由地在有水或者沙尘环境下使用，也并不提供进水的保修。瑞声开发的 MEMS 压电麦克风则是一个单层膜结构，即使有少量的水或颗粒物进入，对性能也几乎不产生影响。这实现了由避免侵入到不惧侵入的跨越。

随着语音交互技术的不断进步和提升，音频硬件和算法、应用端各自为战的情形显然是难以应对市场的需要的。在这里，一方面，我希望能给大家带来一些声学器件方面的视角，更重要的，也希望我们能在彼此交流中，碰撞出一些新的火花。

现场观众提问

提问：我想问一下，把 AVD 放在 ADC 之前，目前这个 AVD 是做到什么样的水平？它能够识别关键词，还是只能识别噪音？它的记忆原理是什么？

张金宇：它能识别一个稳定的噪声和一个突发的声音。另外，它识别人声和其他的噪声的成功率很高，比如按喇叭的声音，和人突然对它说话的声音。但是关键字的话 AVD 是做不到的。

它的记忆不仅仅是频谱，这是一个比较长的技术发展过程。最初它是在数字端来实现的，一个比较复杂的算法，不断收集中文的，英文的，它一些发音的特点积累下来形成一个算法，一个经验库，然后逐渐把它简化，可以在一个很低的功耗下来实现。

提问：我们用怎样客观的方式去测试麦克风阵列处理之后的结果？

张金宇：这应该是取决于你具体适用的目的，取决于具体的功能。

提问：瑞声的麦克风的有开关功能，这个开关的限定是设定在什么位置比较合适？

张金宇：现在有两种模式，一种是自身用的模式，它靠它的芯片来判断，比如在地铁里它会自动调高，在会场上会降低，在家里会降得更低。另外，它也可以是通过上位机，比如手机的 AP（应用处理器），或者是智能家居的 MCU 来控制。

后记：

在峰会后的讲师晚餐中，我们和金宇聊到了智能麦克风的应用场景，智能手机、智能家居、以及现在销量已经超过 Apple Watch 的 AirPod 智能耳机。我们能看到语音智能聊天手机未来可观的终端增长数量，也看到了脱离手机的语音唤醒的智能耳机，对于麦克风等硬件的挑战。比如关键字识别需要的模块略大，如果仅仅是 VAD 功能的，大约在 3.x mm * 2.x mm，如果需要关键字触发，就需要 4.x * 3mm。另外用不同 IC 工艺节点可以缩减尺寸，但是成本提高及比较多了。

我们期待上游厂商在硬件技术研发上的突破，为下游应用厂商带来的丰富场景应用机会。

语音识别