2020-04-22

离线语音从场景到设备再到芯片，听 5 位行业大佬解读端上 AI 的共性和趋势 | 特稿

湾里对话：Sonos、云知声、Rokid、思必驰、全志科技

本文为深圳湾的一期特别策划，来自 Sonos、思必驰、云知声、Rokid、全志科技、Arm 中国的 5 位专家，将为我们解读关于离线语音助理的热点话题。同时，他们的观点和洞见，也让我们看到了从设备端到芯片再到 IP 内核，下一代语音 AI 平台和技术的发展趋势。

从 3 起语音助手初创公司的收购案说起

苹果近日宣布收购了爱尔兰的语音 AI 初创公司 Voysis。Voysis 成立于 2012 年，曾面向零售商推出了一个独立的语音平台，通过对用户数据库中产品、服务和词汇的深度学习，实现在较小的内存里实现 AI 的自然语言对话。

苹果公司可能会利用 Voysis 的技术来提高 Siri 对自然语言的理解能力，或者将 Voysis 平台提供给开发者，以改善 Siri 与应用的协作方式。

△ Voysis 面向零售商推出的语音助手，可以实现更精准的搜索

而就在今年 1 月，苹果以约 2 亿美元的价格收购了另一家 AI 初创公司 Xnor。Xnor 面向智能设备，推出了低功耗机器学习技术，可以在离线的情况下运行。

Xnor 和 Voysis 有相似之处，可以在很低的功耗或很小的内存下帮助智能设备实现离线语音。而离线是苹果公司感兴趣的，离线可以帮助设备更好的实现隐私。

△ 智能家居设备商 Wyze 在摄像头上采用了 Xnor 的离线 AI 技术，可以实现人脸、宠物、灰尘识别

苹果的两起收购案，无疑为我们带来了信号，是时候要帮助 Siri 成长了。

无独有偶，去年 11 月，音响界的苹果 Sonos 公司宣布以 3750 万美元的价格，完成了对语音助手初创公司 Snips 的收购。

Snips 是一个来自法国巴黎的语音助手初创公司，成立于 2013 年。通过 Snips 的离线语音平台，打造可以直接在设备端运行、无需将信息传输到云端的语音助手。这一主打离线操作语音平台也正是 Sonos 收购 Snips 的最重要原因。

△ Snips 语音平台

离线语音助理：更快的响应速度、更好的隐私保护、更自然的语音理解、更分散的使用场景、更细化的社会分工

去年深圳湾曾经与 Sonos 大中华区战略合作副总裁张维明有过一次对话，谈及 Sonos 收购 Snips 背后的思考。

一方面，随着家庭里的智能设备数量越来越多，设备需要稳定和高效的响应速度，用户也需要更好的隐私保护，而离线语音便是保障这两点的解决方案，离线语音是大势所趋。

另一方面，Sonos 也不需要一个全能型的 AI 助手，Sonos 所打造的智能音箱与 Echo 等智能音箱有着本质的区别，后者带有明显的「入口化」和「多媒体化」特点，而 Sonos 更关注的是音乐体验本身，而语音助手更像是一个个面向垂直场景的离线语音控制指令集。

△ Sonos Beam，支持 Alexa、Google Assistant、Siri 和 Rokid 等多个语音助手

就拿语音点播这一个场景举例，Sonos 希望能把体验做到深处，或许打造更多适合垂直使用场景的音乐技能，甚至也有可能把语音指令做到类似 Spotify 这样的内容里面，实现体验入微的内容点播，这正是 Sonos 希望能带给大家的极致音乐体验的一个例子。

思必驰创始人、首席科学家俞凯则认为，近期有关边缘计算的收购案很多，实际上是端上 AI。端上 AI 和边缘计算是两个概念，虽然都不需要经过云端，但边缘计算是在局域网和类局域网的边缘终端上进行的，而苹果和 Sonos 这些消费电子厂商在做的是端上 AI。

各家企业提出的「云+端」是普适的发展线路，云端比较集中，端上比较分散，无论是设备、技术、还是所提供的服务种类。针对端上的普适性语音助手的技术目前还不明确，大公司从布局的角度上，会选择收购小公司，来尽可能覆盖不同的设备场景。

对于苹果公司来讲，最典型的场景就是本地助理。早在 2011 年 Siri 面世，语音助理的概念被拓展的很宽泛，而如今则面临一个助理分散化的趋势。苹果的几宗收购案的共性是，聚焦在生活类场景，与实际的业务逻辑结合在一起。

这里还看到一个趋势——数字助理的行业化，是自然而然发生的。就像人类的社会分工，随着物质文明的进步，有专门的人钻研专门的知识。而随着数字助理的发展，也会有针对不同行业和领域的专门分工，有的公司做通用的数字助理，有的则选择垂直领域深钻。

△ 思必驰低功耗模组

端上语音交互：从云端到芯片，小型化，与业务逻辑深度整合，ASR、TTS、NLP 将成为标配

对于端上 AI 交互的发展趋势，思必驰俞凯也为我们做了总结。他认为，端上语音助理的小型化是现在的趋势。一方面，技术层面上，识别、合成、理解的模型都要做到足够小，另一方面，结合业务逻辑，小场景，理解能力更强。

端上 AI 并不是简单在将云端的技术拿来在端上跑，虽然技术种类并没有区别，但难度更大，比如，端上可以识别语音的范围和种类受限。其次，端上语音 AI 的更新和定制，是要难于云端的，端上的深度学习更难。

谈及趋势，云知声董事长、CTO 梁家恩认为，语音交互和硬件深度融合，结合低功耗边缘计算加速能力，是大势所趋，这是也是云知声做 AI 芯片的逻辑依据。

各家 AIoT 平台必然是「云＋芯」结合的形态出现，感知和生成层面工作，基本上会在本地完成，云端解决协同和在线服务的问题。大公司基本上会围绕自己业务构建 AI 体系，独立第三方平台主要是面向中小企业和垂直化寻求发展。

梁家恩还指出，当前，离线挑战在于低资源、低功耗情况下保持高性能、低成本，减少环境复杂和模型压缩带来的精度损失。语音成为 IoT 设备的交互标配是大势所趋，边缘计算能力也成为必要条件。

Rokid 副总裁周军认为，随着模型小型化技术的进展，端侧可以用非常小的运算资源运行非常优秀的推理模型。比如在一个 DSP 上跑语音信号处理与多达 50 个离线命令词，噪声下可以达到 90% 以上识别率。

目前，端侧的语音识别（ASR）、语音合成（TTS）、甚至自然语言理解（NLP）占用的内存和运算资源还比较高，这也是创业公司的机会，通过创新的算法、模型设计以及新的芯片架构来解决。

△ Rokid 在 2018 年量产的 Kamino18 异构架构 DSP+NPU+CPU 至今还有很强的竞争力。

端侧的 AI 训练也将是一个趋势，通过自学习进一步提高智能。此外，除了离线语音，未来也会与离线视觉/图像/环境理解结合，创造出更有意思的产品。

当然端侧还是需要与云端配合，实现多用户协作，比如可以针对行业用户，定制智能 SaaS 服务。

△ 可实现离线语音操作的 Rokid Glass 2

离线语音在很多场景会成为一个标配，不仅是智能音箱，AR 眼镜也将是刚需。Rokid Glass可以在恶劣的工业环境下，无联网下全语音操作。

离线 AI 芯片架构的设计趋势：多重异构、高质量的周边 IP 配套、大算力、低功耗

近日，全志科技联合 Arm 中国推出了采用 AI 专核（周易 AIPU）跑智能语音的芯片 R329，它集成了 AIPU、DSP、CPU、双核 HIFI4 共 5 颗计算核，其最大的优势是在精度和算法移植的速度上的优化上，以及在设备端体现出来的低功耗、长续航、小型化、可扩展性等特点。

全志科技副总裁陈风则认为，语音识别（ASR）技术在大多数家居场景已经达到了实用程度，短期内再有大幅度提升不太现实，而「人工智障」的问题还有很大的改善空间，因此接下来的提升重点在于语义理解（NLP）。

NLP 的提升需要更高的深度学习算力，这就需要更强算力、更高能耗比的芯片支持。这意味着客户对芯片的深度学习算力、以及能耗比要求，都有了指数级的提升。对于芯片而言，集成音频 DSP 和音频 NPU 的需求已经出现，发展趋势非常明确。

本地 NLP 需要本地 ASR、本地 TTS 以及传统信号处理的配合，才能实现一个完整的端侧语音识别功能，对应芯片的需求就是需要音频 DSP 和音频 NPU 的标配支持。

有很多人会关心，除了语音，离线 AI 是否还有更大的拓展空间？陈风认为，现有通用 AP 用于离线 AI，还有一些地方不尽如人意，目前市场上谁先推出集成了音频 NPU 的芯片，将更有可能在这个需求明确的市场上建立领导地位。

现在 NPU 市场百花齐放，导致算法公司和客户存在大量的适配和优化工作，NPU 市场现阶段呈现碎片化状态形式。

未来，离线 AI 芯片架构的设计将具备以下几个特征：

1、支持多重异构：音频 DSP、音频 NPU 不可或缺，本地 ASR、NLP、TTS 均是基于深度学习的算法，降噪、回声消除等前端音频信号处理也在快速往深度学习算力上转移。

2、高质量的周边 IP 配套，如高精度多路 ADC、DAC 配套，多路 I2C/TDM、DMIC、SPDIF、UART 支持等。

3、兼具大算力和低功耗两大特性，以实现带电池设备的待机可唤醒，需要至少配备不小于 2MB 容量的 SRAM，低功耗状态下的内存带宽需要至少大于 600MB/S。

下一代语音 AI 平台和技术的趋势：场景化、全链路、软硬结合、高度可定制、云+芯

毋庸置疑，离线语音将成为 IoT 设备的标配，逐渐在市场普及。

△ 离线语音交互在家电家居市场已广泛落地

但离线语音的落地是有层次的。思必驰俞凯认为，首先是完成基本的命令控制、设备交互；之后，基于对设备隐私的保护，大词汇的语音合成、理解、识别将逐步在设备端实现。

需要强调的是，离线语音是不好作为独立的产品形态存在的，需要与云端能力结合，需要有一定的离在线结合能力，否则，语音助理是无法进化的。而未来语音助理的自学习、自进化能力是非常重要的。

在俞凯看来，下一代语音 AI 技术的发展，有两个趋势：1、场景化，未来会有越来越多的应用型公司；2、全链路、软硬结合、高度可定制、「云+芯」等综合技术的整合。

而随着 AI 产业的分化会越来越专业化，思必驰将会进一步夯实全链路的技术平台，将场景级的赋能做到极致。

要点回顾

Sonos 不需要一个全能型的 AI 助手，而更关注的是音乐体验本身。在类似语音点播这个具体场景，把体验做到深处。
Siri 把语音助理的概念拓展的很宽泛，而如今则面临一个助理分散化的趋势。苹果从布局的角度上，通过收购语音初创公司，来尽可能覆盖不同的设备场景。
端上语音助理的小型化是现在的趋势。一方面，技术层面上，识别、合成、理解的模型都要做到足够小，另一方面，结合业务逻辑，小场景，理解能力更强。
离线挑战在于低资源、低功耗情况下保持高性能、低成本，减少环境复杂和模型压缩带来的精度损失。
端侧的 AI 训练也将是一个趋势，通过自学习进一步提高智能。此外，除了离线语音，未来也会与离线视觉/图像/环境理解结合，创造出更有意思的产品。
对于芯片而言，集成音频 DSP 和音频 NPU 的需求已经出现，发展趋势非常明确。
未来，离线 AI 芯片架构的设计将具备以下几个特征：支持多重异构、高质量的周边 IP 配套、兼具大算力和低功耗两大特性。
离线语音的落地是有层次的。首先是完成基本的命令控制、设备交互；之后，基于对设备隐私的保护，大词汇的语音合成、理解、识别将逐步在设备端实现。未来语音助理的自学习、自进化能力是非常重要的。
离线语音将成为 IoT 设备的标配。