Uploads%2farticles%2f13991%2fcover
|
2020-04-22

离线语音从场景到设备再到芯片,听 5 位行业大佬解读端上 AI 的共性和趋势 | 特稿

湾里对话:Sonos、云知声、Rokid、思必驰、全志科技

本文为深圳湾的一期特别策划,来自 Sonos、思必驰、云知声、Rokid、全志科技、Arm 中国的 5 位专家,将为我们解读关于离线语音助理的热点话题。同时,他们的观点和洞见,也让我们看到了从设备端到芯片再到 IP 内核,下一代语音 AI 平台和技术的发展趋势

从 3 起语音助手初创公司的收购案说起

苹果近日宣布收购了爱尔兰的语音 AI 初创公司 Voysis。Voysis 成立于 2012 年,曾面向零售商推出了一个独立的语音平台,通过对用户数据库中产品、服务和词汇的深度学习,实现在较小的内存里实现 AI 的自然语言对话。

苹果公司可能会利用 Voysis 的技术来提高 Siri 对自然语言的理解能力,或者将 Voysis 平台提供给开发者,以改善 Siri 与应用的协作方式。

△ Voysis 面向零售商推出的语音助手,可以实现更精准的搜索


而就在今年 1 月,苹果以约 2 亿美元的价格收购了另一家 AI 初创公司 Xnor。Xnor 面向智能设备,推出了低功耗机器学习技术,可以在离线的情况下运行。

Xnor 和 Voysis 有相似之处,可以在很低的功耗或很小的内存下帮助智能设备实现离线语音。而离线是苹果公司感兴趣的,离线可以帮助设备更好的实现隐私。

△ 智能家居设备商 Wyze 在摄像头上采用了 Xnor 的离线 AI 技术,可以实现人脸、宠物、灰尘识别


苹果的两起收购案,无疑为我们带来了信号,是时候要帮助 Siri 成长了。

无独有偶,去年 11 月,音响界的苹果 Sonos 公司宣布以 3750 万美元的价格,完成了对语音助手初创公司 Snips 的收购

Snips 是一个来自法国巴黎的语音助手初创公司,成立于 2013 年。通过 Snips 的离线语音平台,打造可以直接在设备端运行、无需将信息传输到云端的语音助手。这一主打离线操作语音平台也正是 Sonos 收购 Snips 的最重要原因。

△ Snips 语音平台


离线语音助理:更快的响应速度、更好的隐私保护、更自然的语音理解、更分散的使用场景、更细化的社会分工

去年深圳湾曾经与 Sonos 大中华区战略合作副总裁张维明有过一次对话,谈及 Sonos 收购 Snips 背后的思考。

一方面,随着家庭里的智能设备数量越来越多,设备需要稳定和高效的响应速度,用户也需要更好的隐私保护,而离线语音便是保障这两点的解决方案,离线语音是大势所趋。

另一方面,Sonos 也不需要一个全能型的 AI 助手,Sonos 所打造的智能音箱与 Echo 等智能音箱有着本质的区别,后者带有明显的「入口化」和「多媒体化」特点,而 Sonos 更关注的是音乐体验本身,而语音助手更像是一个个面向垂直场景的离线语音控制指令集

△ Sonos Beam,支持 Alexa、Google Assistant、Siri 和 Rokid 等多个语音助手


就拿语音点播这一个场景举例,Sonos 希望能把体验做到深处,或许打造更多适合垂直使用场景的音乐技能,甚至也有可能把语音指令做到类似 Spotify 这样的内容里面,实现体验入微的内容点播,这正是 Sonos 希望能带给大家的极致音乐体验的一个例子。

思必驰创始人、首席科学家俞凯则认为,近期有关边缘计算的收购案很多,实际上是端上 AI。端上 AI 和边缘计算是两个概念,虽然都不需要经过云端,但边缘计算是在局域网和类局域网的边缘终端上进行的,而苹果和 Sonos 这些消费电子厂商在做的是端上 AI。

各家企业提出的「云+端」是普适的发展线路,云端比较集中,端上比较分散,无论是设备、技术、还是所提供的服务种类。针对端上的普适性语音助手的技术目前还不明确,大公司从布局的角度上,会选择收购小公司,来尽可能覆盖不同的设备场景。

对于苹果公司来讲,最典型的场景就是本地助理。早在 2011 年 Siri 面世,语音助理的概念被拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果的几宗收购案的共性是,聚焦在生活类场景,与实际的业务逻辑结合在一起。

这里还看到一个趋势——数字助理的行业化,是自然而然发生的。就像人类的社会分工,随着物质文明的进步,有专门的人钻研专门的知识。而随着数字助理的发展,也会有针对不同行业和领域的专门分工,有的公司做通用的数字助理,有的则选择垂直领域深钻。

△ 思必驰低功耗模组


端上语音交互:从云端到芯片,小型化,与业务逻辑深度整合,ASR、TTS、NLP 将成为标配

对于端上 AI 交互的发展趋势,思必驰俞凯也为我们做了总结。他认为,端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。

端上 AI 并不是简单在将云端的技术拿来在端上跑,虽然技术种类并没有区别,但难度更大,比如,端上可以识别语音的范围和种类受限。其次,端上语音 AI 的更新和定制,是要难于云端的,端上的深度学习更难。

谈及趋势,云知声董事长、CTO 梁家恩认为,语音交互和硬件深度融合,结合低功耗边缘计算加速能力,是大势所趋,这是也是云知声做 AI 芯片的逻辑依据。

各家 AIoT 平台必然是「云+芯」结合的形态出现,感知和生成层面工作,基本上会在本地完成,云端解决协同和在线服务的问题。大公司基本上会围绕自己业务构建 AI 体系,独立第三方平台主要是面向中小企业和垂直化寻求发展。

梁家恩还指出,当前,离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。语音成为 IoT 设备的交互标配是大势所趋,边缘计算能力也成为必要条件。

Rokid 副总裁周军认为,随着模型小型化技术的进展,端侧可以用非常小的运算资源运行非常优秀的推理模型。比如在一个 DSP 上跑语音信号处理与多达 50 个离线命令词,噪声下可以达到 90% 以上识别率。

目前,端侧的语音识别(ASR)、语音合成(TTS)、甚至自然语言理解(NLP)占用的内存和运算资源还比较高,这也是创业公司的机会,通过创新的算法、模型设计以及新的芯片架构来解决。

△ Rokid 在 2018 年量产的 Kamino18 异构架构 DSP+NPU+CPU 至今还有很强的竞争力。


端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。

当然端侧还是需要与云端配合,实现多用户协作,比如可以针对行业用户,定制智能 SaaS 服务。

△ 可实现离线语音操作的 Rokid Glass 2

离线语音在很多场景会成为一个标配,不仅是智能音箱,AR 眼镜也将是刚需。Rokid Glass可以在恶劣的工业环境下,无联网下全语音操作。


离线 AI 芯片架构的设计趋势:多重异构、高质量的周边 IP 配套、大算力、低功耗

近日,全志科技联合 Arm 中国推出了采用 AI 专核(周易 AIPU)跑智能语音的芯片 R329,它集成了 AIPU、DSP、CPU、双核 HIFI4 共 5 颗计算核,其最大的优势是在精度和算法移植的速度上的优化上,以及在设备端体现出来的低功耗、长续航、小型化、可扩展性等特点。

全志科技副总裁陈风则认为,语音识别(ASR)技术在大多数家居场景已经达到了实用程度,短期内再有大幅度提升不太现实,而「人工智障」的问题还有很大的改善空间,因此接下来的提升重点在于语义理解(NLP)。

NLP 的提升需要更高的深度学习算力,这就需要更强算力、更高能耗比的芯片支持。这意味着客户对芯片的深度学习算力、以及能耗比要求,都有了指数级的提升。对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。

本地 NLP 需要本地 ASR、本地 TTS 以及传统信号处理的配合,才能实现一个完整的端侧语音识别功能,对应芯片的需求就是需要音频 DSP 和音频 NPU 的标配支持。

有很多人会关心,除了语音,离线 AI 是否还有更大的拓展空间?陈风认为,现有通用 AP 用于离线 AI,还有一些地方不尽如人意,目前市场上谁先推出集成了音频 NPU 的芯片,将更有可能在这个需求明确的市场上建立领导地位。

现在 NPU 市场百花齐放,导致算法公司和客户存在大量的适配和优化工作,NPU 市场现阶段呈现碎片化状态形式。

未来,离线 AI 芯片架构的设计将具备以下几个特征:

1、支持多重异构:音频 DSP、音频 NPU 不可或缺,本地 ASR、NLP、TTS 均是基于深度学习的算法,降噪、回声消除等前端音频信号处理也在快速往深度学习算力上转移。

2、高质量的周边 IP 配套,如高精度多路 ADC、DAC 配套,多路 I2C/TDM、DMIC、SPDIF、UART 支持等。

3、兼具大算力和低功耗两大特性,以实现带电池设备的待机可唤醒,需要至少配备不小于 2MB 容量的 SRAM,低功耗状态下的内存带宽需要至少大于 600MB/S。

下一代语音 AI 平台和技术的趋势:场景化、全链路、软硬结合、高度可定制、云+芯

毋庸置疑,离线语音将成为 IoT 设备的标配,逐渐在市场普及。

离线语音交互在家电家居市场已广泛落地

离线语音的落地是有层次的。思必驰俞凯认为,首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。

需要强调的是,离线语音是不好作为独立的产品形态存在的,需要与云端能力结合,需要有一定的离在线结合能力,否则,语音助理是无法进化的。而未来语音助理的自学习、自进化能力是非常重要的

在俞凯看来,下一代语音 AI 技术的发展,有两个趋势:1、场景化,未来会有越来越多的应用型公司;2、全链路、软硬结合、高度可定制、「云+芯」等综合技术的整合。

而随着 AI 产业的分化会越来越专业化,思必驰将会进一步夯实全链路的技术平台,将场景级的赋能做到极致。


要点回顾

  1. Sonos 不需要一个全能型的 AI 助手,而更关注的是音乐体验本身。在类似语音点播这个具体场景,把体验做到深处。

  2. Siri 把语音助理的概念拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果从布局的角度上,通过收购语音初创公司,来尽可能覆盖不同的设备场景。

  3. 端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。

  4. 离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。

  5. 端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。

  6. 对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。

  7. 未来,离线 AI 芯片架构的设计将具备以下几个特征:支持多重异构、高质量的周边 IP 配套、兼具大算力和低功耗两大特性。

  8. 离线语音的落地是有层次的。首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。未来语音助理的自学习、自进化能力是非常重要的。

  9. 离线语音将成为 IoT 设备的标配。


微信号:shenzhenware

主笔:陳壹零 / 深圳湾

编辑:森林木 / 深圳湾

B5

端侧语言自然、流畅、实时交互即将实现,未来生活更美好、更便捷,【表情】

>>
Back to top btn