2019-09-12

从算法到芯片，离线语音的花式落地 | 对话启英泰伦何云鹏

在这场语音 AI 的造芯之路上，谁将 C 位出道？

与中国的家庭不同，欧美国家对于隐私的问题格外的注重。

在刚刚结束的 IFA 展上，我们也看到国外的许多厂商对于在家电设备上安装智能语音助手并没有那么感冒，毕竟通过互联网厂商的系统连接云端服务，也就意味着设备要实时在线，并且用户数据要实时共享。同时，实时在线实时监听，也就意味着更多的能耗，尽管对于消费用户来是微乎其微，但系统要支持 7x24 小时的 Always On，对于软硬件性能都会有更高的要求。

但这并不意味着家电厂商对于语音交互方式的排斥。相反，在原有的触控或按键等交互方式的基础上，在设备本地增加基本的语音识别和控制功能，在特定场景用户需要的时候，再提供恰到好处的服务，这对于每隔一段时间都需要叠加新功能新概念的家电设备来说，是锦上添花的事儿。

有需求就有商机，基于边缘计算的离线语音，逐渐兴起。

1. 离线语音，没那么简单

离线语音解决的基本问题包括本地语音识别、本地计算、部分的数据训练。相应的，对于硬件的要求就是低功耗、低成本、快速响应。

Google 曾在 6 月开发者大会上，推出了 Local Home SDK，其离线语音采用的是端云协同的方式，具体做法是：通过 SDK 和 API 接口，允许开发者在上面为智能设备建立新的附加执行路径，使得 Google 的智能音箱设备能以 JavaScript 脚本运行这套协议和逻辑，并通过局域网与设备实现通讯、本地控制。而在本地执行路径失败的情况下，云端将作为回退执行路径来处理指令。

尽管 Google 有大批的开发者，但这套 Local Home SDK 对于开发者的挑战还是很大。已经为上百种家电设备开发过离线语音的启英泰伦的工程师，从云到端的，为我们分析了语音开发的难度。

云端语音开发，其核心是应用各大云端平台提供的接口，通过调用服务完成语音识别功能。这需要工程师明白接口调用及服务的要求，也需要熟悉各种操作系统。同时，云端语音最终需要终端提供待识别的语音数据，也需要工程师了解语音采集的过程和降噪技术，才能做成性能出众的产品，这本身就有难度。

而对于终端语音开发，虽然有厂家提供了如黑盒子一样的离线语音技术，做成类似 Google Local Home SDK 发布，但最终也需要工程师会编程，懂硬件结构，懂麦克风和语音采集降噪的技术，这些都有不小的挑战。

特别的，语音交互类的设备本身在产品形态上差异化很大，使用场景也呈现出碎片化的特点，要为用户提供自然的本地语音交互体验，就要对不同的产品做出不同的语音控制命令，这些都需要通过修改代码实现，工作量可想而知。再进一步的让设备达到用户所需要的「极致」体验，还要做效果调优的工作，这就需要熟练的工程师。总而言之，是有不少开发门槛和开发成本的。

2. 芯片设计，没那么简单

其实像 Google 这样在离线语音交互方向上探索的算法公司有很多，为了让算法更好的支持终端，他们正在掀起一轮「造芯」运动。

将算法集成在芯片中，用芯片实现其算法的商业价值，在产业上游卡位，闲暇之余再发几款终端消费硬件获得市场关注。不得不说，这样的战略规划可谓是相当帅气，尤其是在 5G+IoT 的黎明到来之际，市场前景一片大好。

这也凸显了算法公司对于自身优势和短板的认识。展开来说，他们对于语音识别、语义理解、知识图谱、数据训练等软件和算法的理解更强，但因为软件业务本身太「轻」，在商业上很难实现快速落地，因此他们向「云端芯」一体化方向发展，将业务延伸到芯片甚至硬件。

但算法公司做芯片，普遍面临的挑战是：庞大的数据和运算量导致成本和功耗都非常大，将数十个中央处理器才能运算的数据通过一个端上的一颗小小的芯片完成（通常是基于通用芯片的智能语音控制模组），技术上还存在难度。具体体现在：

首先，芯片设计周期长，从预研到进入销售期再到盈利，少说也要两三年，因此必须做到提前卡位。

其次，芯片设计不同于软件，可以通过快速迭代逐渐优化。芯片设计最重要的就是产品定义，如果一开始定义不好，等设计完成后发现缺乏竞争力再改，就算是老罗这样的外行拿着互联网思维那一套跟你拍桌子，也是无济于事。

再次，语音 AI 芯片的集成化和工程化要求很高，开发难度在前面我们已经论述。

最后，众所周知，芯片必须依赖大规模出货才能赚到钱，这也就决定了语音 AI 芯片必须下沉到智能家居、小家电、儿童故事机等出货量较大的设备市场，才能实现高净值。而与这些设备商打交道，明显的，芯片商比算法商更深谙其道。

3. 芯片公司，是怎么做的？

那么离线语音这件事儿，如果芯片公司自己做会怎样？

我们举个例子，看一下在语音 AI 芯片领域展露头角的启英泰伦的造芯历程。

早在 2015 年，行业内关于本地端边缘计算的概念还没有兴起，拥有 16 年芯片研发经验、双栖「家电+芯片」多年、曾是原海信信芯技术副总、长虹 IC 部门总经理的何云鹏，在成都高新区成立启英泰伦，专门从事基于深度学习的语音识别芯片及配套算法引擎的研发。启英泰伦在 2016 年推出了首款支持深度神经网络的人工智能语音芯片 CI1006，次年开始量产。

在芯片设计方面，CI1006 采用的是可以实现更好的能耗比的 ASIC 架构。而行业里的采用 FPGA 架构的芯片公司，如 Quicklogic，其低功耗多核语音芯片的成本就非常高，这对于很多出货量大、对成本斤斤计较的设备商，是「不划算」的。

同时，ASIC 架构主要瞄准消费电子产品，晶体管会根据算法定制，因此不会出现冗余，计算效率高，性能高，功耗低。

总而言之，「ASIC 架构更像是工厂开模，虽然前期开发时间长，上市相对比较慢，但非常适合量产。一旦量铺开了，均价也会快速降下来。」何云鹏说。

而在算法方面，启英泰伦则是结合芯片定制，功耗可控点更高。比如针对窃听安全风险的问题，启英泰伦的做法是这样的：利用近数据端的边缘结点，直接对数据源进行处理，实现对一些敏感数据的保护与隔离；端节点可以仅接收来自云计算中心的请求，并将处理结果反馈给云端。

启英泰伦的语音芯片内置了自主研发的脑神经网络处理器 BNPU，支持本地大词汇量的语音识别。通常本地语音识别词汇量非常小，本地数据训练受限，而 CI1006 可以有效的解决本地语音识别和控制。

4. 设备商，应该如何选择？

何云鹏帮我们分析了家电厂商的一般做法和存在的问题：通常情况下，如果一家厂商想要给自己的产品增加语音控制功能，就要去找软件算法商、芯片公司、方案商，甚至是声学方面的硬件商。前期调研周期长不说，资源即使强大，也只能成功对接到几十家的有效支持。这种模式无法支持家电厂商全系大规模智能化的市场需求。

而家电厂商如果通过算法商基于普通芯片定制开发语音识别模组，那么算法商需要从芯片原厂选定芯片，将云端算法移植到芯片上，并进行调试。然后还需要底层硬件开发公司将整体方案做成模组板卡，提供给家电厂商。这种实现方式链条环节多，周期长，家电厂商还要支付额外的开发费用和授权费用，这对于苛求毛利率到分的设备商来说，是必须要考虑的现实问题。

如何判断语音 AI 芯片是否靠谱呢？或许这里提炼的几个特征，为家电和设备厂商们的评估提供了维度：