Uploads%2farticles%2f12571%2frokid1.002
|
2018-07-28

Rokid 周军:便携式 AI 产品更需要专用 AI 芯片的加持 | WARE 2018

上个月,Rokid 发布了最新的便携式智能音箱 Rokid Me,和此前 Rokid 两款家用智能音箱产品不同,便携类 AI 产品对芯片提出了新的要求。Rokid 副总裁及基础平台负责人周军博士在深圳湾 WARE 2018 AI 芯片与应用峰会上提到,便携式 AI 产品对芯片的功耗和运算能力要求更苛刻,算法也要适配很多场景,通用芯片已经不能满足这类产品的需要。

「为了真正的做好这样一个产品,需要从系统层面上考虑到芯片的规划,这也是我们当时做芯片的初衷。」周军从性能、功耗、集成度、成本等维度分享了 Rokid 自研 AI 芯片 KAMINO18 的设计过程。

以下是周军博士在 WARE 2018 芯片与应用峰会上的演讲及会后问答实录,由深圳湾整理发布。

- 现场回放 -

移动 AI 产品的新需求催生自研 AI 芯片

我今年加入 Rokid 公司,之前一直在三星工作。Rokid 2014 年成立,主要做人机交互方面技术的探索,现在总部在杭州。我们音箱方面的产品第一款叫外星人,2014 年开始研发,带屏幕显示和摄像头。后面还有一款产品(月石),价格稍微低一点,主要在家庭里面使用。

最新的产品叫 Rokid Me,它是带电池的,可以随身携带。这样的产品出来,我们发现对芯片要求特别高。放在家里的产品插上电源就可以,对功耗的要求不是那么严格,如果做成像手机一样便携,对功耗和运算能力有非常高的要求,算法也要适配很多场景,对芯片的需求也就更高。

我们第一代产品用了三星 410,第二代产品用的是高通芯片。为了做实时的唤醒,我们绑定了两个核在上面跑,两个比较大的核会一直在工作,所以整个产品的功耗就会比较高,没有办法做到便携,而且对芯片要求比较高,最少需要四核或者八核的芯片才能跑完这样的系统。

智能音箱最早都是用通用芯片做开发,通用芯片没有考虑到智能音箱场景的特殊要求,所以为了真正的做好一个产品,需要从系统层面上考虑到芯片的规划,这也是我们当时做芯片的一个初衷。

2016 年开始,我们和国芯一起联合开发了这样一款芯片。我们这款芯片是一款「物尽其用的 AI 芯片」,名字叫 KAMINO18,KAMINO 是『星球大战』里面生产克隆人的星球的名字,所以我们希望这样的方案和芯片出来之后可以快速和稳定,在各个行业可以进行使用。

芯片的设计的几个考量维度:性能、功耗、集成度和成本

我们从几个维度考虑芯片的设计,首先是性能。通用的芯片都是用 CPU 做运算。我们首先要考虑到语音信号的处理,所以还选择集成 DSP 的芯片,处理语音算法会有一个数量级的提升,用比较小的空间就可以做更多的事情。我们现在的 ASR 或者 NLP 都是使用深度学习、神经网络的算法,因为 CPU 运算会非常低效,所以我们定制了 NPU ,可以提高 30!50 倍的效果,我们用异构的架构提升性能,而不是单纯用 CPU 来算复杂的算法。

第二个比较重要的是功耗。刚才说了,用通用芯片来做唤醒功能,可能需要两个大核绑定来运算,造成整个功耗没有办法下来,所以定义这个芯片的时候,我们会考虑到功耗方面针对智能音箱的优化,比如我们加入硬件 VAD 的功能,它的作用就是有语音的时候就把系统唤醒唤醒,没有语音的时候系VAD统在睡眠状态,大部分情况下不工作,可以省电,而通用芯片会可能就会一直在工作。我们会针对智能音箱产品的特点,我们会划分出几个不同功率管理的模块,比如唤醒模块,只需要用的 MCU加一个小型的 NPU 就可以完成工作,所以唤醒的时候并不需要把 CPU 全部打开,整个系统的功耗可以做到非常低。

再一个考虑的是集成度。比如之前的通用芯片不能支持多路麦克风的接入,最早的产品我们还用了 CPID 对音频信号进行合成,现在的芯片支持多路麦克风输入和模拟麦克风输入,就不需要外部芯片来做,为了体积和面积的减少,我们集成了 Audio Codec、DDR,如果做模组,整个面积会非常非常小。

KAMINO 18 芯片的主要特点

它是 SoC 的芯片,我们用了 NPU、DSP 和 CPU 异构的计算,会支持 TensorFlow 等通用模型,我们也支持扩展的私有算法,直接对 NPU 进行操作,比如 TensorFlow 为了通用性的,数据搬运流程非常复杂,我们在上面做了很多优化,所以我们的效率会提高非常多。

软件方面集成了很多先进的算法,我们支持 CTC 的模型,这是端到端的声学模型。它的好处,一是可以支持离线的识别,不需要连上网络也可以做一些指令控制家电和故事机等等;二是支持自定义的唤醒词,尤其是对便携式、个性化的产品特别特别重要,可能会做出一些个性化的产品出来。

另外由于它有 DSP,所以我们可以做更复杂、更强大的算法,我们叫相控阵麦克风技术。以前算力不够的情况下,针对空间的音源,我们会用轮询的方式在 360 度的空间里面运算,但是这样会有滞后性。我们的 DSP 和 NPU 比较强大,可以同时监听 12 路方向,根据声音的强度和频谱的特点选出 4 路或者 8 路声音做实时追踪,还可以做定向语音接收的增强,然后把这些数据导入到 NPU 里面,实时判断是不是需要被唤醒的方向。这也是芯片运算能力强大之后才能做这样的算法。

我们现在一方面是我们自己的产品会用自己的芯片做量产,因为有成本优势和技术上面的突破。我们还有一些其他的客户,包括内容提供商、家电公司、互联网公司,他们可能做儿童教育或者各种各样的产品,已经在用我们的芯片来做,已经可以实现百万级量产。

- 媒体对话芯片厂商 -

对谈嘉宾:
周军 / Rokid 副总裁及基础平台负责人
炫姐姐 / 深圳湾


炫姐姐:从三星加入 Rokid 这样一家创业公司之后整体的感受有什么变化?

周军:变化还是蛮大的,因为三星属于循规蹈矩的大公司,有规范的流程,也很好,但是 Rokid 属于创业的公司,更加有激情。我们公司有几个核心价值观,其中一个是自我驱动,所以大家都是比较努力干活和追求极致的。我们还讲究玩的精神,我们不仅仅是做产品,也在探索新的技术,也会有很多新东西让大家一起玩,有很多新的技术大家一起探索。「玩」的精神也是我们其中一个核心的价值观。

炫姐姐:您现在负责的工作是整体架构,您在开始负责这块工作之后为 Rokid 带来了哪些方面的优化?

周军:之前 Rokid 基本上还是产品导向,做产品的开发,代码架构也是按照这样的方式管理,但是客户和产品比较多之后,这个模式会遇到瓶颈,比如某个项目中发生的问题解决掉,但是不能反馈到其他客户或者其他项目,所以一个大的改变是以平台为主导,一个客户、一个项目出现的问题会很快反馈到其他项目,我们平台会越来越稳定,会支持更多客户、更多项目,这是比较大的变化。

Back to top btn