角逐智能小家电蓝海市场,AI 企业该做怎样的技术储备和战略规划丨WARE 2019
随时唤醒语音助手,真不是一句话的事儿 | 深圳湾夜话
实时在线的低功耗语音唤醒,技术解析与应用前景,听听各路专家怎么说
近年来,在运动、车载、商超、地铁、公交等随行场景,我们看到了越来越多的设备增加了语音交互的功能。
应用场景的变化,对于语音唤醒的快速和灵活反应,以及功耗和算力,甚至硬件设备本身的结构设计,都提出了新的要求。
算法商、芯片商、设备商、甚至云服务提供商,都给出了不同的解决方案,但共同的目标都是让设备的功耗更低,让语音交互的体验更好。
在第 122 期「深圳湾夜话」上,来自思必驰、QuickLogic、顺丰科技、步步高的嘉宾,分享了他们在低功耗语音唤醒方面的技术和应用。
算法商怎么做?
在算法层面,思必驰提供了从 DSP 到 AP 的一整套集成方案,包括双麦定向波束、命令词检测、骨传导特征检测等多项技术方案,实现设备从低功耗唤醒、到唤醒验证、再到声纹识别的多级唤醒。
通常情况下,语音唤醒的算法运行在 DSP 中,因语音交互而产生的数据也在 DSP 上缓存,通过独立的麦克风做唤醒输入,经过数据交换,将缓存数据输送到 AP 中,再触发二级唤醒和声纹验证。
而在设备处于待机或休眠的超低功耗状态,或者当设备在播放音乐时,就会自动切换到「闯入模式」,语音数据也会直接传输给 AP 芯片,触发二级唤醒和声纹验证,实现低功耗算法中的回声消除(AEC)。
基于以上工作流程,要做到「实时在线」的语音唤醒,在算法的基础上,还需要在麦克风阵列、定向波束、命令词检测、骨传导特征检测、蓝牙传输协议、以及云端多个方面进行优化。
在麦克风阵列的声学结构设计方面,有很多「Know-How」学问。比如市面上常见的双麦克风结构设计,需要做线性分布和水平放置,最佳间距为 30mm,声音流向要与麦克风垂直,麦克风拾音孔要水平朝上且处于同一平面,收音腔设计除了单孔型还有网状自由场型,隔音减震设计也有讲究,等等。思必驰的工程师会协助客户完成从麦克风选型到麦克风参数评估的方方面面。
设备有了「听清」的能力后,就要解决命令词也就是「听懂」的问题。拿蓝牙耳机产品来举例,类似播放/暂停音乐、拨打/挂断电话、支付宝扫一扫这样的操控命令,甚至一些品牌命令词,都可以直接储存到设备上,在设备上直接完成调用。
最后在协议层,思必驰也提供了 SMA 蓝牙配件接入协议,赋予思必驰全链路语音交互技术,通过晓听 APP,实现控制家电、场景识别等个性化功能。
芯片商怎么做?
随着越来越多的 TWS 耳机增加了语音交互功能,语音唤醒的方式也从传统的触控唤醒,逐渐过渡到语音唤醒。
交互方式的演进也对设备的交互能力有了新的要求,语音识别的准确性、语音助手的始终在线、以及用户使用和佩戴状态的智能识别,都需要有更先进的技术支持。
QuickLogic 在 4 年前就提出了 EOS S3 语音和传感器处理平台,目前也是世界上唯一提供超低功耗并集成了始终在线、始终监听、始终感知(Always On / Always listening + Sensor)处理能力的多核 SoC 解决方案。
它使用了分层式架构,可以集成运动传感、加速传感、心率传感、语音唤醒和降噪、室内导航等传感器和算法,运行功耗相较于普通的 MCU 方案大大降低。
两年前,QuickLogic EOS S3 语音和传感器处理平台就与亚马逊 Alexa 实现了合作,针对其双麦降噪、近场唤醒的需求,通过 S3 实现 OPUS 压缩算法,降低亚马逊蓝牙耳机所使用的高通 CSR867X 蓝牙音频芯片的运载负担。
目前 S3 已与多个蓝牙平台实现了合作,共同提供验证的方案,帮助客户产品快速上市。同时,QuickLogic 还开放软件代码、eFPGA,使软硬件设计更加灵活。
为快递小哥定制的蓝牙耳机,语音唤醒怎么做?
在开场思必驰的分享中提到,低功耗语音唤醒的应用不仅在耳机、手表、小家电等消费电子产品领域有着丰富的应用,在物流配送、专车驾驶、餐饮服务等 toB 的垂直场景,也有巨大的需求空间。
为了保障用户隐私,同时帮助快递小哥更安全、更高效的处理日常收派件工作,今年年初,顺丰科技推出了「小丰」智能蓝牙耳机,目前已在全国多个收派环境较复杂的区域开始投放使用。
产品搭载智能语音技术,可以实现语音唤醒和操控,快递小哥可结合顺丰丰密运单通过语音指令呼叫用户,保障用户隐私,此外,日常呼叫通讯录联系人 、查单 、转单等高频操作,都可以由 8 步手动操作减为 1 步语音指令,大大提升了工作效率。
更多的功能和服务还包括,路径规划和语音导航、超速提醒、实时同步用户消息、实时播报系统消息 …等等针对具体应用场景和业务需求的功能。
顺丰「小丰」也是思必驰「晓听」FreeSpeech E1 的应用案例,该方案集成了双麦定向增强与降噪、免提语音交互等多项技术,并可以实现 30KM/H 降风噪,始终在线功耗小于 2mA,以及 12 小时的连续高清通话。
具体到「小丰」耳机,则是基于主频算力小的小型 NCU,思必驰提供了基于双麦的 ANC 唤醒方案以及前端信号处理、低功耗唤醒等技术,将快捷命令词纳入唤醒词中,既大大提高语音交互的效率,又确保了低功耗。
为小朋友定制的教育平板,语音唤醒怎么做?
除了耳机、手表、小家电,教育平板对语音唤醒的需求也在迅速攀升。以步步高教育平板为代表,语音 AI 已经逐渐成为旗舰标配。
步步高家教机 2019 年的旗舰产品 S5 同时具备了 AI 视觉和 AI 语音识别的能力,相比一般的常见 AI 智能机器人和传统的教育平板,步步高家教机 S5 的语音助手可以做到实时在线、语音唤醒,并针对学习场景,优化了问答、听写的语音交互体验。产品一上市,就获得了广泛好评。
在语音方案选型之前,步步高的产品负责人对于需求做了全面的梳理:
需要有语音识别技术(ASR),对随时接收的用户语音输入进行识别;
在 ASR 无法智能判断用户是否在和它对话,从而乱响应的情况下,需要语音唤醒技术明确对话请求,用简短的唤醒词减少唤醒识别时间;
为延长待机时间,设备 AP 需要休眠,语音唤醒服务不能长期在 AP 中运行,这就需要低功耗外挂芯片,需要能够对唤醒词和识别句进行分拆,需要能够过滤本机回声。
具体到方案的规格,步步高需要一个能够内置低功耗语音唤醒算法的低功耗芯片,它需要具备以下性能:
支持 One-Shot 即唤醒词+指令一句连说,这就要求算法留出 3 秒左右的缓冲,而芯片留出 >96kb 的 SRAM 可用空间;
支持 AEC,并且 AEC 的 CLK 要与 AP 同源;
功耗 <5mW,保证续航时间需求;
唤醒率 >98%,保证良好的唤醒体验,这里主要是童声体验;
误唤醒要 <1次/24 小时,保证极低的打扰和插话;
成本 <$1。
在语音 AI 产品化的过程中,步步高也经历了从模式识别到深度学习的转变,通过不断的采集和更新样品数据,提升设备唤醒率。同时,针对在嘈杂环境唤醒率低、人声场景的误唤醒较高等问题,步步高采用了单麦的低功耗唤醒和双麦的降噪方案,ASR 能力获得 10~15% 的明显改善。
目前,步步高还在探索新的优化方向,包括多麦低功耗语音唤醒和声纹。在步步高看来,多麦低功耗语音唤醒是必然趋势,而声纹要做好比较难。
夜话聊不完
在活动最后的深圳湾夜话的交流环节,几位嘉宾一起就算法、芯片、蓝牙耳机等话题,展开了进一步的讨论。这里我们精选了一些嘉宾的观点,欢迎各位读者留言参与讨论。
深圳湾:把算法做到芯片里,实现离在线的 AI,越来越多的玩家在加入。思必驰深聪的芯片与竞品相比,优势是什么?
思必驰:思必驰团队有400多名算法研发工程师,丰富的项目落地经验,以及为客户做灵活高可用定制的能力。
深圳湾:最近发布的亚马逊 Echo Buds 采用的多芯片方案,而小米发布的 Air 2 采用的是单芯片方案。QuickLogic 的芯片集成了语音唤醒、外接传感器算法的芯片,与高通等蓝牙主控芯片搭配使用。单芯片和多芯片各自有哪些优劣势?
QuickLogic:单芯片是未来发展的趋势。但在目前的状况下,厂商对于性价比、功耗、传感器功能的可拓展性、是否能快速上市、以及未来的上升空间,考虑更多一些,QuickLogic 的方案可以满足厂商这些方面的需求。
深圳湾:未来耳机的进化方向,各位怎么来看?
步步高:体积小、功耗低、语音唤醒,是蓝牙耳机的发展趋势。
顺丰科技:语音和图像识别可以有一些互补,当用户用语音提问时,设备可以通过显示屏进行反馈,而不是一定要通过语音对话进行反馈。耳机只是一种交互介质,可以与其他设备有更多的结合和联动,从而让用户有更好的使用体验。
QuickLogic:蓝牙耳机与助听器的结合,将会有更大的市场空间。
思必驰:蓝牙耳机一定会朝着智能方向发展,而在众多的玩家中,手机厂商做智能耳机会有更大的优势。最近我们看到了亚马逊、微软等很多互联网厂商纷纷推出智能耳机。我们预测,明年将会是智能耳机的爆发元年。
关于
深圳湾夜话是最早由深圳湾发起的社区分享活动。目前已经进行至第 122 场,超过 400 位商业领袖、产品达人、技术专家、意见领袖做客活动并分享洞见,累计吸引了超过 10000 名创新创业者、尤其是智能硬件的行业从业者和爱好者参与线下活动。
很多人因为「深圳湾夜话」认识到深圳,因为「深圳湾夜话」而与产业链上下游实现了连接,因为「深圳湾夜话」而获得了启发和鼓舞。
4 年来,我们一直用心经营着这个「地标性」的活动,精选嘉宾、打磨主题、优化活动体验,试图每一个经过我们设计的夜话,都能给让各位收获满满。
微信号:shenzhenware
主笔:陈壹零 / 深圳湾
编辑:左思思 / 深圳湾