20
|
2019-11-05

出门问问 TWS 耳机语音交互解决方案

出门问问 TWS 耳机解决方案是一套高集成度可定制化的 TWS 语音交互软硬件解决方案。

随着芯片、算法商在技术及应用方面的演进,尤其是连接、降噪方向的重大突破,越来越多的手机及耳机厂商推出了自家功能丰富、交互舒适的 TWS 耳机。
近日,出门问问新品发布会上推出的 TicPods 2 系列产品,在人机交互和语音助理方面,展现出了不少创新的交互及技术亮点:采用了多种手势的触控、头部控制、及语音唤醒和快捷口令;手表 + 手机的交互组合,将 4G 独立通讯的智能手表和耳机联动,在脱离手机终端的独立场景中,实现通讯、音频内容点播、翻译对讲、生活查询等一系列智能应用;结合场景做精细打磨,整合了更丰富的云端内容和服务,结合「小问秘书」、「小问翻译对讲机」、「小问电话助手」等智能应用,使产品的可玩性大大提高。

这也个传统耳机厂商及 TWS 耳机厂商,开拓了更广阔的视野。

出门问问 TWS 耳机解决方案是一套高集成度可定制化的 TWS 耳机语音交互解决方案,为便于查阅,以下将称 “出门问问 TWS 耳机语音交互解决方案” 为 “方案”。

方案整体架构

支持平台:高通 QCC5100 系列、ARM M4

方案核心技术及算法

回声消除(AEC) 

在听音乐和 TTS 语音播报的时候识别唤醒词和命令词是一个必不可少的功能,这个时候回声就是一个需要解决的问题。而就回声消除而言,则需要从结构和算法两个方面来考虑。

算法支持:需优先考虑声学结构方面的优化以减少回声的强度,在此基础之上可以透过出门问问回声消除算法,进一步降低回声的影响。

双麦波束成形(Beamforming)

利用两个麦克风采集到的语音的相位差做处理实现定向拾音,增强耳机佩戴人的语音并且抑制环境干扰和噪音,可以实现即使在噪杂的环境下也能实现很高的唤醒识别率。

算法支持:建议两个麦克风上下排列,麦克风的连线指向嘴巴,两个麦克风的间距在 25mm 到 30mm 之间为最优。

降噪(Noise Suppression)

双麦的波束成形算法已经具备了一定的环境噪音的抑制,在此基础之上降噪算法可以进一步地抑制环境噪音。

算法支持:结合波束成形和降噪算法,我们可以提供 20dB 以上的综合降噪水平。

唤醒词和命令词识别(Wakeup Word & Command Words Detection)

在语音交互中为了降低系统的功耗以及减少无效识别,一般都有一个定制的唤醒词(如苹果的 “Hey Siri”)。当系统检测到唤醒词之后,才进入语音识别和交互的过程。除了唤醒词之外,还有一些常用的与音乐播放、接听电话、音量控制等相关的命令。这些命令因 为比较常用,理想情况下用户可以直接说命令词而无需先说唤醒词。

算法支持:目前出门问问的算法可以支 持以下中英文快捷命令词,并可以为客户提供定制化需求开发。

方案集成及定制功能

可与产品厂商在提供 TWS 耳机核心算法及技术的基础上共同参与硬件结构设计,可提供:

  • 根据硬件设备定制唤醒词、命令词以及手机二次唤醒验证、声纹识别方案,提供数据录制;
  • 通过优化声学结构减少计算开销和功耗,以及相应优化功能;(对于典型的双麦降噪 + 热词唤醒的场景下,算法的内存占用只有 70KB,包括唤醒词模型和所有计算需要的内存。)

方案开放程度

  • 耳机端的语音交互核心算法:开放支持
  • 耳机和手机通过蓝牙互联互动的私有协议:开放支持
  • 手机端的唤醒词命令词的二步验证:开放支持
  • 手机端的嵌入式语音识别、语音合成系统:开放支持
  • 云端的语音识别、语义理解、对话管理、语音合成,以及第三方的内容和服务集成:开放支持
  • 声学结构设计和芯片选型方面联合开发:开放支持
  • 用户体验及相关体验设计:开放支持

方案性能指标测试

主要针对语音交互核心算法进行测试:

方案优势

  • 算法性能上的优势;
  • 资源占用上的优势;
  • 完整的技术解决方案,尤其在系统集成和优化上具有优势;

方案落地案例

>>
Back to top btn