2017-12-29

即刻体验无需麦克风阵列的远场语音识别，语智科技 FFASR 开发者平台上线

远场交互不再局限于麦克风阵列，使任意麦克风采集的音频亦可接入云端识别引擎，获得语音识别结果。

两周前，北京语智科技公司在公布了完成 2000 万元 Pre-A 轮融资的消息时候，同时向业界透露了其远场语音识别引擎 FFASR 开发者平台（FFASR, Far-Field Automatic Speech Recognition）。消息在深圳湾（微信公众号 ID：shenzhenware）发布后，收到了不少业界资深人士的反馈，希望真实体验这一平台如何助力 IoT 设备商实现无需麦克风阵列的远场语音识别。

2017 年 12 月 28 日，恰逢「计算机之父」冯·诺依曼生日，或许是为了致敬这位前辈，语智科技的远场语音识别开发者平台上线。登陆语智科技官网，即可调用 API 免费接入：www.yuzhix.com。

语智科技 FFASR 是专门针对于远场语音交互开发的识别引擎，使远场交互不再局限于麦克风阵列，使任意麦克风采集的音频亦可接入云端识别引擎，获得语音识别结果。

语智 FFASR 和传统的 ASR 有什么区别呢？

在声学降噪方法方面，传统 ASR 采用传统近场语音模型，必须通过 4/6/8 麦克风阵列，才能将远场声源多路合一为近场声源，接入传统识别引擎。而直接接入语智 FFASR 专为远场声源开发的识别引擎后，在云端通过深度学习模型，就可以完成降噪、识别。

在硬件成本方面，传统 ASR 需要本地机载端较强处理能力，每个麦克风需要一个处理芯片，BOM 成本高，电路板体积大。而使用了语智 FFASR 的设备，则无需本地处理能力，所有运算都通过云端完成，BOM 成本和电路板体积均可以大幅度压缩。

在工业设计方面，传统 ASR 设备的工业设计局限性大，需要以水平、圆形阵列排布，因此现有产品多以「智能音箱」的形态出现。而使用了语智 FFASR 的设备，只需要一个麦克风就可以完成识别，无需装载多个芯片，不受设备硬件体积、ID 设计的限制。

最后，在实用效果上，传统 ASR 只能通过「智能音箱」实现语音交互，可升级扩展空间小，应用领域较少。而有了语智 FFASR，就可以接入任一搭载单/双/多麦克风的硬件设备，进行远场语音交互。

为什么 FFASR 拥有领先 15% 的卓越性能？

在 FFASR 远场语音识别引擎上实现这一优异的性能表现，是基于语智科技对远场语音识别的技术链条上每个环节有着学术积累和深刻理解，以及在远场降噪、Deep Learning、声学模型、语言模型等多个领域拥有的技术积累和整合能力。

具体来说，由于 FFASR 远场识别引擎是通过算法进行声学降噪处理，因此对声学降噪需要解决的三个干扰问题——噪声、混响、干涉进行了精确的数学建模，这同时对处理声学降噪的神经网络提出了更高的设计要求。为了能够同时处理前端声学降噪和语音识别，语智科技 FFASR 算法将 CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）进行了深度整合，搭建了更复杂的深度学习网络，并将网络分成很多部分，用以处理不同的任务。而这样的神经网络还需要更适配和先进的训练平台，语智科技独立设计了的训练平台，替代通常使用的 Kaldi ASR 进行网络结构训练。