Uploads%2farticles%2f11970%2f
|
2017-12-14

语智科技将发布 FFASR 开发者平台,助力 IoT 设备商实现无需麦克风阵列的远场语音识别

对于智能硬件厂商来说,使用麦克风阵列的语音识别方案,意味着额外的物料成本及开发成本,而且对于电视这样竖向、扁平的硬件以及某些小型硬件来说,并没有多余的空间和合适的位置留给麦克风阵列。

刚刚完成 2000 万元 Pre-A 轮融资的北京语智科技公司,公布了其远场语音识别引擎 FFASR 开发者平台(FFASR, Far-Field Automatic Speech Recognition),旨在大幅降低设备实现语音交互的入场门槛,使各类 IoT 设备摆脱目前实现远场语音识别所需要的复杂麦克风阵列的局限,降低「AI+IoT」的入场门槛,缩减使用麦克风阵列的 BOM 成本及开发成本,从而推进语音交互进驻各领域的进程。

语智科技最近一次内部测试数据显示,其 FFASR 远场识别引擎的性能指标领先业内 15% 以上。

值得一提的是,语智科技致力于语音交互与智能家居的深度整合,其语音全屋智能解决方案「语家 HomeAI」已落地于北京中关村 SOHO,采用分布式拾音技术,与家庭设备进行底层联动,旨在实现语音 AI 对家庭设备的控制。

语智科技的创始团队有着光鲜的履历。创始人冯一毕业于北京大学计算机系,创业前在 Google 总部负责 Google Assistant 的多回合对话系统,曾经帮助 NASA 设计国际空间站旋转系统,将太阳能发电量提高了约 1.5%。语智科技 CTO 徐源盛研究生毕业于北京大学,从事机器学习相关的研究,多次在国际会议发表论文,并多次获得 ACM 国际大学生程序设计竞赛金牌。深度学习总监杜聪本科就读于北京大学计算机系,在使用深度学习进行唤醒和降噪工作上有研究和经验。声学开发总监黄智超为北京大学声学房向硕士,研究领域为麦克风阵列和降噪技术。硬件开发总监聂旭辉为北京大学硕士,研究方向为物联网和无线医疗,多篇论文被 EI 收录,并拥有多项专利。

语智科技团队希望通过专门为远场语音识别开发一款引擎,来让众多体积小、结构扁平的智能产品,在不适合用麦克风阵列的情况下也能有被用户「声控」的解决方案。

创始人冯一坦言,团队初创时并没有把主要的开发精力倾斜在远场语音识别,而是希望寻找到一个性能好、成本适合的远场声学处理的解决方案,用来支持其他的开发项目,因为没有找到真正满意的方案,所以自己做起了远场语音识别方案。

语智科技在 FFASR 远场语识别引擎上实现这一性能的提升,是基于语智科技对远场语音识别的技术链条上每个环节有着学术积累和深刻理解,以及在远场降噪、Deep Learning、声学模型、语言模型等多个领域拥有的技术积累和整合能力。

语智科技首先对声学降噪需要解决的三个干扰问题——噪声、混响、干涉进行了数学建模,并设计更深层的神经网络,通过算法对干扰进行声学降噪。

为了能够同时处理前端声学降噪和语音识别,语智科技 FFASR 算法将 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)进行深度整合,搭建了更复杂的深度学习网络,并将网络分成很多部分,用以处理不同的任务。而这样的神经网络还需要更适配和先进的训练平台,语智科技独立设计了训练平台,替代通常使用的 Kaldi ASR 进行网络结构训练。

如今,语智科技即将把自己的远场语音识别引擎开放给开发者使用。IoT 厂商及开发者可登录语智科技官网(近期开放)直接调用 FFASR API,接入语智科技 FFASR 远场语音技术。

题图:语智科技创始人暨 CEO 冯一
编辑:陈壹零 / 深圳湾
>>
Back to top btn