Uploads%2farticles%2f12864%2f0  1
|
2018-12-13

被放进高通骁龙 855 的 AI 通话降噪方案究竟有何特别?

这是第一个利用深度学习和传统信号处理相结合的单通道手机通话降噪方案。

当你置身于人声嘈杂的酒吧、或者熙熙攘攘的闹市、或者地铁呼啸而过的站台,一个电话响起,你接起电话,但周围嘈杂的噪音,让你即便是大声讲话,手机麦克风也还是会把环境音一起收集进来,让接听信号的对方受到了干扰。

为了提升手机在这种嘈杂背景音中的通话体验,目前主流的解决方案是,在硬件端采用双麦克风,一个收集人声、一个收集环境音,再通过算法增强将人声与背景音分离,实现通话降噪。

不过,在 12 月 6 日在高通骁龙技术峰会上,高通现场展示了一个单麦克风降噪解决方案。基于骁龙 855 平台的 AI 通话降噪方案,在极其嘈杂的环境中,手机通话对方听到的便是干净的人声,不受噪音的干扰。

高通骁龙技术峰会现场展示的骁龙 855 样机,搭载了大象声科的 AI 通话降噪技术

这一通话降噪方案采用的是大象声科 AI 降噪技术,它是世界上第一个利用深度学习和传统信号处理相结合的单通道手机通话降噪方案,「可以提供比传统语音信号处理算法更优的语音通话质量。」高通产品管理副总裁 Manvinder Singh 评价道。

大象声科是一家致力于机器听觉的人工智能公司,服务于小米、努比亚、锤子、美图、51talk、猎豹移动等多家客户。今年 7 月,大象声科获得了小米和高通创投的数千万人民币的 Pre-A 轮战略投资,得到了业界广泛关注。

在深圳南山留学生创业园的「总部」办公室里,我们并没有看到漂亮的前台小姐姐,甚至没有一个光亮的前台。会议室里传来与来访客人的交谈声,办公桌上摆满了各种电子器件。大象声科创始人兼 CEO 苗健彰常常会引用「不服噪」的口号,去描绘大象声科脚踏实地的做事风格,以及为打造更加宁静和智慧的生活方式而不断努力的奋斗目标。

大象声科创始人兼 CEO 苗健彰,在 12 月 10 日深圳举办的「创新·携手·共赢暨大象声科基于高通骁龙移动平台的 DEMO 发布会」上致辞。

////////

那么,是什么样的技术让这头「大象」格外引人注目呢?

据苗健彰介绍,大象声科 AI 智能通话降噪拥有两大理论基础——计算听觉场景分析理论(CASA)和深度学习技术,CASA 主要关注的领域是声源分离。这里的声源不单是指人的声音,也可能是其它各种声音。声源分离的目标就是将这些声音分离开。

机器听觉与人类听觉最大的差异就在于机器无法准确判断音源的类型,继而对音源进行分离和提取。

大象声科联合创始人兼 CTO 张学良教授指出,早期解决方式是基于对信号的理解,借助声音信号的统计特性,采用人工规则编制算法实现降噪。这种方法存在的问题是,一方面对于复杂场景规则很难编制,而且规则适应性差;另一方面,传统算法中的参数估计也存在问题。而将语音信号处理与深度学习结合,就能从大量数据中自动学习规则,听过的噪声越多,语音处理就越好,并反过来可以帮助传统信号处理估计参数。

大象声科在这个基础上,通过计将算听觉场景分析理论(CASA)与深度学习技术相结合,实现了实时分离人声和背景噪声,从环境噪音中提取清晰人声,这就突破了传统信号处理方案的性能瓶颈。

大象声科联合创始人兼 CTO 张学良在发布会现场做语音唤醒演示,在现场来宾的议论声中(背景嘈杂),设备能够很准确的实现语音唤醒

////////

手机通话是这一技术方案最典型的应用场景。今年 4 月,锤子科技发布坚果 3 手机,便是运用了大象声科 AI 通话智能降噪技术,让手机通话中,过滤掉周围嘈杂的背景音,实现清晰的通话。

另一应用场景是手游通话。今年 11 月努比亚最新发布的红魔 Mars 电竞手机,也是搭载了大象声科的 AI 语音消噪技术,可以实时分离背景噪声和人声,实现在各种复杂噪音环境下的清晰语音提取和信号增强,从而有效抑制环境噪声、消除回声和啸叫,为手机用户带来更优质的通话和游戏体验。

也就是说,有了这项「AI 语音消噪」黑科技加持,以后用红魔 Mars 电竞手机玩《绝地求生:刺激战场》等电竞游戏时,不论是和队友连麦开语音,还是面对面开黑,再也不用担心受到周围环境噪音、回声和啸叫的干扰,被其他队友集体吐槽投诉了。

 努比亚红魔 Mars 电竞手机

除了手机通话场景外,大象声科还将进一步助力智能家居、智能车载、可穿戴设备、智能安防等行业的发展。

////////

借着大象声科深圳发布会的时机,就今年的成绩和明年的展望,深圳湾和大象声科进行了一次对话。

深圳湾:大象声科创建两年,您对现在取得的成绩如何评价?

苗健彰:我觉得达到了我们的预期。大象成立之初目标就很明确,希望成为声音拾取领域的杜比(Dolby),打造智能拾音的标准。最近和高通进行联合发布,意味着我们向这个目标迈进了一大步。

深圳湾:您认为现在大象声科 DEMO 的降噪效果,是否已经达到极具核心竞争力?或者认为目前离期待的效果还差多远?

苗健彰:目前我们的解决方案在性能和通用化程度上面都具备相当的竞争力。

在性能上,大象声科的单通道降噪方案,已经超越了市面上大多数的传统双麦降噪算法。在与努比亚合作的项目中,我们帮助客户在一个月内完成了移植调试,并且解决了客户困扰已久的游戏场景下的啸叫以及噪音抑制问题。

在通用化程度上,我们已经支持了包括高通骁龙在内的超过十余种不同的软硬件平台。比如高通骁龙 8 系列、7 系列和 6 系列平台。近日在高通骁龙技术峰会上,我们和高通联合展示了基于 855 最新旗舰平台的 Vocplus Telecom 智能通话降噪方案,通过共同优化该方案在高通骁龙平台上的性能,将进一步帮助 OEM 厂商有效提高软件移植效率,降低技术接入成本。

但是技术的追求是没有止境的,大象声科目前已经验证了 CASA 和深度学习在语音信号处理方面应用的前景,这也奠定了行业的发展趋势,但是距离实现机器像人类一样听声辩音的理想,还任重道远。

深圳湾:您说过,大象声科是技术驱动的公司,在技术创新方面,这头成长的大象,如何做到持续创新?

苗健彰:大象声科有一支全球顶级的科学家团队,首席科学家是全世界首位将深度学习引入语音增强领域的科学家。他们不仅赋予我们很强的技术方向感,也使我们可以不断吸引到志同道合的技术人才。

持续创新是科技企业的成长原动力,在这方面 Google 是我们的榜样。我们的企业文化和 Google 也有很多类似的地方,比如开放和关注员工,比如专注和极致。在我们这个团队中,每一位成员都会被给予充分的信任,我也相信每一个人都拥有无限的潜力。我们在发展企业的同时也要注重社会责任,顶尖人才是靠文化吸引来的,这一点大象一直很重视。

深圳湾:在技术应用方面,目前大象声科主要的应用案例体现在手机通讯上,我知道在其他领域,尤其是耳机和音箱,大象声科也在拓展着合作。您认为目前技术落地和商业化的挑战是什么?大象声科又是如何做的?

苗健彰:技术落地既需要团队的努力,也需要合作伙伴的信任。大象声科在技术攻关上面是绝对有韧性的公司,我们花了将近一年的时间,实现了单麦 AI 降噪算法的技术落地,不仅优化了神经网络模型的泛化性能,还解决包括模型压缩、低功耗、低延时、定点化等诸多工程问题。在这方面我一直为我们的技术团队感到骄傲。

合作伙伴方面,我们的运气一直不错,总能找到科技嗅觉敏锐的厂商,他们勇于尝试新技术带来的产品体验,而我们的技术也总能接受得住用户的考验,不辜负合作伙伴的信任。

深圳湾:这次发布会的主题是创新携手共赢,毋庸置疑,这是一个拼朋友圈的时代。您认为对于大象声科而言,最重要的朋友是谁?

苗健彰:创新、携⼿、共赢完整的表达是:与合作伙伴共同创新,与产业上下游强强携手,与终端用户达成共赢。朋友应该是肝胆相照,英雄相惜的,所以只要与我们服务用户,改善人类生活的理念一致的企业都是我们的朋友。

深圳湾:接下来的 2019 年,大象声科有什么计划?

苗健彰:一方面我们会继续加大研发力度,丰富我们的产品线;另一方面,我们会进一步加强与高通等合作伙伴的紧密合作,深耕手机和 VoIP 云通讯行业,同时加快我们智能通话降噪和智能语音交互解决方案在耳机、车载、智能家居、机器人等智能硬件上的落地。

主笔、采访:陈壹零 / 深圳湾

编辑:大树 / 深圳湾

>>
Back to top btn