Uploads%2farticles%2f13316%2forigin
|
2019-07-18

自动驾驶是「登月计划」,这一站落地 AIoT | 对话地平线

AI 技术不是分裂的,而且最终会走向融合

在 AI 落地这件事情上,在自动驾驶行业有着不错成绩的地平线,最近在消费硬件领域有了新的动作。

上个月,在小米米家智能生活新品发布上,几款新品的背后,都有地平线的技术支持。

经过这几年的发展,智能音箱已经成为让 AI 快速接近消费者的重要载体,也成为各家 AI 公司的必争之地。地平线是如何让自家的 AI 落地到以智能音箱为代表的消费硬件?我们先从这几款新品看起。

小米的实力派选手:降噪拾音能力更强 

作为国内前三大智能音箱品牌之一,小米近期推出的两款新品,小爱音箱 PLAY(小白箱)及小爱音箱万能遥控版(小黑箱)。前者主打音质、音乐服务(海量内容),后者支持 WiFi、红外、蓝牙多种方式控制家电的功能。

小爱音箱万能遥控版(左)、小爱音箱 PLAY(右)

此外,这两款音箱背后,有着更深层次的技术优化。

发布会上,小米强调,小爱音箱作为实力派选手,它升级了更智能的对话能力,在拾音上,较以往有了不同:

可在复杂的噪声环境中实现随时打断、随时唤醒。也就是说,你可以通过免唤醒打断来中断跟它对话,这样一来能有效提高对话的效率。

再者,在边缘计算的加持下,语音助手在低功耗状态下保持待命,确保用户在唤醒时能第一时间回应,使得交互体验更流畅。

地平线赋能音箱的背后:强干扰条件下的信号抽取

在造智能音箱这个事情上,小米具备供应链、渠道实力,在内容、技术上,也善于取各方之长,集各个方案商的技术,让产品在特定功能上有更优秀的表现。

而这一次也不例外。此次小米小爱音箱所采用的前端语音方案来自国内的边缘 AI 芯片及解决方案提供商地平线。事后,我们也和地平线多模交互产品总经理张宏志聊了聊这个技术方案实现原理,及其产品实现所面临的挑战。

此次发布的小爱音箱 PLAY 及小爱音箱万能遥控版,均搭载地平线自研的增强语音抽取(Enhanced Speech Extraction,简称 ESE)方案。

在更早之前,地平线的 ESE 方案就已经应用在小米年初发布的小爱触屏音箱。基于该方案,仅用双麦克风即可在强噪声干扰条件下有效抽取语音信号,弱化家居生活场景中的常见噪声,比如电视、厨房、洗衣机以及其他人声的干扰,提升产品的唤醒率。

这一次,地平线与小米的合作更加深入。地平线表示,要达到流畅的对话体验,仍面临诸多挑战。两者合作主要克服了以下几点难题:

  • 回声干扰下的唤醒率。在抽取生活常见噪声的基础上,地平线进一步升级 ESE 方案,针对回声干扰下的唤醒率做了优化。

  • 内存和功耗。随时唤醒就意味着语音 AI 在后台处于「随时待命」的状态,这就对内存和功耗造成一定的压力。相比之前的小爱触屏音箱,地平线针对此次发布的新品进行了深度优化,使 CPU 和内存占用降低了 30%,显著降低了功耗。

  • 数据训练。在这方面,地平线与小米大脑保持紧密合作,对语音识别技术(ASR)进行融合训练。运用深度神经网络技术方案,地平线对唤醒词的发音特点、使用场景及噪音类型进行了深入的分析和有针对性的系统优化。

  • 算法的快速跟踪。小米此次还发布 AI 新物种「小爱老师」,集电子词典+口语训练机+单词机+录音笔+翻译机多功能。与智能音箱不同,它是通过按键控制拾音的起始和结束,而非持续拾音,这对算法的快速跟踪提出了挑战。

    针对这款新品,地平线 ESE 方案加入自适应均衡机制适配识别模型,同时,在前端进行算法优化有效实现语音降噪,提高语音识别率。

地平线在消费硬件领域的表现:还有车载 AI 技术

作为一家以智能驾驶为核心业务的公司,地平线的语音方案也率先在汽车落地。

在今年 4 月份的上海车展中,地平线就公布了其与理想 ONE 的合作,为理想 ONE 增程式智能电动车配备「车载多音区交互技术」。包括听音辨位的语音分区功能,定制 30 余个免唤醒命令词等。

理想 ONE 车内的四麦克风布置
地平线多音区分布式麦克风阵列示例

与家庭环境不同,车内噪音受到胎噪、行驶车速等诸多因素的影响。为了应对日后车内更为复杂的环境,地平线创造性地将视觉、听觉融合形成多模感知,在语音感知的基础上提供多一层的「保障」,即使高噪音、强干扰、低声量的情况下也保证高唤醒率和高识别率。

针对语音「随时在线」的边缘计算也是一个重要趋势。一方面,边缘计算使得一部分语音指令在本地处理,在减轻云端负担的同时,响应更迅速、及时。另一方面,用户最关心的隐私问题也能得到安全的保障。这恰恰也是地平线在智能驾驶领域所专注的技术。

互联网大厂稳抓语音 AI 这一下一个平台级入口的同时,AI 技术厂商在算法、芯片上精耕细作,往往能在某一方面拥有突出的表现,也能照顾到 B 端客户的某一强需求。此次地平线与小米,就基于更深入的合作,将 ESE 方案的作用发挥到更优,满足了消费端硬件对 AI 技术的要求。

== 对话地平线 ==

深圳湾:地平线在语音 AI 技术方面的技术储备,从什么时候开始的?

张宏志:公司成立初期就已经开始。语音交互技术是人机交互在 AI 时代最基础的能力,这一基础能力与芯片有着强关联。作为一家边缘AI芯片公司,地平线要解决的问题是针对场景化的 AI 落地,提供强 AI 能力的支撑。因此,地平线会重视 AI 时代的各种基础能力,包括语音、图像、芯片等 AI 底层核心能力。

深圳湾:地平线最初给外界的印象,一直在自动驾驶领域深耕,为什么会涉足智能音箱/消费电子类产品的应用方向?

张宏志:在小米智能产品发布之前,地平线的语音技术在一些行业合作伙伴中已有所落地,包括:通过给合作伙伴提供语音算法,合作伙伴的语音方案已经通过了亚马逊 Alexa 的认证;在车载语音方面,地平线的语音技术目前在理想新能源汽车中处于落地的过程中。

AI on Horizon,做 AI 时代最底层的赋能者,是地平线的公司战略,地平线希望聚焦 AI 底层能力的构建和打磨,未来赋能更多行业客户。

深圳湾:除了小米的智能音箱、「小爱老师」等产品,地平线 ESE 方案还有哪些应用案例?

张宏志:我们和合作伙伴的合作范围还挺广的,目前也已延伸到海外市场,主要终端品类以 IoT 为主。

深圳湾:在语音 AI 技术方面的优势体现在哪里?与别家的技术有什么不同?

张宏志:AI 语音技术的核心点在于芯片和底层 AI 加速单元的深度匹配和调优。地平线是一个专注芯片和算法的公司,尤其在底层加速方面有很大的优势,主要体现在低功耗、强性能。

深圳湾:地平线在 DSP 和边缘端上的算法集成,是如何做的?在提升算法效率和减少功耗方面,取得了哪些进展?

张宏志:首先,从地平线公司战略的角度来讲,地平线核心聚焦的能力范畴在感知层面,即将语音、图像的物理世界转换为数字世界的过程。

其次,我们支持开放式集成的合作方式,我们会将算法开放给第三方硬件平台和芯片,去做集成。

这也是地平线公司战略「AI on Horizon」的重要基础。

目前,地平线已经完成在主流 ARM 等主流计算架构上相关算法的适配,以及深度优化工作,DSP 的工作也正在开展之中。

传感器方面,地平线已经跟行业里的优质合作伙伴达成了深度的战略合作关系,包括麦克风、摄像头、雷达等。在其中,地平线更多的集中在芯片、算法、深度学习架构的开发,即核心技术能力的建设,以及与合作方的对接和连桥上,算法的集成、测评体系,更多的是由硬件方案商,产品商来做整体的集成。

地平线始终坚守自己能力范畴,输出核心技术能力,赋能硬件合作方。

深圳湾:地平线已经推出了智能驾驶芯片和 AIoT 芯片。地平线目前的策略是,提供底层 AI 技术方案,助力合作伙伴产品落地的。为适应不同的落地场景,是否会有更多的芯片推出?

张宏志:目前,地平线更多的精力会集中在基于芯片的产品落地上。从地平线的认知角度来讲,在 AI 领域,图像、语音的能力,以及各种传感器感知的结果,会最终走向融合,而不是分裂。

例如,自动驾驶涵盖的人机交互的语音技术、车内摄像头(图像)的技术,以及车身各种传感器(雷达),都需要经过一系列的 AI 算法,提供一个统一、标准化的 AI 感知的输出结果,提供给上层应用,最终实现智能座舱、路径规划。

我们认为,通过一块更高集成度的芯片来处理各种传感器计算的需要,会是一个主流趋势。而不是把每一个能力(比如语音、图像等)分开处理。

深圳湾:一方面,我们期待一个高集成度的芯片,另一方面,针对特定场景、用户、设备,又会有垂直方案的需求。地平线如何做到高度集成和能力开放的平衡?

张宏志:事实上,芯片的加速单元,和算法的适配,这两者是可以解耦的。地平线力求通过自己的芯片,利用好算法,在功耗、性能、成本等方面达到极致追求。

在将芯片、算法、计算架构等落实到具体场景上,地平线抱着完全开放的心态,通过芯片开放赋能,成就合作伙伴和客户。

高集成度和垂直细分看似对立矛盾,但在我们看来,技术的发展会走向统一。在各个细分领域里,会有垂直的 AI 芯片来解决细分的问题。而在细分领域里面,地平线有能解决问题相关的算法,也会开放给各种硬件厂商做适配,满足市场需求。

深圳湾:今年依旧是 AI 行业的落地年,地平线过往在自动驾驶领域的行业落地经验,对现在有什么启发和借鉴吗?

张宏志:主要有三点。

第一,在人工智能时代,硬件一定是超配的。目前的 AI 能力正在突飞猛进的发展,硬件本身需要承载更多的计算力。这就要求,在一开始做硬件产品设计的时候,需要超配的设定,而不能缺斤短两,否则后续的 AI 能力升级跟不上。

人工智能时代硬件的生命周期,一定是远远超过移动互联网时代的硬件,比如汽车。

第二,在 AI 能力建设方面,自动驾驶是行业里的一个非常好的标杆,相当于全人类的的「登月计划」,或是一个攀登珠穆朗玛峰的过程。驾驶领域的 AI 解决方案,能在消费硬件领域迁移、提供参考。

例如,我们基于自动驾驶 AI 技术领域的实践经验,将视觉、语义信息融合,应用在消费硬件领域,达到提高语音识别效果的目的。两者在面临同一类问题时,解决方案也有相似性。

第三,AI 时代更加需要聚焦场景。目前,市场上很多产品的 AI 能力与人们的预期还有一段距离,这就要求在进行产品设计时,需要更加聚焦场景,需要更加聚焦特定的 AI 应用,将 AI 能力做深、做透, 为客户和使用者带来更优质的体验。

>>
Back to top btn