Uploads%2farticles%2f11699%2fhero smart tv 3200x2100
|
2017-07-24

一家语音技术公司的产品落地之道:不看好智能音箱,电视、车载才是纯语音交互最好的过渡

智能语音「赋能」万物,什么样的硬件形态才比较理想?

Echo 系列智能音箱造就了亚马逊硬件史的销量神话,当大家纷纷把注意力放在效仿亚马逊做智能音箱的时候,亚马逊已经开放了 Echo 背后真正的力量——Alexa。如今的 Alexa 无处不在,占据了智能家居、车载、手机等重要领地。

随后,语音智能「赋能」硬件的趋势也因此被带动起来,语音识别、自然语言处理(NLP)等语音相关技术作为最重要的一环,逐渐成为了行业的关注热点。其中,语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升;自然语言处理(NLP)和语义理解能够让机器理解人类语音背后的意图和需求,并作出一定的反馈,这类技术为人机交互的发展奠定了重要基础,主要的先列代表是苹果的 Siri。

语音技术发展催生的创新力量

蓦然认知创始人戴帅湘表示,依据各家的专注领域和强项进行划分,国内语音技术厂商可分为以下几股势力:

第一股势力是较早一批从事语音处理技术的公司,专注于「语音识别」模块,即将语音转转换成文本,涉及降噪等声音信号处理方面的工作。主要代表为科大讯飞、云知声、思必驰,另外还有近些年成立的声智科技等新创企业。

第二股势力则是一批专注于语义理解技术,也就是语音识别的下一阶段工作——将语音、文字转化成机器所能理解的语言。主要代表有百度度秘、搜狗、微软小冰、蓦然认知等公司,致力于语义理解与垂直内容和场景的结合。

第三股势利则是走「硬件+AI」道路,将语音、语义技术、内容等融合在硬件产品中公司,如出门问问、Rokid 等。

此外,以上公司专注领域不同,一定程度上与当时的技术发展状况、市场等原因密切相关。例如在行业早期,自然语言处理方面的技术还未有突破性的进展,科大讯飞在这样的背景下则以语音识别技术作为起点。随着技术的发展,语音人机交互催生了一批语音语义相关技术的创业公司,而原本专注语音识别领域的公司也相继加大了这方面技术的投入。

戴帅湘补充道,目前大部分企业特别是初创企业一般有自身专注的领域,技术的打磨需要人才、资源(用户数据等)、技术的长期同步积累,否则如果只是购买第三方数据、做技术的对接和堆积,也就成为技术集成商了。而能够将语音技术、硬件相关完整产业链做好的,就目前来看,也就亚马逊这样的公司了。

蓦然认知:基于自身现有的 NLP 技术,面向 B 端客户打磨智能家居、车载、客服语音交互解决方案

戴帅湘是前百度主任架构师,在百度担任 Query 理解方向负责人期间,曾荣获以 NLP 技术为核心的百度最高奖,其技术成果目前仍广泛应用于百度所有搜索产品线。

2016 年 5 月,戴帅湘离开任职 9 年的百度,成立蓦然认知并带领团队专注于「智能对话交互及决策系统」的研发,于同年打造出一款智能语音交互及决策引擎——机器人小蓦(Mor)。

2017 年 1 月,凭借短时间内将技术进行商业落地的能力,成立仅半年时间的蓦然认知便获得了由经纬、源码合投,襄禾跟投的 1000 万美元的 A 轮融资。从公布数据来看,这是目前 NLP 创业领域最高的一笔投资。

目前,蓦然认知重点发展智能车载、智能家居、智能客服这三大领域的语义处理、多轮对话等技术和内容方案,与 B 端客户进行深度合作,在产品设计、需求上达成一致,促成产品与技术、内容服务的融合以及最终落地。

据戴帅湘表示,在目前的语音交互(VUI)产品领域内,因为没有足够的成功案例可借鉴,蓦然认知则根据技术的实际进展情况,为不同应用的产品(电视、车载)分别打造出一套产品解决方案,涉及声音、动作、触控这几种交互方式的结合。客户可根据情况选取所需要的技术模块,同时,蓦然认知将语音+语义+云端服务打包成 SDK,B 端厂商只需要三行代码就可以简单快速的接入蓦然的对话交互能力,使得产品体验更加友好。

目前,搭载 Mor 系统的硬件主要有智能电视(如暴风 TV)、智能头机(如 VINCI 头机)等。车载方面,蓦然正在与行业内的整车厂进行合作,上汽大通 6 月份发布的智能房车中的对话交互系统就是由蓦然认知提供的。

戴帅湘表示,在不同类型产品所接入的内容方面,则从用户的主需求考虑,将高频功能作为中心,辅之于扩展性的功能。例如在车载中控系统中,出行辅助(导航、周围信息)、音乐、新闻、有声节目等作为中心功能,而预订餐厅则可作为扩展性功能。在智能电视中,娱乐媒体是用户的主需求,购物、订电影票、股票等则是辅助功能。戴帅湘透露,蓦然认知正在与某大型购物厂商合作,将购物服务集成在系统中。

「虽然这些扩展性功能的用户使用频率不高,但对于部分用户来说,或许是高频需求,扩展性的功能起到提升用户体验的作用,可形成长尾。」戴帅湘如是说。

从触屏交互到纯语音交互,需要经历一个过渡阶段

如今,国内智能音箱市场如火如荼,各个厂商相继投入其中。戴帅湘个人对此并不看好:音箱对于北美家庭用户来说,是一款主流产品,但国内用户并没有这样的习惯,智能音箱的增量市场并不大,国内公司尤其互联网公司希望利用这个造价不高的产品进入家庭,充当中控设备以收集数据,或许有些「理想化」了。

戴帅湘进一步表示,智能音箱热在一定程度上能够起到教育市场的作用,让大众能够在除了手机之外的设备接触语音这种新的交互形式。

但触控仍然是目前人机交互的主流形式,从触控交互到纯语音交互,还需要一个过度阶段。戴帅湘认为,屏幕则能够在这个过渡阶段起到很好的辅助作用。在屏幕的基础上,良好的语音交互效果有助于激发用户培养使用习惯。

因此,蓦然认知目前主要瞄准带屏幕的两类业务,一类是电视,一类是车载。

「出于环境嘈杂和隐私等方面的考虑,国人通常不习惯在大庭广众之下使用语音,家庭和车载这两个相对私密的场景可作为一个较为折中的切入点。」

戴帅湘这么解释他看好这两个方向的原因,「长期以来,电视遥控器这种古老的操控方式并没有发生多少变化,语音操控这一新型的交互方式则大跨步的打破了这种局面,另外,国内电视已进入存量市场,相比音箱,电视的日活量更为可观;至于车载,语音在双手被占用的这种场景下能够解决不少交互问题。」

▲ 暴风于今年 5 月份推出其首款人工智能电视 X5 ECHO,搭载了 Mor 的语音交互系统

深耕 NLP 垂直技术,承载软件的硬件形态将更多样化

在 NLP 领域,蓦然认知在自然语言交互、自动服务对接、知识表示及推理这三大核心技术有了突破性进展,使得「小蓦机器人」Mor 在语义理解、多轮对话、上下文理解以及场景间的自由切换等有良好的表现。

据悉,Mor 系统已经用到了百亿级的知识条目,可以支持 40 多个垂直的应用场景。Mor 还能够将多个场景结合在一起,实现跨设备的上下文对话连接,在车载系统、家居系统,其对话关联的准确率已经达到了 90%+。此外,Mor 已接入了天气、机票、打车、FM 等 30 多个垂直应用。

▲ Mor 已接入了天气、机票、打车、FM 等 40 多个垂直应用

此外,戴帅湘提出了「对话即应用」(DAAA,Dialogue as an Application)理念,旨在优化人机对话(VUI)的交互方式。在 DAAA 理念里,通过人和机器的对话内容,机器能精准理解用户的需求,整合后台的一个或多个应用(如打车、预订目的地餐厅等)以提供相应的服务,区别于直接调用应用以完成单个任务的人机交互方式。

目前,蓦然认知的任务重心是语义新技术的研发及其产品化、产品落地。「我们将语义理解相关算法、技术作为自身的立足点,在没有现有成熟技术的情况下继续深挖。」

戴帅湘表示,从长远来看,公司并不排除自己打造硬件的情况,「任何软件都需要合适的硬件做载体,并通过硬件展示其背后的能力,在未来,软件将会越来越少,硬件的形态将越来越多,当存在的硬件无法展示软件或算法的能力时,我们会考虑采用新的硬件形态。(采访、主笔:Jes)■

>>
Back to top btn