Uploads%2farticles%2f11497%2f           ware 2017         20170415.008
|
2017-04-17

优必选:以一个过来人的身份告诉创业者,如何通过 Alexa 实现语音助手的海外本地化丨WARE 2017

在国内,做智能硬件的不少,其中有不少出口国外的产品。那么,搭载语音交互功能的产品在进入海外市场时,最主要的还是要考虑语音交互的本土化问题。在深圳湾举办的「WARE 2017 语音智能平台与应用峰会」中,优必选 Alpha 产品线的负责人梁嘉豪以一个创业公司的视角向大家分享了其智能语音助手海外本地化探索的过程。

梁嘉豪曾从无到有搭建了优必选的产品团队,现主要责优必选人工语音助手相关产品:Alpha2,Lynx,Beta,Alpha1 等产品。在智能语音交互上有丰富的实战经验,对国内外智能语音行业有深刻的了解。

优必选 Alpha 2 于 2016 年启动了英文版语音的研发,但难以实现海外本地化英文语义的编写,基于这样的评估,Alpha 2 随后接入 Api.ai(不需在每个场景中编写语义),World Frame Alpha 和 Alice(让语音更聪明)。经过一路以来的探索,Alpha 2 最终选择了 Alexa,并于 2017 年的 CES 上发布搭载 Alexa 的 Lynx 机器人。

海外本地化面临哪些问题?

可以说,优必选已经把能走的路都走了一遍。梁嘉豪讲述了他们这一路以来所遇到的问题,可归结为以下三大类:

1.语言本地化:翻译是语音软件海外本地化最简单的办法,但事实上,人工智能类产品因拥有海量数据,单靠翻译是不足够的。语言本地化包括唤醒、ASR/TTS、NLP/NLU 个三方面。其中,唤醒指的是需要对唤醒词进行外文转化,NLP/NLU 则需要运用海量的本地数据进行训练。

2.内容本地化:包括考虑新闻、故事、时区、音乐、天气、版权等的当地属性。其中,版权问题最为棘手,如音乐无法得到当地应用的授权,将无法给用户带来顺畅的体验。

3.云服务本地化:即服务器部署地的问题。若国内产品在国外使用时,依旧走国内服务器通道,则难以为用户提供良好的体验。

对于没有当地化优势的创业公司来说,Alexa 是不错的选择

梁嘉豪表示,对于一个没有当地化优势的创业公司来说,接入 Alexa 是最佳的选择,原因有以下几点:

1.Alexa 能够提供极致的用户体验,它要求麦克风在听到声音、回应用户的整个过程需要保持在 1.5s 以内,避免因等待时间过长导致用户产生等待焦虑。将这个反应时间从 4s 缩短到 1.5s,Alexa 团队先后花了 3 年时间。

2.Amazon 能够提供科学、完整的接入指引,清楚地向厂商指示,机器在被唤醒、监听、请求网络等状态下,需要应用光效、声音等向用户表明机器自身所处的状态。

3.便捷的技能开发方式,因大部分中、小厂商么没有足够的 NLP/NLU 数据,Alexa 能够让厂商免去对 NLP/NLU 这部分的考虑。

4.体系的认证体系,这一点确保任何接入 Alexa 的产品都能为用户提供极致的用户体验。

亚马逊资质验证,需要注意哪些?

梁嘉豪进一步向大家讲述了亚马逊资质验证体系的框架:

麦克风阵列(唤醒、误唤醒、识别):分别是安静和噪音环境下的唤醒率和误唤醒率检测。

用户体验(灯效、反馈、延时):包括反馈机制是否到位,让用户清楚机器所处的状态,机器向用户反馈的时间不超过 1.5s。

大音频文件播放体验(用户等待时长):Amazon 拥有海量的内容,且不同内容供应商所提供的音频文件格式各不相同,要求所提供的音频文件能够被播放,虽然对用户等待时长没有固定数值,但要求在一个相对较短的时间范围内。

另外,梁嘉豪还说道,目前厂商从向 Amazon 提交申请到最终让产品接入 Alexa 的时长大概为 2 个月。但需要注意的是,随着越来越多厂商的申请接入,申请周期将会延长。

问答

Q:放在机器人上的人工智能跟放在音箱上的有一定区别,我们会期待除了声音之外还会有更多的结合的交互。因为优必选做机器人,应用了 Alexa 之后是否会有一些搭配?比如说做一些多模块的交互来与语音交互进行结合,也就是在交互方面是怎么思考的?

A:优必选其实是做人形机器人,与音箱最大的不同是,人形机器人有肢体,可以有丰富的能力。所以说,我们在接入 Alexa 时结合了硬件的特点,有更丰富的肢体语言,比如让机器人可以跟着用户一起做瑜伽。同时我们会在系统上加深运用,比如开放一些针对家庭监控、视频通话的功能,让我们的产品跟 Alexa 区别出来。

Q:对儿童的声音有没有什么特别的识别方法?这个问题扩展出去是,在家庭场景下面,我们针对一个儿童能识别出他的声音,然后给它对应到是否儿童的内容,就比如更加安全的环境。

A:因为我们机器人是相通的,针对不同的用户调取不同的应用,举个简单的例子,我们可以调取整个摄像头,然后通过后台的算法去算出这个用户大概是多少岁的,如果他是小于 16 岁,就把他识别是一个儿童,这样我们就可以去调取针对儿童的语音识别算法,同时为他调取一些跟儿童相关的内容,比如儿歌。这就要去跟别的硬件进行深度的结合,如果仅仅通过语音的话其实不太够。

Back to top btn