Uploads%2farticles%2f11746%2f          3.038
|
2017-08-24

语音平台之争打响,Skill 开发能否成为 APP 后的下一个掘金地丨语音智能特稿

按照媒体惯用的命名方式,2017 年应该算得上是「语音智能元年」,特别下半年以来,国内的互联网巨头纷纷加大了在语音智能领域的布局力度。
而语音技能作为配合语音这一新型人机交互形式而使用的第三方应用,是语音智能中关键的一环。
在深圳湾的这第四篇语音智能特稿中,我们采访了 7 位行业人士(包括语音平台商、个人开发者等),从不同角度对语音技能开发的现状以及行业背后的思考进行了深度分析。


Skill 因何而生?

近两年来,人工智能的概念渗透到科技、生活的方方面面,包括机器视觉、语音语义、机器自主移动等。可以说,这些领域都一定程度上得益于深度学习、神经网络等所取得的突破性进展,而各领域也正处于萌芽阶段。

而从今年上半年开始,局势似乎开始发生了重大变化。在去年底获得卓越销量成绩的亚马逊 Echo 将智能语音捧为了最热门的风口,除了层出不穷的智能音箱产品,智能语音还在智能家居、车载、可穿戴等设备上承担起「赋能」的重要任务。

从 PC 到移动互联网再到物联网,语音智能的崛起让人不禁猜测到,乔布斯开启的触控(GUI)人机交互时代将被改写,转向触控+语音(VUI)或纯语音交互的时代。

与手机、平板等触控设备所基于的 iOS、Android 系统相类似,语音交互设备也有相应的语音操作系统(语音 OS)。就国内而言,主要有 百度 Duer OS腾讯云小微阿里 AliGenie科大讯飞 AIUI思必驰 DUITuring OS等。

点击查看深圳湾语音智能平台深度分析

与 iOS、Android 开放给应用(APP)开发者相同的路数,各厂商自行把控语音 OS 底层的技术和功能,将应用层逐步开放给第三方开发者。这些由开发者开发的应用被习惯称为语音技能(Skill)。

你们所追赶的亚马逊,从 2011 年开始就为自家的 Skill 开发预留了足够的多时间窗口

事实上,人机语音交互由苹果搭载 Siri 的 iPhone 4s 就已经开始进入大众视野。但其真正形成一定影响力的时期,是在亚马逊 Echo 成功将人们对语音助手的认识从手机、PC 端向家居场景转移之后。

从开拓一个新的应用场景开始,亚马逊 Alexa 就取得了良好的开端,名气迅速盖过了 Siri、Cortana 等更早出现的语音助手。

接着,Alexa 的产品路线更是有别于其他躺在手机、PC 里的语音助手。从通过语音指令控制扫地机、智能灯泡、智能扫地机等各类智能家居产品,到开放 API 接入到手机、车机、机器人、智能手表等第三方硬件,Alexa 已遍布各类大大小小的产品。

点击查看 Alexa 赋能清单

另外,亚马逊还做了一件重要的事情,就是在 2015 年 6 月开放 Alexa Skills Kit(ASK),着手建设 Alexa 的语音技能生态

起初,Alexa 语音技能的数量只有少数几个,开发者数量也寥寥无几。为此,亚马逊官方还专门设置了 1 亿美元的开发者奖励计划。

2016 年底,随着亚马逊 Echo 销量大涨,Alexa 的技能数在今年年初突破 1 万大关。紧接着在 6 月份公布的结果中,这个数字上升到了 1.5 万,此时,Google Assistant 的技能(Google Assistant Voice Apps)仅有 378 个,Cortana 的技能数还不到 70 个。

「亚马逊 Alexa 的成功,很大程度上得益于其率先在语音技能生态的布局,Alexa 现在所处的阶段就像 Android 上线后由 1 万个技能发展到 10 万个技能的阶段,而且 Alexa 在语音识别、麦克风阵列、降噪、语义理解,均已经实现全站语音交互。」有人认为,从目前到今后的很长一段时间内,其他玩家恐怕很难赶上 Alexa 这样的进度。

事实上,从 2011 年开始,Alexa 就为自己预留了足够多的时间窗口。

国内想做 Alexa 的玩家,Skill 部分都还处于起步阶段

从智能语音打磨、发布智能音箱,到开放硬件接口、语音技能开发包等,亚马逊走的每一步都算得上是小心谨慎。而后续的反馈也证明了,亚马逊所走的这些路是正确且可行的。

在 Alexa 这样一个成功典范的带头作用下,国内 BAT、小米以及各个初创企业纷纷抓住了中文语音的机会,趁 Echo、Google Home 并没打算入华的窗口期里,做起了智能音箱,造就了一番「百箱争鸣」的景象。

点击查看深圳湾百箱争鸣特稿

同时,BAT、语音技术厂商等也顺势抓住了这个机会开放语音操作系统的语音技能开发部分,让语音交互的内容更丰富、好玩。对这些的每一个国内厂商来说,亚马逊 Alexa 分步骤做的事情,他们几乎都采用了「几手同时抓」的战术。

「在国内,智能语音产品的产业链很长,包括前端信号处理、语音识别、语义理解、芯片(方案商)等等,每个环节都有很多参与方,但总的来说,整条产业链并未完全成熟。」DeepBrain 创始人李传丰这么说道,「前端信号处理还存在一系列技术难点,语义理解技术并没有大的突破,智能音箱硬件及背后的语音助手体验还需要不断的完善,现有大多数智能音箱产品体验离用户期望值依然存在较大差距。」

Skill 市场要做起来,依赖于语音平台的开放度和成熟度

正如大家所见,从今年年初开始,整个智能音箱市场的热情持续高涨,包括 Rokid 第二代新品 Pebble、京东第六款智能音箱产品 叮咚 TOP、喜玛拉雅的全内容 AI 音箱 小雅、阿里 499 的购物音箱 天猫精灵……

特别在小米前不久发布的 小米 AI 音箱 以 299 的低价一骑绝尘。而在这下半年,出门问问 Tichome 音箱国内版即将上市(其海外版搭载 Google Assistant,预计 10 月份上市),腾讯的智能音箱也即将和大家见面。智能音箱普遍被视为下一代 AI 语音交互的入口。

出门问问的「问问」智能音箱 Tichome

随着亚马逊将 Alexa 打造成一个开放平台,这一做法也逐渐被各语音厂商当作一个重要方向,大家意识到,要让语音智能真正做到为万物「赋能」,就应该不断提升它的能力,并且让它被接入到更多产品中。因此,任何一家特别是 BAT 都不愿意放弃继移动互联网的下一个平台级机会。

除了智能音箱,语音开放平台也成为今年以来的重头戏,并在今年下半年开始真正热闹起来。

在 4 月份的新品发布会中,出门问问公布即将推出智能音箱这个消息的同时,推出了虚拟个人助理「问问」以及 基于「问问」虚拟个人助理的 AI 开放平台

在今年 6 月份,经过 1 个月的内部测试后,腾讯云的语音智能平台「小微」正式开放,发布新品后不久的 Rokid 也在公司主页中正式上线了「开发者社区」。

接着在 7 月份的百度 AI 开发者大会上,Duer OS 开放平台也成为此次大会的重中之重,百度方还表示,希望将 Duer OS 打造成「AI 时代的安卓」。

点击查看景鲲深圳湾语音智能峰会分享

另外还有伴随阿里智能音箱出现的 AliGenie 系统,以及图灵的机器人操作系统的 Turing OS 1.5、专注儿童领域的

Turing OS Kids、专为智能硬件打造的 Turing OS Lite。

在发布拥有 40+ 项技能(Skill) 的智能音箱「小爱同学」的同时,小米还宣布开放(shuidi.mi.com)水滴平台,旨在让开发者为小米 AI 音箱开发更多技能。

点击了解小米 AI 音箱

在今年,思必驰内部也开始调整战略,组建了个百来人的团队,专注于 DUI 开放平台这一项目。

在这非常集中的一段时间里,几乎所有涉及该领域的厂商都行动了起来,纷纷布局语音开放平台。

据了解,国内类似 Alexa 这样的语音开放平台就已经有十来家,各家相继推出自家的语音 OS。这让人不禁想起智能手机引领的移动互联网时代,苹果、Google、微软、黑莓都在积极打造自家的手机操作系统并经历了一场广为人知的持久战。

与 iOS、Android、Windows 等手机操作系统内的应用(APP)一样,这些语音 OS 的其中一个重要组成部分也包含了「应用」,也就是技能(Skill)。而技能(Skill)这一说法最先也是来源于亚马逊 Alexa 的 Skill。

点击查看深圳湾语音技能市场特稿

回过头来,我们再来分析 Alexa 平台上的上万个 Skill,都有哪些应用场景?活跃度是怎样的?

今年上半年,亚马逊 Alexa 的技能数量呈陡坡式的上涨趋势。但也有分析者仔细分析了 Alexa 的这一万多个 Skills 并表示,平台上 10% 的技能拥有 80% 的关注度,虽然用户对这些技能的评价不高甚至偏低,但不可否认的是,这些技能为平台贡献了主要的活跃度。

一名语音技能开发者向深圳湾透露,他最近对 Alexa 的 Skills 进行了初步分析,并发现以下一些情况:

亚马逊 Alexa Skills 首页上推荐的应用仅有 152 个。

亚马逊 Alexa Skills 首页推荐的部分应用

在所有技能当中,评论数上千的 Skill 只有 2 个,并且都是声音类应用。一个是助眠声音应用,是用户使用量最高并且贴切生活的 Skill,不需要任何第三方账号授权。

而戏剧性的,另一个评论上千的广播应用,大概是因为需要第三方账号授权这样的步骤导致用户使用不便,应用底下的好评与差评参半。

从整体上看,主要是睡前(助眠、故事、音乐)和睡后(提醒、闹钟、天气、日程、笑话、新闻)这两个场景下的 Skills 存在高频需求。另外,厨房相关场景下的应用(如菜谱、鸡尾酒制作等)使用频率和用户评论数并不高。

需要提到的是,像智能灯泡、恒温器等 Smart home 相关的 Skill,以及官方内容属性的 Skill(如 CNN 等),因需要绑定使用或知名度等原因,用户基数都不会低。

此外剩下的,还有一大批不那么「幸运」且处于「躺尸」状态的 Skills。

上万个 Skill 活跃度,很多都还是躺尸,为什么?怎么办?

「现实就是那么的残酷,这样的情况其实也正常。」李传丰认为,其主要原因在于「用户还没养成语音交互的习惯」。

图灵机器人联合创始人郭家以触控交互(GUI)与语音交互(VUI)的主要区别讲述了其中更深层次的原因:

  • GUI 交互的形式就如同一个树状结构,用户在一个垂直任务中点选下一级菜单,直至任务完成并跳出;

  • VUI 交互就相当于一个网状结构(语义网),用户在进行语音交互的同时,思维是跳跃的,因此会出现随进随出的交叉交互现象。

而在目前的语音交互技术下,还没能完全实现各任务之间顺畅对接。况且在没有显示界面的情况下,用户缺乏了解这些 Skills 的介质。

郭家进一步表示,在这种情况下,引入主动交互的机制,引导用户使用一些内容、娱乐属性的 Skill 是其中一种可行办法。

科大讯飞市场负责人表示,不仅是 Alexa,大部分用户在使用智能音箱这类产品时,除了音乐播放、家居控制等高频应用之外,对其他 Skills 的使用需求都相对会少很多。

该负责人进一步表示,导致该现象的一方面原因是,目前的语音交互解决方案并不能满足用户体验,另一方面,用户在消费应用的同时,也需要场景的配合机制,即消费者真正消费的是「应用+场景」,而消费者的使用情况会一定程度上帮助厂商定位产品

思必驰市场总监龙梦竹也表达了与后者相类似的观点:「在现阶段,平台厂商、开发者无法决定消费者的使用,我们要做的是,先做好部分高频应用,剩下的将由开发者、消费者对应用进行定义、选择,让技能开发的方向逐渐明晰起来。」

为此,在 DUI 开放平台 9 月份正式上线之前,思必驰在深圳、北京、苏州等地举办开发者沙龙为平台预热,与此同时,也是为了从参与活动的开发者身上了解他们对开发平台的需求。(插播一条小广告:开发者沙龙为平台预热开发者沙龙深圳站将在深圳湾举行,关注我们一手报名信息!)

Rokid 产品经理徐超表示,「这种情况在 Android、iOS 内的应用商店也会很常见,从平台的角度来讲,这种情况并不可避免,我们将会更注重挖掘真正能满足用户需求、符合语音交互体验的 Skill。」

从以上几位发表的观点来看,在行业刚起步、没有足够经验借鉴的情况下,语音技能开发还没能完全摸清方向。另外,语音交互方案的不成熟及其明显区别于 GUI 的交互方式成为了用户访问语音技能的主要障碍

当下的难度:开发 Skill,是个浩大的工程

「与其说『语音技能』,还不如说『语义技能』,国内行业刚开始的时候,大家管这个为『功能』,慢慢的,大家都改口说『技能』了,其实,我认为更准确的说法应该是『语义技能』,因为一切语音技能的驱动都建立在语义理解的基础上。」李传丰这么说道。

点击查看李传丰深圳湾语音智能峰会分享

在语音技能开发的这件事情上,虽看起来是个「简单几句语音指令」的事情,但背后的工作量、工作难度却比我们想象中的还要多、还要复杂。

喜马拉雅创始人李海波的也进一步证明,自然语音理解(NLP)、足够的语料分析是语音技能开发的重要基础:

「许多第三方开发者开发的 Skill 并不能很好的响应用户行为和需求,用户往往在初步体验过后便放弃使用,而技能的打造并不一件简单的事情,这需要开发方是一个有技术实力的团队,就比如针对天气应用的问法就有很多种,一般需要平台厂商在深入了解用户的情况下,对各种有可能出现的问法语句进行一字一句的打磨,以提高语音交互反馈的准确率。」

点击查看小雅音箱报道

作为国内算得上最早一批布局语音技能生态的平台,DeepBrain 内部团队在成立的这一两年内专注于 Skill 开发这一件事,目的就在于希望将每项功能、体验做到极致,在某个领域中建立完善的知识图谱、专家系统。

以「虫洞」语音助手起家的图灵机器人现已经开放针对机器人领域的操作系统 Turing OS,面向聊天机器人领域的平台现已有 60 多万企业和开发者用户。在拥有大量开发者用户的基础上,图灵自身选择了首先在儿童产品应用领域深耕,强化儿童智能产品的教育、娱乐功能。

「人们对工具属性 Skill 在准确度上有一定的硬性要求,实际应用当中的 Skill 并不足够成熟,之所以选择儿童应用领域,首先,用户对这类产品的容错率比较高,其次,其中涉及到的多轮对话内容能够成为建立机器人图谱的良好基础,最后,这类产品、应用是当下儿童的刚需。」郭家说明了图灵将儿童应用作为战略重点之一的原因。

点击查看图灵机器人报道

鼓励开发者开发 Skill,除了奖励基金,还需要什么?

正如李海波提到的,大部分的平台厂商会事先把握天气、音乐、日程、家居控制等工具类、高频的语音技能,这也基本上已成为行业内的共识。另外还有像腾讯云「小微」这样基于腾讯原有软件应用生态的语音开放平台,自开放以来就自带一批「好友」。

点击查看腾讯云小微报道

除了平台本身,这些平台的企业合作伙伴则成为了第二批主要的平台开发者,他们主要针对自有产品的特定需求开发相应的技能。用李传丰的话形容,那就是自给自足的「小农经济」。

个人则成为了平台第三批开发者团队的重要组成部分。这些人要么是出于个人兴趣、要么抱着尝试的态度,这部分人有的甚至还有自己的「作品」,比如深圳湾此前报道过的,开发者杜志鹏借百度 DuerOS 改造出了会说话的乐高机器人

点击查看杜志鹏和小白音箱的故事

不难看出,除了平台厂商、平台合作伙伴之外,个人开发者成为了让技能商店内容「丰富」起来的主力军。而吸引个人开发者进驻开发平台开发技能,也是大部分平台厂商的重点任务之一。

为鼓励个人开发者,不少平台商都采用了类似 Alexa 奖励基金这样的计划。

在 7 月份的平台首秀上,思必驰宣布已设立 2 亿元的基金,用于鼓励 DUI 上的优秀开发者和项目,另设巨额补贴,扶持平台运营;科大讯飞将借助自有的广告平台、品牌和资本为开发者提供资源上和商业化上的扶持;阿里也将推出开发者奖励计划,表示目前不会参与合作分成。「砸钱」似乎是各厂商目前能想到的最好办法之一。

点击了解天猫精灵

但正如前文所说的,语音技能的开发需要一批有技术实力的团队进行一番精打细磨。想必,成功的语音技能更要耗费不少的人力、财力。

「鼓励金只能在技能项目启动初期起到一定的推动作用,将开发者领进门,至于后续的发展,就需要技能本身形成商业闭环,能够营利并形成良性循环,否则无法持续下去,其核心还在于是否满足用户痛点。」李传丰如是说。

「开发者不一定是原本那批 APP 开发者,也有可能是内容创业者。」李传丰认为,经过长时间的市场教育后,目前用户为优质内容付费的习惯已逐渐养成,未来基于语音交互的内容付费也有较大的可能性。「用户消费的内容不会变,但消费形式、场景会发生变化。」

点击了解思必驰 DUI 开放平台

另外,如前文提到科大讯飞的观点,消费者消费的是「应用+场景」,在接受深圳湾采访的过程中,图灵也特别强调他们认可的是「AI 场景化」的这一商业模式。

十多个语音 OS 赛跑,如当年的手机操作系统般,未来会构建出大生态?

虽说国内各家语音开放平台都还处在起步阶段,还没有真正分出上下高低。从目前国内的十几家语音开放平台来看,各家都有自身的优势,开放的范围也有一定差别。

能实现全链路开放的语音开放平台,国内应该不会超过 3 家。」徐超表示,Rokid 开放平台将提供从前端硬件 mic 阵列、远场激活拾音算法、操作系统,到后端自然语言识别、理解、合成等所有和语音相关的技术与服务,做到比 Alexa 更开放。

在各家都在争夺智能语音这个入口的情况下,各个开放平台的竞争是否会重演当年 iOS、Android 等手机操作系统之争,并形成这两家独大的局面。大部分平台厂商表示,竞争在所难免,但「两家独大」的可能性不大。

阿里天猫精灵产品经理释空表示,语音开放平台并没有形成所谓的「阵营」,同时在语音方面,OS 的概念也不会像手机那么突出,而后端的服务生态才是各家比拼的重点

科大讯飞则认为,这样的竞争并非是个零和博弈的过程。在智能语音这个大入口面前,竞争相当于是共同将这块市场做大,依托不同的生态模式,各家都在积极探讨各自未来的方向,最终收益的还是消费者。

正如「将智能语音打造成物联网入口」的初衷所诉,思必驰认为,物联网比互联网的市场前景更宽广。而不像互联网、移动互联网主要围绕着手机、PC 这两类产品,物联网涉及的产品种类更丰富多样。

「短期内并不会形成一、两家独大的局面,但就某个垂直领域而言,或许会呈现这样的局面,比如分别在车载、机器人、智能家居、可穿戴等各个垂直细分领域,则会有各自相应的语音操作系统,但如果时间维度拉长到 5~10 年,最终会剩下 2~3 家居于主导地位的语音操作系统。」李传丰的这番解释也一定程度上印证了上诉观点。■


感谢以下深圳湾的小伙伴,在本文攥写过程中给予的大力支持(按公司首字母排序):

阿里天猫精灵产品经理 释空;DeepBrain 创始人 李传丰;科大讯飞市场负责人(姓名不便透露);Rokid 产品经理 徐超;思必驰市场总监 龙梦竹;图灵机器人联合创始人 郭家;喜马拉雅创始人 李海波;语音技能开发者(姓名不便透露)

采访、主笔 | Jes

图片、排版、校对 | 小琳

Back to top btn