Uploads%2farticles%2f11680%2f  os
|
2017-07-14

语音智能 OS:国内 40 多家语音开发平台,做中国版 Alexa 的滋味是怎样的? | 语音智能特稿

近年来,智能语音市场变得异常火热,不管是主打人工智能概念的语音技术创业公司(如 Nuance、思必驰云知声出门问问 等),还是科技巨头(亚马逊 Alexa微软 CortanaGoogle Assistant苹果 Siri三星 Bixby、国内 BAT 等)都无不在进行横向和纵向的布局。

其中,凭借其强大的硬件铺货渠道,亚马逊让携带 Alexa 智能语音助手的 Echo 系列智能音箱进入了千家万户。

产品受欢迎程度通过实践验证后,Alexa 本身的技术也被开放出来,逐渐接入到智能家居、车载、手机等更多的硬件设备中。内容应用方面,基于 Alexa 语音技能开放平台 Alexa Skills Kit,开发者为 Alexa 开发的技能数已经超过 1.5 万个(截至今年 6 月份)(点击链接查看关于语音技能开放平台的深圳湾特稿)。

▲截至今年 6 月份,开发者为 Alexa 开发的技能数已经超过 1.5 万个

另外,在亚马逊 AWS 云服务、电商、线下商店等优势的加持下,Alexa 系目前欧美智能语音界的佼佼者已经成为一件毋庸置疑的事实。

鉴于 Alexa 的成功示范,Google、微软等科技巨头也紧随亚马逊的步伐并还处在一路小赶的状态。

国内方面,虽然国外语音技术能给国内产品进入海外市场助一臂之力,但由于云服务、语言「不支持中文」等因素,这些国外技术方案在中国本土市场就显得「水土不服」了。因此,BAT、科大讯飞、各个初创公司也察觉到了其中发展机遇,纷纷抢占布局。

据不完全统计,目前国内有近 40 个「语音开发平台」,其中有不少打着「做中国版的 Alexa」的旗帜。而在这场语音市场争夺战的背后,是一场语音操作系统(简称语音 OS)的战争,一如当年 PC、手机等的操作系统之争。

什么是语音操作系统(语音 OS)

概念界定:

百度对操作系统(Operating System,简称 OS)的界定是:

操作系统(OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在「裸机」上的最基本的系统软件,如 Android, iOS, Linux, Windows 等常见的操作系统。操作系统是用户和计算机的接口,同时也是计算机硬件和其他软件的接口,其组成部分包括内核、驱动程序、接口库、外围。

将这个概念类比到语音操作系统(语音 OS)中,则是:

语音操作系统(语音 OS)是运行语音助手、应用服务(语音技能)等软件的基本技术框架,所有应用将在此基础上衍生并在之中运行,这些应用及其操作结果最终得以在人机语音交互的过程中呈现出来。

其中,语音助手作为语音操作系统中一个重要工具,承担信息输入、输出的重要任务,有它特定的名称,如亚马逊的 Alexa、微软的 Cortana、百度的 Duer(度秘)等,其中,唤醒词多由此衍生而来。

本文中,深圳湾(公众号 ID:shenzhenware)主要分析国内部分正在布局语音开放平台、构建语音操作系统(语音 OS)的企业及其情况,来看看它们与 Alexa 有着哪些相仿或者不同的地方。

BAT 大公司:自发布开始就自带流量

01/ 百度 DuerOS

在 2015 年的百度世界大会上,百度研发的语音助手度秘(Duer)正式亮相。随后,Duer 在 KFC 机器人员工、高考服务等商业应用得到展示和实践。

2017 年 1 月国际消费类电子展(CES)期间,百度公布其具有划时代意义的对话式人工智能系统「DuerOS」,该系统可广泛应用于手机、电视、音箱、汽车、机器人等硬件设备。与此同时,DuerOS 首次被搭载在小鱼在家家庭机器人的第二代产品中。

DuerOS 的真正开放,是在刚过去不久的「百度 AI 开发者大会」。在这次被外界普遍称为「百度试图让自己的形象从一家互联网公司向一家人工智能公司转变」的大会上,百度度秘事业部总经理景鲲郑重推出小度(DuerOS)开放平台,并表示「DuerOS 是人工智能时代的 Android,是开放赋能的生态系统。」

▲  百度 AI 开发者大会上,百度度秘事业部总经理景鲲郑重推出小度(DuerOS)开放平台

同时景鲲还表示,区别于安卓、Linux、Windows 这些底层的操作系统,DuerOS 是一种对话式的人工智能操作环境。

小度(DuerOS)开放平台包括小度智能设备开放平台、小度技能开放平台,以及支撑这两个平台的小度对话核心系统

其中,小度智能设备开放平台为智能硬件厂商和开发者提供了个人版、轻量版、标准版、参考设计等多样化的方案,不仅满足各类厂商和开发者不同层次的需求,还具备低成本、方便灵活的特点。就拿一个最简单的例子来讲,通过接入一个 SDK,即可使电视等硬件具备 DuerOS 语音对话能力。

小度对话核心系统相当于 DuerOS 的「技术大脑」,基于百度在数据、技术(麦克风阵列、回声消除、语音唤醒、人像识别等)、内容方面的积累,DuerOS 能够通过云端大脑进行自学习,让智能设备具备人类语言能力。

▲ 百度度秘事业部总经理 景鲲。7 月 15 日,景鲲将出席深圳湾举办的 WARE 2017 语音智能平台与应用峰会第 II 季,分享 DuerOS 开放平台如何帮助硬件开发者在多个行业的多种场景实现全面赋能。

自 1 月份发布 DuerOS 起,DuerOS 就已拥有 10 大类别(影音娱乐、信息查询、生活服务等)的 100 多项原生技能。发布开放平台后,DuerOS 将支持第三方资源和内容接入,这些技能也将上线到「小度之家 APP」当中。

百度的 DuerOS 开放平台提供了整套软/硬件的开发服务和技术支持,除此之外,该开放平台还可以接入 Alexa 等其他语音服务平台。

为证实小度(DuerOS)开放平台的实力,在这场开发者大会中,景鲲不遗余力的向各位开发者和厂商展示百度的优势以及这几年来的技术积累:

数据层面,百度拥有亿级用户请求、十亿级的知识图谱实体、语音调用和音频数据、千亿的图片和网页等数据;

技术层面,百度在深度学习、自然语言处理技术、多轮对话技术、搜索技术等方面具有深厚的实践经验积累,其中,由百度硅谷人工智能实验室研发的深度语音识别系统 Deep Speech 2 被『MIT 科技评论』评为 2016 十大突破技术之一,另外,百度还全资收购有助于语音唤醒和自然语言理解的硅谷初创企业 KITT.AI。

毋庸置疑,强大的数据、搜索能力使得百度能屹立在所有国内企业之间,而语音语料、知识问答等研究材料、应用也很大程度上需要依靠这方面能力的积累。

从 DuerOS 以及自动驾驶平台「Apollo 计划」的发布这件事看来,百度这次将砝码基本都放在了人工智能上,并押宝自动驾驶和语音这两个领域的操作系统,目标分别是成为「汽车界的安卓」和「中国版的 Alexa」。

02/ 阿里 AliGenie 系统

在「百度 AI 开发者大会」举行的当天,阿里也在另一头宣布了他们在智能语音入口上的布局。与亚马逊类似,称霸国内电商界的 阿里也将其研发的语音助手首先赋能在智能音箱这个硬件品类上,发布国内首款购物音箱——天猫精灵 X1,并以 499 的价格碾压国内外动辄千元的智能音箱设备。

▲ 天猫精灵 X1

与亚马逊 Echo 相仿,天猫精灵 X1 成为了为天猫购物平台导流的重要利器,另外,在智能音箱这样的风口下,阿里也顺势步上亚马逊的后尘,让用户从网络消费开始用上该音箱背后的中文人机交流系统 AliGenie。AliGenie 由阿里巴巴人工智能实验室(A.I.Labs)研发,集声纹识别、声纹购、NLP 中文对话引擎等重要技术于一体。

在发布天猫精灵 X1 购物音箱的同时,阿里透露了即将把 AliGenie 开发者平台开放给开发者、智能家居厂商、硬件生产商等的部分信息:

AliGenie 开发者平台将主要面向内容开发者、应用开发者、智能家居开发商和硬件生产商这四种类型的开发者。开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。

▲ AliGenie 合作伙伴

AliGenie 目前涵盖音乐音频、家居控制、购物充值、儿童教育、技能市场等功能,随着更多功能的开发和第三方开发者的加入,功能将不断扩展。

AliGenie 开发者平台将开放深度学习、自然语言处理、搜索/推荐算法、知识表示及推理问答系统等重要核心能力。

通过 AliGenie 开发者平台,开发者可以链接到阿里生态体系中的数亿消费者和海量的生活和商业场景。

目前,AliGenie 的开放平台仅开放给内部及其合作厂商,关于平台进一步开放给个人开发者等详细信息,阿里将会在今年 10 月份的阿里论坛中公开。

以此看来,AliGenie 语音系统主要发力语音交互的终端和应用。从阿里身上,也有着能与亚马逊匹敌的电商能力。另外在相应的技术打磨上,AliGenie 的搜索/推荐算法、声纹识别、声纹购也得到了体现。

03/ 腾讯云小微

腾讯云的语音智能平台「小微」于今年 5 月 22 日上线内测,在 6 月份的腾讯「云+未来」峰会上,腾讯云小微正式发布

腾讯云小微包括硬件开放平台、Skill 开放平台和服务机器人平台三大框架

▲ 腾讯云小微介绍

硬件开放平台部分,小微提供了包括麦克风阵列算法、唤醒系统、声纹分析、图像识别等能力在内的完整框架,让语音硬件厂商能够在不需要额外技术投入的情况下赋予硬件产品语音交互和智能能力。

Skill 部分,平台已内置 QQ 音乐、企鹅 FM、腾讯视频等腾讯的原生应用,以及天气、新闻、笑话等服务内容,第三方开发者也能在平台的基础上创建自己内容。

▲腾讯云小微三大框架分别接入的应用、设备、服务

此外,通过 QQ 物联,小微可用于控制连接该平台的家电设备,同时,与艾拉物联、机智云等物联网平台合作,小微也能实现对这些平台连接的设备进行控制。

相比百度、阿里,腾讯在内容、社交方面有着突出优势,包括腾讯新闻、动漫、音乐、有声读物等。据了解,腾讯云小微的技术研发涉及腾讯内部的 QQ 物联团队、微信人工智能团队、腾讯 AI Lab 团队、社平团队、优图团队、腾讯音乐、腾讯视频团队部门。

这么看来,打造这么一个语音操作系统,腾讯已几乎动用了所有内部的内容生产团队。腾讯虽在技术上没有特别突出的表现,但在连接万物、内容生态建设上有良好先天基础。

纵观 BAT 这几家公司,基本上是依托原有业务将语音技术及操作系统发展起来,语音生态建设也一定程度上有助于各自的优势资源的转化。而能否做成「中国版的 Alexa」,各家有各家的优势,但好在国内目前还没有真正称霸语音界的老大。

这几家公司均可利用其在调动资源、人才等方面的能力。在专注于深度的技术研发方面,有足够的研发能力且能承担较长周期所带来的成本,又或者直接收购某个垂直技术领域的初创公司。

在语音平台布局这件事上,国内以语音助手、语音识别等起家的科技公司也有相应动作,包括科大讯飞、思必驰、云知声、出门问问、Rokid 等。

以语音、语义技术、相关硬件起家的企业:从技术出发,去逐步解决问题

04/ 科大讯飞 AIUI

作为国内最早一批从事语音技术研发的企业,自 1999 年成立以来,科大讯飞已在语音领域深耕了近 18 年的时间,并在语音转文字、实时翻译、方言识别等技术有重大突破,还占据了中文市场 70% 的份额。

2010 年,科大讯飞推出讯飞开放平台,主要提供包括语音合成、识别、语义分析等一系列基础技术在内的 AI 能力。

一直以来,科大讯飞专注于服务 B 端市场,因此积累了不少客户及合作伙伴。截至今年五月底,讯飞开放平台已跟 35 万开发者达成合作,开发出了将近 30 万个应用项目,覆盖了 10 亿多个终端上。

今年 6 月份,科大讯飞现正式推出 AIUI 开放平台,与相对综合的讯飞开放平台不同的是,AIUI 开放平台基于原先讯飞开放平台生态圈,着重将人机交互的能力向合作伙伴开放,面向垂直领域提供场景交互解决方案。

AIUI 开放平台融合麦克风阵列、语音唤醒、语音识别、语音理解等单点能力,结合信源和第三方服务的接入,形成了一站式的人机交互解决方案。同时,AIUI 开放平台提供音乐等深度定制的通用技能,开发者可根据不同应用场景自定义问答库,打造个性定制化的服务和功能。

除了多年在不同类型硬件接入上的丰富经验和技术实力,科大讯飞的方言识别能力算得上是业内最权威且最全面的(预计覆盖到的方言将达到 20 多种),这使得 AIUI 也具备这样能力,让开发者可实现方言引擎的自由切换。

另外,作为国内高考、语言水平测试等教育领域的重要技术支持方,科大讯飞在教育内容方面也拥有相当的优势。

05/ 思必驰 DUI

2014 年,思必驰率先在推出国内第一个口语对话系统平台「思必驰对话工场],该平台也成为思必驰将于今年 8 月底上线的「DUI 开放平台」的雏形

目前 DUI 开发平台已成为思必驰重要战略之一,据了解,其内部光是专注该项目的员工就已经超过 100 人。

思必驰 DUI 开放平台主要着眼于任务型对话,「以对话为核心、高可定制、一站式开发」是其主要关键点。

▲ 思必驰「DUI 开放平台」内测版本页面

可视化的编辑界面使得非专业人士也能快速上手,全流程的定制化(包括唤醒词、语音模型、合成音的定制)满足了不同开发者的需求。

凭借多年来在硬件接入、物联网领域内的耕耘,思必驰也积累了大批用户群体。推出 DUI 开发平台,思必驰的意图在于实现客户由需求方向开发方的转变,另外也着重鼓励个人开发者丰富平台的语音技能等内容。

要说 DUI 开放平台的主要优势,那就是其推出的基于语音、文本对话交互的可视化大数据平台。

▲DUI 基于语音、文本对话交互的可视化大数据平台

利用该平台,开发者可自定义周期、维度、范围查看平台的实时数据,包括用户、地区、流量情况、活跃数等。而这样的实时数据展现能力是目前业内所没有的。

06/ 云知声

云知声是一家专注于智能语音识别及语言处理技术的移动互联网公司,主要提供智能家居、智能车载、智慧医疗、智能教育等语音技术解决方案。另外要提的是,云知声还是国内第一家深度学习引入到智能交互领域、发布永久免费的语音云平台的公司。

云知声开放平台融合语音识别、语音理解、语音合成、音频拼写等服务。针对垂直特定场景,云知声打造了智能电视、智能车载、音乐搜索、视频搜索、购物搜索、语音搜索、音频转写等语音交互应用方案。

▲云知声开放平台的各类解决方案

云知声借助云计算平台和移动互联网技术,广泛在移动互联网、智能家电、可穿戴设备、车载导航、医疗、教育、呼叫中心等领域,能够实现用户与设备及设备与设备之间的互联互通,更大范围的帮助传统行业实现互联网化。

07/ 出门问问

在可穿戴领域内,在国内最早涉足语音交互的则是出门问问这家公司(国外的则是 Google)。

从发布具备语音交互能力的智能手表后,出门问问陆续推出问问魔镜 Ticmirror(智能后视镜)、问问魔眼 Ticeye(ADAS)车载产品,将语音技术打入智能车载领域。

在今年 4 月份的发布会上,出门问问推出中国首个多场景全覆盖虚拟个人助理「问问」,并同时推出针对 B 端客户的、基于「问问」虚拟个人助理的免费 AI 开放平台(ai.chumenwenwen.com),旨在定义下一代人机交互方式。此外,该发布会公布的「问问」智能音响 Tichome 是出门问问迈进智能家居领域的重要标志。

目前,出门问问的 AI 开放平台通用版已向开发者和硬件厂商全面开放,开发者只需登陆平台网站注册就可立即下载集成 SDK,让产品获得 AI 技术赋能。

与其他主要提供语音技术解决方案的厂家相比较,出门问问的优势在于,不仅拥有长期积累的 AI 核心技术,在软硬件消费级产品方面还具备丰富经验。

08/ Rokid

与出门问问相类似,Rokid 从一开始就选择一款硬件作为智能语音的入口。在亚马逊 Echo 大热的背景下,Rokid 当机立断的从家庭机器人着手,于 2015 年下半年推出旗下第一款桌面机器人产品——Rokid.Alien(外星人)

接着,在时隔 Rokid.Alien 发布后一年半后,Rokid 发布了 Rokid 第二代产品 Rokid.Pebble(月石)

与 Rokid.Alien 不同的是,Rokid.Pebble 在硬件设计方面采取了更轻量的方案,使得对应的成本、销售价格得到大幅度降低,旨在进一步开拓消费者范围。

与亚马逊 Alexa 等从一开始卖硬件再到开放语音技术、软硬件接入平台的厂商相仿,Rokid 也在发布 Rokid.Pebble 后计划开放 Rokid 智能语音,将 Rokid 的技能和语音服务智能集成到开发者和硬件厂商的产品中,为应用程序和设备添加创新独特的自然语言交互体验。

因 Rokid 智能家庭机器人产品的属性,Rokid 在语音交互、机器人情感方面等进行了持续的研究并有相应的独特优势。

值得一提的是,Rokid 的第一代产品 Rokid·Allien 虽然吸引了一批天使用户,但这批用户的范围相对狭小,在数量上也不占优势。Rokid.Pebble 今年 5 月登陆天猫后,宣传攻势就开始从小众的极客产品发烧用户,试图转向大众用户。创始人本人,也亲自带着研发团队的博士们,蹲点线下店。Rokid·Pebble 能否可以利用亲民的价格(虽然已经比一代亲民很多,但也是一个四位数的高价)拓宽用户量,以进一步拓宽平台的知名度,还是个有待考验的问题。

09/ 图灵 Turing OS

致力于「让机器人理解世界」的图灵机器人(以下简称图灵)是一家以语义技术为核心驱动力的人工智能公司,主要对外提供机器人开放平台、机器人 OS 和场景方案。

2012 年,图灵发布全球第一款中文语音助手应用——虫洞语音助手。接着在 2014 年,图灵发布人工智能机器人平台。

2015 年,依据以往数据积累以及人工智能技术成果,图灵针对服务机器人市场推出了首个人工智能操作系统——Turing OS,该系统的引擎融合了图灵智能语音技术。

2016 年 7 月,时隔 Turing OS 发布 8 个月,也就是在首届图灵机器人创新大会上,图灵机器人发布了升级版的 Turing OS 1.5,该系统在原有版本的基础上强化了运动控制功能,并增加人脸识别、物体识别等视觉能力。在语音方面,Turing OS 1.5 则能更好地支持原厂的语音识别、唤醒、语音消噪等。

在今年最近的一场发布会中,在智能玩具领域有丰富经验积累的图灵发布了 Turing OS 专为儿童领域提供的 Turing OS Kids 版本,主打儿童语音对话应用。此外,图灵还专为智能硬件提供 Turing OS Lite 版本,意在将智能语音植入到各个垂直领域的硬件产品中。

据悉,图灵是国内最早发布机器人操作系统的公司,截至目前,图灵机器人的注册开发者数量已经超过 60 万。

▲国内语音 OS 一览表(由于国内做语音 OS 的企业数量较多,本表格仅节选部分具有代表性企业)

小结

以上主要罗列了国内部分做语音开放平台、布局语音 OS 的企业。从企业的类型来看,主要是互联网科技巨头,以语音、语义技术起家的公司,或者是语音智能硬件厂商。

以智能家居为代表的物联网应用正走进千家万户,语音技术的成熟为物联网的智能化连接提供了重要支持,通过语音指令这样的操控方式,能提升用户在物联网时代的智能生活体验。

在互联网、移动互联网时代,键盘、鼠标、多点触控等人机交互方式占据了主导地位,因此,以 PC(Windows、MacOS)、手机(iOS、Android)端等相关的操作系统及应用成为开发者的主要任务。

如今,智能语音已成为智能音箱、空调、冰箱、汽车、机器人等智能设备的其中一个信息入口。同样的道理,围绕语音这个新型交互方式的系统及应用的开发任务也就被提上了日程。不管是 BAT、语音相关的初创企业都不想错过这个风口,并纷纷着手布局。

与以往 PC、手机等主要依靠屏幕这单一的信息呈现方式不同,语音能在软件应用、硬件等不同载体中呈现,因此拥有更广阔的拓展空间

而从以上企业的平台布局情况上看,各家的语音平台路数均有章可循,其中大多与自身所发展的业务息息相关,并主要发挥自身在行业上积累的经验和资源优势。同时,各家的语音平台也都涵盖了许多有共同性质的内容。

目前,在国内智能语音行业内,并没有绝对的领先者,每个技术商均在某个领域有自己擅长的地方,AI 行业的机会还很大,BAT 从大着手,我们垂直技术厂商会从技术出发,去逐步解决问题。」曾接受深圳湾采访的思必驰市场总监龙梦竹曾这么说道。

不管是在国外领先的 Alexa 以及 Google、Cortana,还是国内 BAT、科大讯飞、思必驰、云知声等企业之间,都弥漫着一股由语音操作系统之争带来的硝烟味,而各家的开放平台及相应的开发者、内容就相当于它们的士兵和武器,在目前还未分胜负的状况下,它们各自都在储备自己的战略物资。

Back to top btn