喜马拉雅组局攒音箱,猎户星空蓄势抢入口,语音智能风口从何而来?
从幕后走向台前,这里是一些关于阿里 AI 音箱的靠谱猜想
看不懂的马云,看得懂的阿里 AI 帝国。
今天一早,整个媒体圈就被阿里巴巴要推出智能音箱的消息炸开了锅。
先是根据外媒科技网站 The Information 的爆料,阿里巴巴将在下周推出一款语音智能产品,这一产品很可能就是一款智能音箱。
之后各大媒体纷纷晒出发布会邀请函,明显与语音相关的主题词,以及那个按下去会说出「我在,你说」的人声按钮设计,就更加明显的暗示了这一款新品的身份。
不过,邀请函抬头上的「阿里人工智能实验室」引起了我们的注意,此前并未有阿里官方介绍过这一实验室的信息。随后,新浪微博上一个名为「阿里巴巴人工智能实验室」的账号今天上午 10 点发布了第一条微博。
微博配了一条有趣的小视频,暗示阿里即将发布的新品,动动嘴就可以询问它天气、闹钟、星座等信息,还可以用来点播语音节目。
至此已经基本可以敲定,这就是一款智能音箱。
就月初,苹果在开发者大会上推出了 智能音箱产品 HomePod,标志着国外智能音箱正式进入大国纷争的时代。而在不久前深圳湾(公众号 ID:shenzhenware)分享的 国内第一篇针对语音技能商店的深度报道 后面,很多眼尖的观众发现并没有 BAT 的身影。
事实上直到我们发稿一周后,腾讯才正式推出腾讯云小微语音智能平台。而此次阿里巴巴的新品若不出所料真是一款智能音箱,就意味着中国以 BAT 为代表的互联网公司也正式拉开在智能音箱领域的竞争帷幕。
而面对这样一款几乎可以确定了是智能音箱的产品,深圳湾也做出的一些大胆猜想:
猜想一:这款产品从技术布局上会对标亚马逊 Echo?
作为目前中国最大的电子商务和云计算公司,不管是商业地位,还是业务架构,阿里巴巴在中国的地位与亚马逊在美国的地位十分相仿。而最近这两家公司也正在近乎神同步的开始大规模并购线下商超,开始一种新的零售模式的探索,在某种程度上来说,他们之间是一种既存在竞争,又在相互借鉴与学习的关系。
不同的是,亚马逊除了电商业务,在硬件方面也有着卓越的表现。内置 Alexa 智能语音助手的亚马逊 Echo ,目前销量逼近千万,独占美国 70% 的智能音箱市场。而 Echo 的背后,更是整个以 Alexa 为中心缔造的智能家居生态。
在互联网之后,人们普遍认为下一幕发展红利会是以语音交互为典型交互入口的物联网时代。对于诸如百度、搜狗等有搜索引擎基因的公司,以及以阿里与京东为代表的电商公司,这个入口显得极为重要。
好在,亚马逊 Echo 目前并不支持中文语音交互,暂时看起来也并无进军中国市场的迹象。这就给了阿里巴巴很好的发展机会。鉴于两家公司类似的地位与业务需求,我们认为阿里对这款产品的战略定位会是中国的 Echo。
猜想二:国内的竞争将瞄准京东旗下的叮咚音箱?
在世界级的巨头公司中,只有苹果 HomePod 附带的 Siri 支持中文交互。不过作为苹果首款音箱设备 ,HomePod 已经巧妙地避开了亚马逊与谷歌在智能家居领域的锋芒,主打音乐体验,再加上高昂的售价,即使这款产品进入中国,也一时不会成为主流的智能音箱消费产品。
这样一来,阿里在国内最大的竞争对手就是目前国内市场占比最大的叮咚音箱了。叮咚音箱的背后是京东与科大讯飞,最近新发布了叮咚二代与叮咚 Top 两款低价音箱,在性能上也较之前的音箱产品有了很大的改善。
京东是国内电商体系最像亚马逊的公司,从自建物流体系,到布局智能家居,再到联合科大讯飞成立合资公司开发智能音箱,其发展的轨迹背后都能看到亚马逊的影子。而近几年京东发展迅猛,今年 618 销售战绩直逼去年天猫双 11 的 1200亿,市值也直逼百度,大有改变 BAT 格局之势。
这些迹象也让阿里巴巴不得不重视这个对手,开始从各个业务线对京东进行狙击。而此次的阿里语音产品新品的发布,与其说是与叮咚音箱的直面竞争,倒不如说是一场在智能语音领域,与京东进行的一场长线赛跑。
猜想三:这款产品可能出自阿里的哪个部门?
我们都知道阿里巴巴有个神秘的 iDST (数据科学技术研究院)部门,成立之初的使命就是致力研发国际领先的大规模机器学习和语音、自然语言、图像及视频处理技术,目前这个部门已经挖来了很多在国际上颇有声望的技术专家,其中包括原亚马逊资深主任科学家任小枫。
如果将阿里巴巴比作一个巨大的数据仓库,那么 iDST 就是负责梳理、筛选、开发与应用这些数据的角色。而 iDST 旗下的智能语音交互团队,也聚集了一批语音领域的大牛。
根据 iDST 智能语音交互团队总监鄢志杰在一次采访中的介绍,目前阿里巴巴已经开发了一套智能语音交互平台,能作为交互链接入口为家用电器、机器人等智能设备提供天气信息、音频内容及外卖叫车等一类服务。而语音能力都会通过阿里云输出。
虽然目前「阿里人工智能实验室」与 iDST 之间的包容关系尚不明朗,但可以肯定的是这款产品与鄢志杰主管的语音技术有所关联,并且这些语音技术是由阿里巴巴自家开发的。
阿里巴巴是一家业务十分庞杂的公司,可能大部分人都是跟随着马云天马行空的演讲来了解阿里巴巴的进展情况。但到目前为止,马云却很少在演讲中提到自家的语音技术的发展情况。
那么,阿里的语音技术实力究竟怎么样?我们还得从 iDST 的语音技术讲起。
神秘的 iDST 智能语音团队
iDST 智能语音交互团队成立于 2014 年底,成立之后就一直紧锣旗鼓的秘密招募人才,表面行事却十分低调。
根据阿里 iDST 技术社区官方的介绍,目前这支团队已经在语音识别 、语音合成、声纹验证 、自然语言理解及人机对话等核心技术方面完成了系统化的基础建设与积累,并且已经搭建起一套世界一流水平的智能语音交互系统。
对于阿里巴巴内部的同学来说 ,iDST 智能语音交互团队最闪亮的一次登场应该是在 2016 年 3 月的阿里云年会上,阿里云 iDST 团队的实时语音识别系统在现场演讲分享环节,实时挑战世界速记比赛亚军、金牌速录师姜毅。而那时的阿里语音识别系统,就已经具有了如下的技术优势:
- 领先的声学模型建模技术 BLSTM :具有声学模型建模的最佳准确性,及更高的语音识别的准确率,是世界上第一个在工业实时系统中部署 BLSTM 技术的团队。
- 领先的超大规模的语言模型建模技术:借助阿里云的计算优势,使用了全网语料作为训练数据,自主开发了基于 Max-Compute 的并行语言模型训练工具 , 训练产生了规模高达百亿 ngram 条目的超大语言模型(模型文件大小高达数百 G 字节)。
- 业内领先的语音识别解码技术:语音识别解码器是语音识别在工业界部署的核心问题 ,iDST 的同学对语言模型的存贮表示以及和解码器的核心算法以及跟语言模型的交互方式进行了深度的定制,以达到在解码过程中使用超大语言模型的目的。
- 模型的快速迭代和训练:基于阿里云的基础架构,构建了 GPU 集群的多机并行深度学习系统用来完成声学模型的训练。
- 高性能计算支持:在年会当天,使用的 HPC 是阿里云带 GPU 加速的新一代高性能计算平台,单节点计算性能高达 16 TFLOPS,加上算法优化,保证了语音识别的实时响应速度。
如今,一年过去了,积淀的技术终于落地要变成产品。而作为阿里首款消费级 AI 产品,自然是引得万众瞩目。不过在硬件之路上才开始刚刚开始布局的阿里,还有很长的路要走。
阿里的野心,远不止智能语音
正如此前此前深圳湾解读亚马逊 Echo 背后的深意所提到的,对于亚马逊、阿里巴巴这样体量的公司,靠卖硬件能赚取的利益,无异于九牛一毛。他们在乎的,是以硬件作为载体,其背后以语音交互为中心的整个下一代智能生态。
目前巨头的纷纷入场,表面上看来智能音箱市场已经形成了群雄逐鹿之势,其实才刚刚开始。如果语音交互真的会是下一场革命性的交互方式,那么在此时迅速的补充人才架构,搭建好基础技术架构,为下一波技术革命做准备才是明智之举。
今年 3 月,马云在阿里巴巴技术峰会上首次重磅推出「NASA」计划,联合马云提名的机器学习、芯片、IoT、操作系统和生物识别五大核心技术,建立面向未来 20 年的强大独立的研发部门。这一立意宏大颇具太空感的署名计划,在马云心中,就是阿里巴巴要「构建世界第五大经济体」的基石。
而在即将担任人工智能核心团队 iDST 副院长及首席科学家的任小枫看来 ,iDST 正是「阿里巴巴实现 NASA 计划的先锋」。智能语音交互仅仅只是 iDST 旗下的一个分支方向,而此时肩负着阿里巴巴首款消费级人工智能落地的重任,其重要性可见一斑。
关于这次阿里的新品,深圳湾也会在即将举办的 WARE 2017语音智能平台与应用峰会上进行进一步解读。欢迎大家关注深圳湾的后续报道。