Uploads%2farticles%2f11836%2f      .009
|
2017-10-19

叮咚魏强:解构国产 AI 音箱的软硬件设计、困境与出路 | 超级硬课堂

前言:

今年 4 月 、7 月,深圳湾先后两次启动了「语音智能·平台与应用峰会」,并陆续推出超过 100 篇深度报道,并通过深圳湾社区、微信公众号、及知乎等平台得到广泛传播,在国内首次引发了全行业对于语音智能热潮的系统和全面的思考,收获了业界无数的赞誉。

在广大行业用户的簇拥下,我们开始了新的尝试:联合知乎 Live,陆续推出「深圳湾·超级硬课堂」系列课程线上版,邀请软硬件领域的先行者和实践者,围绕行业热点,一一解读。10 月 16 日,我们邀请了深圳湾的老朋友——北京灵隆科技 CEO 魏强博士做客「深圳湾·超级硬课堂」,从多个角度解读语音交互产品的软硬件设计。

魏强博士 2004 年获得日本京都大学工学博士学位。现任京东和科大讯飞合资公司北京灵隆科技有限公司总经理,负责公司运营、智能硬件相关多条产品线的设计、研发和生产。曾任松下电器音视频产品总监、京东智能集团产品总监、期间主持了智能家居、智能家庭私有云等多款产品的研发工作,具有丰富的人工智能、图像语音技术及相关产品研发经验。魏强博士是叮咚系列智能音箱的总设计师,是国内最早做智能音箱、并实现智能音箱量产的第一人。

什么是智能音箱,智能音箱有哪些基本功能,一台最简单的智能音箱也要整合哪些上下游产业链资源,软件尤其是硬件技术有什么要求,声学结构的设计有哪些要点,国内和国外智能音箱系统模式有何异同,以及未来会怎样…… 这个课程详细覆盖和讲解了这些问题。

背景 | 亚马逊 Echo 引领的智能音箱浪潮

2014 年 8 月,智能音箱鼻祖 Echo 问世。可能连亚马逊自己也没想到,这款小小的语音设备日后会掀起一股巨大的 AI 音箱浪潮。

Echo 经历了一段时间的潜伏期,于 2015 年 9 月突破 100 万销量;到了 2016 年 4 月,高性价比 Dot 的推出促使 Echo 系列产品销量呈几何倍数增长;截止今年 9 月已突破 1000 万台销量,为亚马逊贡献了近 10 亿美元的收入。

Echo 的成功刺激顶级科技公司纷纷布局抢夺智能语音交互入口权,其中最具代表性的便是同来自硅谷的 Google Home、微软 Invoke 及苹果 Home Pod。


不久后,这股硅谷音箱热就蔓延到了国内:

除了最早于 2015 年推出的叮咚 A1,联想、喜马拉雅、阿里巴巴、小米等厂商均于 2017 年推出了智能音箱产品。

魏强博士认为之所以各大厂商都如此重视智能音箱这个单品,主要有两个原因:

一是抢夺智能家居等场景化应用的语音交互入口;

二是随着 AI 技术的兴起,智能音箱背后的语音及大数据技术,成为各大顶级 AI 公司训练人工智能很好的硬件平台。

定义 | 智能音箱的四要素及基本功能

在经历了 PC、移动两次信息化变革浪潮之后,人类如今已经跨入了人工智能时代,使得具备语音、图像等智能交互能力的智能助理逐渐成为主流。

电子芯片、麦克风器件 、WIFI 模块等硬件成本的降低,以及语音技术的逐渐成熟,为智能音箱的诞生奠定了底层基础;而伴随着物联网智能家居渐趋平台化,以及各类音频资源丰富,更便捷的交互方式亟待出现。

目前业内对于智能音箱尚没有一个统一的定义,但魏强博士认为只要符合具备语音交互能力、可提供内容服务、可提供互联网服务以及可场景化智能家居的控制能力等四个要素的设备,就能称之为智能音箱。

智能音箱的功能设定体现在四个方面:

  • 有声资源:主要为音乐、有声新闻及有声读物,如百度音乐、喜马拉雅 FM、今日头条等;
  • 智能家居:一是与大的智能家居平台进行合作,如京东微联、美的家居、海尔 U+ 等;二是接入有自动化控制需求的单点设备,如飞利浦智能灯泡;
  • O2O 服务:通过语音化的方式提供互联网服务,如京东购物、快递查询 、KFC 订餐等;
  • 生活助手:提供日常便捷的基本生活服务,如设置闹钟、日历、备忘等。

总的来看智能音箱是一个定位于家居场景的服务端口,除了传统手机具备的部分服务,还能提供一些以语音交互方式为主的新型服务。

由于语音智能尚处于刚刚起步阶段,语音技能服务并不全面,对此叮咚也推出了开发平台,并提供完善的开发文档,及明确语音交互设计核心原则,帮助第三方(包括企业与个人开发者)开发更好的语音交互服务。

技术 | 智能音箱不仅是单独的个体,更是技术+产品+服务的资源整合

一台看似小小的智能音箱,却需要应用到超过 600 个电子器件,近 100 家上下游供应链合作厂商,从研发到批量生产,周期耗时数月甚至长达一年。

这其中不单单是语音核心技术的研发工作,还包括产品结构的设计及服务资源的整合。

核心技术以麦克风阵列为例。目前市场上的麦克风阵列技术主要分两大类:

一是波束成形技术,即通过麦克风阵列划分空间波束区域,选择能量最大的波束进行唤醒识别;另一种则是 TDOA 技术,即通过计算声音传播到麦克风的时间差,来计算出说话人的物理位置及角度。

在智能音箱的产品结构设计上,则需要考虑到麦克风阵列(拾音设备)与扬声器(发音设备)间的位置关系麦克风阵列板本身的柔性抗震设计及扬声器的声波平衡设计三个要素,以防止喇叭发声带动麦克风震动,影响麦克风的拾音效果。

而在服务层面,则是对基于语音交互能容的资源整合。例如音乐内容,首先要对每首歌结构化处理,打上如歌手、年代、情感类型、适用场合一类的标签,然后根据拾取的用户语音指令判断其意向内容,进行个性化推荐。

除了音箱本身,音箱与其他设备的联动也是一个重要因素,例如与智能电视的视频 APP 联动后,可通过语音点播电视节目,减少用户通过遥控器繁琐的操作。

市场 |  国内依然处于起步阶段 ,WIFI 品类音箱增长最快

尽管已是群雄并起,但国内的智能音箱依然处在逐渐从传统的多媒体音箱向蓝牙音箱和 Wi-Fi 音箱过渡的起步阶段。

蓝牙音箱占整体音箱市场 39% 市场份额,得益于客单价逐步降低及产品线不断丰富等因素,目前正以 33% 的速度迅速增长。

相较而言 WIFI 音箱品类尽管占比较小,但增长速度最快: 2016 年销量同比 2015 年增长 335%,其中占据先发优势的叮咚音箱系列占比 WIFI 音箱品类 79% 的市场份额,位列 WIFI 类音箱细分市场第一。

根据叮咚音箱在京东商城的销售数据,主要的用户层画像体现出四个特点:

  • 男性占四分之三;
  • 25- 45 岁为主力购买人群;
  • 北上广深为主;
  • 白领及金领人士为主要消费人群。

这些特点体现出智能音箱消费者的两个关键特质:购买力与兴趣度。另一个数据很有意思,用户群体的 47. 2% 集中在东部沿海省份,并且促销敏感度高达 91%

此前叮咚音箱供应链负责人毛占伟也曾在深圳湾采访中提到,在 618 及 双 11 等促销大节音箱的销量会高很多。高度的价格敏感性也使得各音箱品牌商正在大力备战即将到来的「双 11」购物节。

问题与展望 | 国内外差异大,各平台间需联通合作

整体来看,各大品牌厂商基本都是采用依托本身优势,找到合适切入点进军智能音箱市场的策略。

例如亚马逊整合了十分全面的音乐内容及电商能力,谷歌的强项在于搜索与数据,苹果关注优质的音乐服务,微软积累多年的聊天数据则能提供更好的对话体验……

国内玩家同样如此:

与硅谷玩家相比,国内的智能音箱行业还存在很多问题,例如用户对智能音箱产品的认知薄弱、有声内容良莠不齐、语音技术识别率及响应速度均需进一步优化完善……

但其中最不可忽视的一点是:

亚马逊、谷歌、微软、苹果等硅谷巨头,均具备独自完成音箱产业链资源整合的能力;国内尽管也有大牌互联网公司,但绝大部分商家产业链单一,只是占据技术、内容等某一单项优势,无法形成全产业链布局。

总的来说,智能音箱目前国内主要公司都在做,依托各自在资源、技术、供应链、内容各方面的优势,打造出各有特点的智能音箱产品,为智能音箱发展做出各自的贡献。但想要进一步打造好的智能音箱产品,还需要需要各个平台的联合打通,提供更好的互联网服务。

Q&A |  知友提问

在魏强博士的课程结束后,我们接受到大量知友的踊跃提问,下面摘取了其中部分问题及回答:

1、 魏总您好,请问 WIFI 与蓝牙音箱比优势在哪里?

答:蓝牙音箱是一种音乐播放设备,通过音乐源传输有声内容,然后通过扬声器播放出来;相较而言 ,Wifi 传输带宽更高,能更高品质传输音乐,能通过手机或其他音乐源设备传输,也可以直接连接音乐后台,因此可以用于户外场景。

2、 哪些智能音箱应用或第三方智能硬件属于高频应用产品?

答:语音应用中新闻类、音乐、天气预报类比较常用,早晨使用频率较高。第三方智能硬件中智能灯、智能插座、智能空调等用的比较多,智能家电设备由于普及率低,使用活跃度普遍不是非常高。

3、 麦克风矩阵 6/8 麦与 2/4 麦比,哪个会是未来趋势?

答:麦克风阵列远场会优先选用 6、8 麦克风阵列,双麦或四麦主要针对距离要求不高,追求性价比的产品。

4、 智能音箱会不会考虑添加数据卡,如 4G 流量卡或物联网卡?

答:未来会考虑加上数据卡。一是解决联网需求,特别是小白用户,联网操作多会让他们觉得麻烦。加上 4G 卡后会使得应用更简单,也能满足户外的应用需求。

5、 怎么看语音技能市场?

答:国内刚刚起步,大多技能是平台厂商自己开发提供,希望更多开发者能够一起参与开发过程,能针对不同的用户需求,开发出用户真正需要的语音应用。

深圳湾联合知乎 Live 线上课程:又现音箱——对话智能音箱先行者,解读语音交互产品的设计。欢迎各位朋友点阅查看图文+音频全程回顾!

Back to top btn