Uploads%2farticles%2f13675%2fwkgbjf3tt qajygdaaqrw3h504u781
|
2019-12-11

中科院横评了 8 款主流智能音箱,百度智能音箱各项评测数据排名第一

看完深圳湾以往对各家智能音箱的体验评测后,再看看研究机构怎么说吧~

近日,中科院物联网研究发展中心发布了一份《智能音箱的智能技术解析及其成熟度测评》,对国内流行的一些智能音箱的技术成熟度,进行了一次综合性的对比测评。

中科院物联网研究发展中心挑选了 8 款主流智能音箱设备,包括国内互联网公司的领头羊,BAT(百度、阿里、腾讯),和以互联网模式进行硬件销售的小米所主推的智能音箱产品,具体型号分别是:

它们分别以其独到的技术特点展示在不同领域的各自优势:小米的智能家居生态可以随时让用户通过音箱控制米家设备;阿里背后坐拥的海量电商数据配合智能音箱设备让网上购物拥有了全新的体验;而百度背后则拥有着全国最大、最强的搜索引擎系统和人工智能技术作为其坚实后盾。

中科院选择了两处测试实验场地,知行大厦的小型会议室、中科院物联网研究发展中心的小型会议室。并邀请中国科学院微电子所、自动化所、声学所的志愿者全程进行测试和监督。执行测试的志愿者都尽量使用标准普通话进行测试,语速中等,且只记录最多尝试 3 次之后的效果。共计测试了 8240 次对话。

评测标准

中科院为 3 大智能技术量身定制了 3 个评测标准。语音识别技术(ASR)对应的测试标准为「准确度」,自然语言理解(NLU)对应的测试标准为「召回率」,对话管理(DM)对应的测试标准为「满意度」。具体而言:

识别准确度:语音识别正确与否,就是评估评测者用目标集合直接在设备上发起语音需求,通过设备返回的识别结果判断,语音识别是否正确。对单个 Query(问询)而言,完全正确 1 分,部分正确 0.5 分,完全错误 0 分。为了避免不同评测者语音发音带来的偏差,要求同一 Query 由同一评测者评测 4 个音箱,每个音箱最多可以尝试 3 次,均以标准普通话来请求。

理解召回率:即判断用户表达的意图,与设备返回的意图是否一致。对单个 Query 而言,一致为 1,不一致为 0。

体验满足度:将体验满足度分档定义为如下 4 档:

  • 1分:对用户需求整体满足度较好
  • 0.5 分:部分能满足用户需求,但是有优化空间
  • 0 分:完全无法满足用户需求
  • -1 分:不仅无法满足需求,还对用户带来了负向体验

对这三个测评标准来说,首先是精确度,主要是评价测试人员对设备发出命令后,设备是否识别出了用户说的内容。

其次是召回率,针对测试人员询问的问题,设备是否能做出正确的反应,例如:「播放王菲的《红豆》」,当音箱做出播放动作或者提示没有找到王菲的《红豆》可以认为是听懂指令,召回率均的 1 分。

同时,成功播放的满足度也得 1 分,提示没找到的满足度给 0 分。但是如果没有做出提醒直接播放其他人的《红豆》或者未播放,满足度记 0 分。对于确实是播放的王菲演唱的《红豆》,但是,音频质量不好的情况,则将满足度记录为 0.5 分。

对于外接设备的问题,如果回答暂时不支持,召回率和满足度都直接记录为 0 分,回答听不懂会进行一次重复,如果 3 次都听不懂则将召回率和满足度均记为 0 分,根据这种评分细则进行测试和打分,测试人员轮流测试并打分,最后统计所有分数。

评测结果

中国科学院志愿者评测结果:

1. 测评 query 分布情况具体如下:

无屏音箱的测评 query 主要分布前三类的分别是,音频类 58.44%,设备控制类 14.93%,信息查询类 10.24%。

有屏音箱的测评 query 主要分布前三类的分别是,视频播放类 32.34%,音频类 23.89%,设备控制类 23.79%。


2. 整体评测数据具体如下:

听清:

在以 ASR 识别率为主要指标的「听清」环节,不论是无屏音箱还是有屏音箱,4 家主要厂商没有明显差距。有屏音箱的 ASR 识别率整体优于无屏音箱。

从无屏音箱维度看,4 家主要厂商 ASR 识别率均达到 94% 以上。其中,小度音箱识别率 98%、天猫精灵为 97%、小米小爱为 96%、腾讯音箱为 94%。

从有屏音箱维度看,4 家主要厂商 ASR 识别率均达到 96% 以上。其中,腾讯叮当、小度在家 1S 分别以 98.6%、98.5% 微微领先其他厂商。天猫 CC ASR 识别率为 96.90%,小米有屏 ASR 识别率则为 97.70%。

听懂:

在以召回率为主要指标的「听懂」环节,有屏音箱的召回率略高于其对应的无屏音箱。而小度系列智能音箱是唯一召回率超过 90% 的产品,天猫精灵、小米小爱的召回率也达到 70% 以上。

无屏音箱方面,小度音箱以 90.20% 的表现排名第一,天猫精灵和小米小爱的召回率分别为 87.4% 和 85.6%,腾讯音箱的召回率则为 73.1%。

有屏音箱方面,小度在家 1S 以 92.90% 的排名第一,其后紧跟天猫 CC 召回率 74.30%、小米有屏召回率 76.10%、腾讯叮当召回率 78.4%。

满足:

在满足用户体验的环节,有屏音箱的用户满意度表现低于其无屏音箱。其中,小度系列智能音箱在有屏与无屏音箱方面都拔得头筹,评测者满意度高。天猫、小米等还有一定提升空间。

无屏音箱方面,小度音箱用户满足率为 81.6%。天猫精灵和小米小爱的用户满足率为 74.2% 和 74.9%。腾讯音箱的用户满意度较低为 59.7%。

有屏音箱方面,小度在家 1S 的用户满足率达到 86.9%。天猫 CC 和小米有屏满足率分别为 62.8% 和 67.1%。腾讯叮当的用户满足率达到 4 家平均水平,为 70.3%。

资讯来源:中科院物联网研究发展中心(内容略有删减)

编辑:森林木 / 深圳湾

>>
Back to top btn