Uploads%2farticles%2f11950%2fp1953211411
|
2017-12-05

在和「小爱同学」相处数日后,我发现语音智能把 IoT 盘活了

上周二,小米在北京召开了首届小米 IoT 开发者大会,雷军宣布,在接入 8500 万设备之后,小米 IoT 平台迎来全面开放,包含模块和硬件开放准入、米家 APP 开放接入、新零售渠道开放、智能设备互联互通开放控制和 AI 云、大数据的开放共享。

四个月前,小米的智能音箱「小爱同学」发布时,小米在 IoT 领域的积累为 AI 产品带来的助力就已经显露出来。

作为「小爱同学」的第一批用户,顺为资本投资经理段誉在自己的公众号上,撰文讲述了自己和「小爱同学」的相处时光,以及他对语音智能的一些行业洞见。

本文系段誉的投稿,深圳湾(公众号 ID:shenzhenware)在保留原文内容基础上,对文字进行了部分优化。

段誉,2013 年初加入顺为资本,主要负责考察移动互联网和智能硬件领域的投资机会,曾参与了华米科技、Yeelink、Ninebot、驭光科技等公司的投资。段誉毕业于北京大学经济学院,拥有经济学学士和硕士学位。业余时间,他喜欢健身和越野跑,曾完成了北京 TNF 21KM,宁海 50KM 越野挑战赛等赛事。

故事的开始

前两天朋友跑来问我,如何在自己的豪宅布置智能家居。交流了各种协议走线问题后,我问他控制中心怎么做,这位壕哥提出,打算用美帝的 Control4 的触控面板做中控。

美帝的 Control4 的触控面板

屌丝终于在此刻找到了自豪感,我淡淡地告诉他,自从用了粗粮家的「小爱同学」,家里的无线开关已经开始积灰了,更不用提智能家庭 App 了。

我在「小爱同学」身边发现了语音交互的妙不可言

虽然无法精确度量,但喜欢窝在沙发上看国剧的我,本能地发现说一句「小爱同学,关闭客厅的灯」,要比伸手去找遥控器(或者遥控器替代品)要省时、省力、耗能少。

某声学项目的 FA 曾严谨地比较过不同交互方式的优劣,当然他们的结论是 Voice First(语音交互优先)。而我的理解是:对于不同的指令任务,有不同的最佳交互路径。

对于复杂的长时间输入(例如写这篇文章,或是 coding),目前仍然需要键盘的支持。对于多轮次复杂逻辑的交互,视觉交互的反馈更快,触控也具有一定优势,例如重设一部手机,或是在 App 上买机票。

但如果是单轮轻度输入,语音交互的优势就会很明显,例如,让「小爱同学」帮忙设置早上 7 点的闹钟,绝对是「Killer App」。更有趣的是,在这个场景下,复杂的输入设置——早晨、7点、每天重复、确认——通过语音交互可以一气呵成,妙不可言。

键盘、鼠标、触控屏、语音交互方式比较

我们更喜欢语音交互,并非因为有语音识别技术,或是语音智能对话,而是因为语音交互第一次突破了人机交互距离的限制。能够躺在床上/沙发上随意发号施令,过去只能由「真人助理」来完成,现在可以由设备来完成了。

虽然这些年 Siri 等手机语音助手一直致力于解决同样的问题,但单纯拿起手机按下 Home 键再举到嘴边做这个发号施令的动作,就已经很令人扫兴了,更不要说因为中文对话不够智能,Siri 时不时的答非所问。

除了语音交互技术之外,还有通过视觉或超声波的「隔空手势识别与交互」的技术,但它们相对于同样远距离的语音交互,使用的复杂度和学习成本都太高了。

我在「小爱同学」身后学习了远场语音技术

远场语音交互的一系列功能是如何实现的呢?它和近场语音的区别在哪里?

带着这些问题,我研究了相非老师的技术架构图:

远场语音技术架构,点击查看大图

在进行语音识别(包括本地和云端)之前,有一系列复杂的声学前端算法,包括:


  • 回波抵消(去除音箱自己播放的音乐)
  • 波束形成(只听人说话的那个方向,去除其他方向的干扰)
  • 去混响(去除桌椅板凳的声音反射)
  • 声纹识别(区分爸爸在说还是妈妈在说)

经过这一系列的声学处理,相对「干净」的语音信号才会进入负责唤醒的模型,唤醒之后才会进一步地进入云端负责语音识别的模型。

这一交互涉及到了:

  • 物理硬件层(声腔结构设计,麦克风阵列设计)
  • 信号层(上述声学处理)
  • 后续的数据层(语音识别、NLP、TTS 等)

这三层分别需要物理声学、信号处理、和计算机专业三个领域的人才相互配合,是一个相当复杂的系统工程。

以上这些知识,还只是语音技术层面。作为消费级产品,智能音箱想要达到好的用户体验效果,还涉及到产品层面、以及产品之上应用层面的一系列问题。

智能音箱多维度比较

我在「小爱同学」身上看到了未来已来

IoT 喊了很多年,从 20 年前的智能家居,到 2009 年无锡落地的物联网产业园,再到 2014 年火热的智能家居创业,乃至去年底孙正义大神提出的「鞋子比人更聪明」,IoT 都处在只打雷不下雨的尴尬状态。究其原因,我曾经认为是「云-网-端」三层中端的密度不够,即设备数量还不够多,从而数据量不够大,和人接触点也不够多。

根据小米最新公布的数据,MIoT 在 2016 年底大约 5000 万入网设备,2017 年中达到 6000 万台,2017 年 11 月在小米 IoT 开发者大会上,公布了 8500 万的入网设备。

在我看来,5000 万和 8000 万并没有本质的差别,但这些 IoT 设备一旦融入了智能语音交互后,原先的 App 指令控制、传感器触发,就变成了远场语音控制。这样一来,交互界面从单一的手机 App(家里不方便)、传感器触发(冷冰冰且不丰富),扩展到了无处不在的语音指令(方便且有温度)。

用 App 指令控制、传感器控制、智能语音控制的典型场景,以及典型设备

当然,语音交互绝不只是远距离版的遥控器而已。

独立于智能家居的硬件设备外,语音交互有机会将随身设备、车载设备、乃至互联网的一系列服务串联起来。常见的语音交互场景包括:在车里通过语音交互设备,提前把外卖点好(已经实现);在跑步时通过智能耳机,把家里的热水器打开(还需要解决低功耗唤醒问题);在家通过智能音箱,把凯叔召唤出来给孩子讲故事(已经实现)。

智能设备的落地场景、核心技术、以及服务聚合,点击查看大图

技术本身就是让原本少数人的特权(钢铁侠拥有的 Javis)飞入寻常百姓家。能够见证这一过程,的确令人兴奋。

Back to top btn