更新手机 App、进军 PC,智能音箱市场已不能满足 Alexa 的胃口
电视里的『超级碗』广告叫了十遍 Alexa,为何你家里的 Echo 依旧沉默
亚马逊官方解释了其中的原因。
2 月 4 日晚,堪称美国「春晚」的 Super Bowl(超级碗)完美落幕,除了美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛本身、精彩的中长秀以外,超级碗广告也是一个重要看点。
在这一场电视观众占美国人口总数将近 1/3 的比赛里,广告收效可想而知,这也是众多品牌厂商不惜重金买下超级碗电视广告位的主要原因。此次,为宣传不遗余力的亚马逊也投放了一个长达 90 秒的 Alexa 创意广告。
广告内容是这样的,亚马逊语音助手 Alexa 突然「失声」,正当 CEO 贝索斯为这件事焦头烂额之时,他的团队成员想出了一个解决办法——请来厨神 Gordon Ramsey、Cardi B、《沉默的羔羊》男主 Anthony Hopkins 等一众明星来替 Alexa 回应用户需求。业界不少人认为,从广告可以推测出,Alexa 即将支持个性化语音功能,即用户可选择不同明星的声音作为自己的语音助手,类似于国内的明星语音导航。
除了推测之外,这则超级碗广告也从侧面反映出 Alexa 辨别真实人声的能力:整部广告出现了近十次「Alexa」的唤醒词,但在播放节目的同时,用户摆在客厅的 Echo 设备并没有因此被电视声「误唤醒」甚至去试图回答这些问题。显然,亚马逊此前已做足措施「防患于未然」。
当地时间 2 月 2 日,Alexa 官方刊登了一篇「如何避免 Alexa 被误唤醒」的博文。行文大致介绍了 Alexa 如何在广告声中辨别语音指令来自机器还是现实环境中的人。
据介绍,Alexa 这一区别能力源于「声学指纹」(acoustic fingerprinting)技术。Alexa 语音识别技术负责人 Manoj Sindhwani 进一步解释道,他们的团队运用算法在 AWS 云平台上建立了声学指纹的机制,使得数据在高速传输的状态下能及时辨别唤醒词的来源,并进一步做处理(即决定 Alexa 是否作回应)。
不过该博客也坦诚道,这一技术还未达到百分百的「完美」,但能确保设备不被「误唤醒」的几率在 80%~90%。
关于唤醒词检测的相关技术布局,亚马逊 Alexa 工程师、科学家团队考虑得比我们想象中的更早、更周全。早在 2014 年 Echo 问世之前,亚马逊就有发表过相关专利,该专利显示了设备辨别是否真实被唤醒的两种方法,一种是 Echo 通过声学指纹识别技术过滤人声指令和机器声(广告声);第二种策略则是,商业广告本身传输的频谱,会事先转化成 Alexa 设备在接收时会自动过略掉的信号。
另外,大概在一年前,一个名为 Asphyhackr 的 Reddit 用户在网站上撰写了一份报告,试图证明亚马逊第二项专利技术的策略。在试验过程中,这名用户使用数字音频编辑软件运行 Alexa 商业广告,他发现,只要涉及到 Alexa 的部分,其音频频谱则会以低频的形式运行,这些音频正常情况下会被 Alexa「忽略」。为进一步证明他的观点,他用设备录下「Alexa」的人声,并运用带阻滤波器(band-stop filter)将这些声音的频率分量降到更低水平,结果是,即使挨在播音器旁边时,Echo 怎么也无法被唤醒。
不过从亚马逊这次刊登的博文来看,Alexa 是以「声学指纹」的技术方式「主动」过滤机器的广告声。至于第二种技术策略,其应用情况还有待官方确认。
附:Alexa 超级碗广告视频