智能语音虽火但开发难度大，国内初创团队还有机会吗？| 活动回顾

2017-03-31

这股正在智能语音的新浪潮中，技术和生产能力都相对受限的初创团队还有机会吗？

亚马逊的 Alexa，苹果的 Siri，微软的 Cortana，Google 的 Google Assistat，智能语音已成早已为国外科技巨头紧盯的趋势，「人工智能助手」实现了从语音识别到语义理解再到功能执行的过程，将人工智能产品迅速推进到了能够在消费级场景当中得到应用、派得上用场、并被消费者买账的阶段。

然而当国外用户只要买一台 Echo 就能立刻享受到智能语音助理带来的便利时，国内消费者在面对语音智能产品时的选择却少得可怜，在行业端，智能语音虽然已经成为国内几乎每家科技和互联网公司都在关注的领域，但这样的热度还迟迟没有传递给消费者，在这股正在兴起的新浪潮中，相比行业巨头技术和生产能力都相对受限的初创团队还有机会吗？本期由深圳湾和 ACT Lab 联合主办 AI&BOBO CLASS 课程，邀请了前小米电视音响团队负责人、前魅族科技智能硬件总监、现前海黑鲸科技 CEO 王兴超，他为我们分析了初创团队在入局语音智能品类时所面临的困难，以及在「困境」中，初创团队可能的突围方向。

语音智能产品的开发难度，体现在研发、内容生态、市场教育和供应链上

王兴超提到，此前 WiFi 音箱对比普通蓝牙音箱所面临的一些困难，可以很好地与现在语音智能类音箱产品类比。做这类产品的难度，主要集中在四个方面：研发难度、内容生态、市场教育和供应链上。

在技术研发上，王兴超着重提到了远场语音识别中的难点。

「第一个阶段，远场语音的唤醒，这个阶段不仅要能保证在安静的环境下把音箱唤醒，还包括正在播放音乐或者周边噪音比较大的环境。这种情况下，在三四米远的距离外，通过唤醒词让音箱进入到监听模式是相当困难的。」

「第二个阶段，唤醒之后，在三四米这样的距离下，用户说的话，设备必须能够完整地采集到，并保证采集到数据的准确度，这也是目前业界面临的另一个难点所在。这种声音数据的采集过程，严重依赖于使用麦克风的数量，结构的设计，用户说话的清晰度，方言还是普通话，以及环境噪音是否够低。」

「在采集到了用户的语音之后，还要把语音转成文字，进而对转成文字进行语义理解。中国的汉字中，有很多相同的发音，但是代表了截然不同的意思，需要结合上下文语境才能把语音转换成文字，否则转化成了文字都错了，那么后面的处理肯定也是错误的。」

目前的语音智能产品能给用户带来价值吗？

而在面向消费者的产品价值上，王兴超提出了这样四个问题：

提高效率了吗？
直达内容了吗？
直达服务了吗？
帮用户省钱了吗？

高精度的语音识别作为交互方式，对比现有的屏幕交互，确实可以在大多数场景下提高交互效率。但智能语音在连接内容端和服务端的能力上，国内生态却还称不上令人满意，一方面语音智能本身的「直达」能力不足，不能很好地根据用户语言给出关于内容和服务的最优解决方案，另一方面，内容和服务资源与语音智能产品间的生态整合也还不到位。

具体场景下的最优体验，可能是初创团队涉足这个领域时可以试水的方向

如果目前整个智能语音行业都还面临诸多挑战，那么初创团队还有入局的契机吗？王兴超通过自己团队正在开发的产品，给出了另一个可能的突围方向。

他们做的是一款具备语音智能的电视盒子产品，功能和体验都针对家庭客厅观看电视时的具体体验进行优化，可以使用语音指令进行进行换台、播放、资源搜索等等一系列功能，很大程度上解决了使用智能电视时需要用按键优先的遥控器进行大量点按操作的问题。同时，由于成本极低，电视盒子生产商可以很容易地将他们的方案集成到自己的电视盒子产品中。

王兴超所给出的方向，即是使用较低技术和硬件成本，着力打磨在具体场景下常用的数个功能，达到该场景下体验的最优化，凭借低成本和高适用性来打开面向 C 端的产品市场和面向 B 端的方案市场。在这个过程中讲继续技术上的积累和产品上的优化，从而继续在语音智能的市场中向上攀登。

这样一边生存一边成长的经营哲学，对在巨头林立的红海领域中试图突围的初创团队来说，可能更加实用。

人工智能