Uploads%2farticles%2f11489%2ftimg meitu 2

2017-04-13

从搜狗的语音技术发展史中，我们来看平台技术是如何落地的

你只知搜狗是做搜索起家的，但你知道它在智能语音中做了多少布局吗？

提起智能语音，大家或多或少会想到苹果的 Siri，毕竟整个行业由它牵头带动的，包括后来亚马逊的 Alexa，微软 Cortana，Google Assistant 等，各个巨头将智能语音视为了一块必争之地，业界更是将语音定义为下一个人机交互的新形式。

在国内，除了百度、科大讯飞以及一些初创公司，我们似乎很少会提起搜狗这家同样专注于人工智能语音的公司，甚至有人认为智能语音是搜狗向 AI 转型的一大战略。为此，搜狗 CEO 王小川曾强调，搜狗虽然以搜索起家，但事实上它就是一家 AI 公司，并一直致力于让搜索引擎变得更聪明，其中就包括语音技术。

搜狗的语音技术研究始于 2012 年，曾推出语音助手应用

从 2012 年开始，搜狗就着手语音技术的研究，并在一年多之后完成深度学习技术的研发和上线，经过一段时间的测试、准确率对比后，最终在 2013 年 6 月，接入搜狗包括输入法、地图在内的全线产品，代替原本所采用第三方公司的技术。

同时在这个过程中，搜狗于推出了搜狗语音助手，得益于多年来积累的搜索能力，搜狗语音助手的技术在短时间内做到了中文业内的领先。但它也面临着与 Siri 等语音助手相类似的窘境，在手机端上提供的交互体验并不能让用户产生足够的依赖性，最终导致产品的使用率并不高。

此后，搜狗语音团队则没有对手机语音助手做继续的研发和推进，但对智能语音的研究依旧持续着，并将目标聚焦在老本行——搜索上。他们思考着如何利用智能语音让搜索变得更有效率、且往「更智能化」的方向走。到目前为止，搜狗语音团队每年都会将自家的技术拿到业界中进行对比测评，以了解自身在行业中所处的实际位置。

基于前期技术的积累，敲定搜狗人工智能未来的方向：自然交互 + 知识计算

2016 年 8 月，沉寂许久的搜狗在智能语音中再次有了新动作，除了实现将语音转化成文字的功能，还发布了语音交互引擎「知音」。同时，搜狗 CTO 杨洪涛在发布会中首次公布搜狗人工智能未来 8 年工作的主要方向：自然交互 + 知识计算，其中，自然交互指的是让机器能够在交互中更懂人，知识计算即将网络中的海量信息提取出来，并做进一步的运算、推理，辅助用户做更好的决策。

这套由语音识别、语义理解、知识图谱等技术梳理成一套成体系的「知音」交互引擎，主要是在加固此前搜狗在这方面的技术、产品积累，并让其朝高效、更智能化的方向走。

基于深度学习平台搭建识别引擎，提高语音识别效率、实现实时翻译功能

发布「知音搜索」后，搜狗则开始基于已有的深度学习平台搭建自己的识别引擎，一方面依据人类说话的生物特征将每一个音节分为独立的帧，提高对静音的识别，进一步提高语音识别（将语音转化为文本）的效率；另一方面，在语音识别的框架下建立声学模型，根据人在发音时声音信号和录音信号波形的对比，实现录音和文字之间的映射。

其中，在语音实时翻译技术上，搜狗采用基于神经网络的机器翻译技术，以文本断句为桥梁，做到用户在一直说话的同时，系统将输入的语音进行区分、翻译，将中、英文短语之间的映射关系建立起来，利用语音模型将词序或语序进行调整，实现语音翻译同传。

搜狗 CEO 王小川在演讲现场中展示搜狗语音的实时翻译功能

除了技术框架的搭建，大量的训练数据是确保语音识别准确率的基础，因率先在中文手机输入法中抢占先机，以及大量搜索用户的基础，让搜狗的语音识别取得了良好的效果，也成为语音实时翻译的重要基础。据搜狗团队的介绍，搜狗语音识别的准确率已达到 97% 。而在当时，单是搜狗语音输入法每日的请求次数就已经超过 1.8 亿次，也就是大约 16 万小时的语料规模。

推进语音技术在产品中的落地，并非做简单的技术提供商

随着人工智能技术得到一定的进展，搜狗也逐渐考虑实现技术在产品中落地的事情。在这一战略过程中，搜狗并不打算做一个纯粹的技术出售商，游离于产品之外做技术的整合和贡献，而是将产品与技术紧密联系在一起，既做技术又做产品，或者在与他人合作时，依靠自己的人工智能算法和别人的数据去对接。

对此，搜狗 CTO 杨洪涛曾表示，「如果只是开放 SDK 接口供开发者嵌入和使用，这样双方就不能进行良好的互动，最终的产品体验一定不会好，而好的产品体验需要两个团队共同的紧密结合。」

在去年 12 月份，搜狗宣布与四维图新、飞歌展开合作，三方共同研发智能车联网软硬件解决方案，推出飞歌最新的 G8Ⅱ 后装智能车机。其中，搜狗语音提供的车载语音系统已在车载场景下做了专项优化，是基于搜狗语音交互引擎「知音」面向车载方向的升级。同时，其与搜狗语音地图进行整合后，用户可通过自然语音交互的方式向导航系统输入目的地。

在今年 3 月份的小米新品发布会上，小米发布了与搜狗语音深度结合的智能语音电视——小米电视 4A，依靠搜狗的语义理解技术及其在小米 4A 使用场景下的优化，用户能够在向电视提出复合指令时得到精准的反馈结果。另外，搜狗语音和小米还一起建立了同步上线机制，在小米电视内容上线更新的同时，搜狗语音都将快速跟进优化，为用户提供良好的交互体验。

小米智能语音电视发布会

前不久，会议平板厂商视源股份发布首款智能语音平板 MAXHUB，其中就整合了搜狗的语音技术。在使用这款会议平板的过程中，用户用自然的语音指令即可调动语音助手执行相应的任务，提高办公及会议效率。

语音交互的刚需在于驾车、客厅、户外这几个方向，产品本身也必须是「刚需」

就跟当初放弃搜狗语音助手应用一样的道理，搜狗语音负责人王砚峰认为，技术应该用在能够真正解决用户实际问题的方向上，躺在手机上的语音助手并不能帮人们解决实际的需求。在物联网和车联网时代，更自然的人机交互方式已成为一个趋势，而语音助手则需要找到它真正的用武之地。

王砚峰进一步表示，语音交互的刚需存在于驾车、客厅、户外等不方便使用键盘打字的场景中，另外，产品自身也应该是刚需。如目前的机器人并不足以解决用户的实际需求，因此搜狗也没有把它作为一个跟进的方向，而是希望继续在以上三个场景中将语音交互的体验做得更好、更深，给用户带来实际价值。

目前，搜狗一方面通过产品将语音技术更多的落地到用户端，另一方面则深耕技术，投入到对前沿技术的研发中，如与清华大学联合成立「清华大学天工智能计算研究院」。

从以上来看，我们没有在搜狗语音身上看到「大杂烩」形式的产业布局，而是聚焦在垂直领域，寻找并切入刚需市场，对技术进行深化以及贴近产品式的研究，方向是如此的坚决且明朗。

活动预告：
语见语音智能峰会 | WARE 2017

4 月 15 日（本周六），深圳湾（公众号 ID：shenzhenware）将举办「语见语音智能峰会 | WARE 2017」，本届峰会，将聚焦语音智能，邀请行业领军企业、以及行业意见领袖，分享关于语音智能的相关平台技术和应用案例，通过会议的交流互动，以及会议主题的传播，帮助人们更好的预见未来。

届时，搜狗公司桌面事业部高级总监，桌面研究部和语音交互技术中心负责人王砚峰将出席本次峰会，发表『从语音到语言』的主题演讲。

点击此处，进入峰会报名页面，可了解峰会详情。

智能语音

搜狗

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：敢叫板苹果的 Fitbit 新智能手表延期发布，但这不过是 Fitbit 给自己判的「死缓」

下一篇：Arm 借助融合型 AI 数据中心，重塑计算格局