Uploads%2farticles%2f11498%2f ware 2017 20170415.004

2017-04-17

从「语音」到「语言」的工作重心转变，搜狗如何实现 AI 的跨越式发展丨WARE 2017

「语言」即思想和知识的载体，是 AI 理解人话的关键。

智能语音要做到越来越「智能」，则需要大量的训练数据，国内外不少做智能语音技术的搜索公司就有这点优势。国内的搜狗则是一家比较低调的公司，事实上，搜狗从 2013 年就开始做智能语音技术，先后推出实时转写、实时翻译等功能。目前，搜狗已与车载、家电厂商合作推出搭载其智能语音技术的智能车机、智能电视等产品。

在去年的新硬件生态大会上，搜狗王小川做客深圳湾，畅谈了人工智能为我们带来的机遇。在今年的「WARE 2017 语音智能平台与应用峰会」中，搜狗公司语音交互技术中心总经理和搜狗输入法研究负责人王砚峰发表了『从语音到语言』的演讲，讲述了搜狗在语音技术更新迭代过程中所做的主要工作。

AI 工作重心的转移：从「语音」到「语言」

王砚峰指出，以往的语音助手之所以不够「智能」，是因为机器经常没「听」懂人话，或者不能「理解」所听到的内容。事实上，「语音」只是机器收集信息的一个入口，「语言」才是机器理解的所在，也就是说，机器要有知识并懂得如何思考。

在这几年的时间里，搜狗一直在更新自己的语音技术，因为意识到这一点，逐渐将人工智能（AI）工作的重心从「语音」向「语言」技术进行转移，解决大部分语音助手「听」不懂人话、难以实现多伦对话的窘境。其中最核心的是解决「语言」这重要一环。

在产品演化的过程中，如何解决「语言」这一核心问题？

那么，搜狗是通过哪些路径解决这些困难的呢？王砚峰提出了以下几点：

第一，优化语音识别的准确率，用深度学习和数据驱动语音识别的进步。随着搜狗输入法所收集数据量的不断提升，技术也随之更新并且使得深度学习技术不断得到加强，语音识别的精确度因此也得到大幅度提高。另外，让语音技术在更多硬件设备中落地，进一步解决噪音、口音、远场等问题。目前，搜狗输入法每日的语音接收量达到 2.4 亿次，等同于 20 万个小时的训练语料。

第二，即进入设计+工程化的阶段。例如要实现人与机器沟通过程中能够「随意打断」的目标，就需要利用工程化的方法，通过「唤醒」的方法让机器理解人机对话过程中的关键指令。

第三，场景化、功能化、知识化。传统的语音助手是一个开放和通用的应用，并不能有一个稳定的预期。而将自然语言理解放在一个垂直的场景和功能上，并通过知识的整理，能够为用户提供更好的人机交互体验。如场景化后的车载语音助手以及智能电视语音助手。

如何让语音识别技术做到真正的「智能」？

接下来，则是要「死磕」语言，让语音识别技术实现真正的「智能」。王砚峰总结出了搜狗以下的几个关键做法：

一、追求掌握更先进的自然语言理解和深度学习技术，这是推动技术发展的根本。例如搜狗所推出的实时翻译技术，就采用了目前业界里最先进的架构，相比 Google 深度学习层数达到的 8 层，搜狗目前的层数虽然少一些，但已与国内领先的百度达到持平的状态。

二、在高频应用场景中通过产品创新带来用户数据迭代，提升对话能力。在机器学习中，数据量是最重要的一环。AI 不能只谈技术，而是应该与产品结合起来，或者让好的产品驱动语音技术的发展。越多用户使用的产品，产品背后的技术能够反向推动语音技术的提升。

三、让搜索进一步走向问答。数据的不断挖掘是自然语言进步的重要基础，搜狗则利用搜索公司本身所拥有的这方面优势，让大量数据推动技术的进步。如让机器基于搜索，并通过自然语言理解的方式对数据库进行解释，提供知识问答服务。

总的来说，搜狗发展语音技术的关键可归结为以下几点：

智能语音 = 语音入口 + 自然交互 + 知识计算
智能语音产品的发展路径，就是不断通过各种条件降低自然语言理解难度的一个过程。
语言是大脑的核心，是智能语音追求的终极目标。
我们不仅要追求先进技术，还要同时在产品创新上给技术的进化创造出更多条件。
让输入法走向对话，让搜索走向问答。

问答

Q：AI 的问答机制是否都需要人参与梳理原始逻辑？

A：一般是不需要的。

Q：搜狗的语音技术能否支持离线模式？

A：是。

Q：搜狗有没有像其他巨头那样提供 AI 公共平台的战略规划？

A：会的，搜狗应该会在今年下半年提供开放平台。

Q：搜狗展示的语音识别翻译的翻译引擎是自家开发的吗？搜狗有在翻译数据基础上做自己的优化吗？

A：搜狗的语音翻译就是用的搜狗自己开发的，神经网络机器翻译，数据源也是网上抓的。搜狗有深度语言学习的基础，很快就能构建语音识别和机器翻译的技术。

Q：语音技术有哪些最新的研究进展？

A：在人声分离、语音合成、阵列前端这几个领域，大家都在尝试深度学习的方法。更前沿的技术，在没有深度学习的领域尝试工程化的方法去理解，在传统的领域通过深度学习来解决，并且让整个过程都深度学习化，端到端的语音识别虽然不成熟，但是都是大家努力的方向。

Q：目前国内语音市场前景如何？

A：前景还是不错的。这也是为什么创业公司和大公司，包括像小米这样的智能硬件公司，都在智能语音领域布局，这是大的趋势。但总体还是在非理性的状态下，创业公司的估值偏高，以后会慢慢的沉淀下来，小的创业公司会挂掉或被收购。在语音、自然语音处理、AI 等行业前沿的核心技术，最终都是大公司的赛道。

Q：为什么国内智能音箱市场没有国外那么火？

A：从文化的角度，从体验的角度，从销售的渠道，国内的智能音箱，与 Echo 都是有差距的。

Q：搜狗和国内其他语音厂商的方案相比有哪些优势？如何评价其他厂商的方案？

A：国内的语音厂商，长远来看，比较看好搜狗和百度。这两家公司在搜索和语音等方面还是比较完整的，有搜索地图，有垂直搜索，从语音的入口到最终的服务，是一个闭环，目前只有搜狗和百度能做到。其他公司，科大讯飞、思必驰、云知声，可能相对只有中间环节的语音技术，而没有背后服务能力的支撑。

但是在目前的商业模式和市场环境下，靠提供技术解决方案的方式实现商业价值，在国内并没有那么好的市场前景。对于提供这些技术解决方案的公司，需要下沉到某一个垂直产业，做更上游的事情，才能更好的实现商业价值。比如科大讯飞，在教育领域，提供更完整的全套的教育解决方案，而不仅仅是教育中所需要的语音技术。

Q：国内做语义理解有哪些比较好的应用场景？

A：目前国内，语义理解的场景和语音理解的场景，本质没有什么区别，主要是在更垂直的行业、产品、应用中，比如车载、电视、音箱。如果能在输入法和搜索方面，能够把这样的语音和语义能力融合的更好的话，也是一个不错的应用场景，比如搜索方面的用户查询，都是自然语音，而用户在输入法中的聊天，本来就是自然语言，可以依据这些产生很多产品创新的。

语义理解最大的应用场景，是客服。在任何大产品上都有需求，比如支付宝、京东、顺丰，任何呼叫中心的客服，都是语义理解、自然语言理解特别好的应用场景。

后记：

在搜狗内部团队历年的黑客马拉松上，我们可以看到搜狗基于人工智能核心技术，所做的创新探索。在「WARE 2017」会前的采访中（查看全文），我们了解到了搜狗这家公司的语音技术发展历史，以及搜狗是如何基于自己的搜索核心技术进行商业化落地。从语音的入口到最终的服务，国内的两家公司，搜狗和百度，在技术上都在各自建立着自己的壁垒。我们期待搜狗未来更好的表现。

人工智能