Uploads%2farticles%2f12545%2f42429930235 b13a6689ec k

2018-07-16

虚拟主播、智能硬件… AI 的下一个应用突破会在哪里 | 对话搜狗王小川

我们认为，靠技术创新，可以获得巨大的市场份额。

和国内 BAT 大型发布会高唱 AI 赋能各种场景的论调不太一致的地方，是华尔街对于 AI 的态度：回归冷静，伴随对 AI 公司的投资放缓、估值下移。

在上周香港召开的 RISE 大会上，微软、亚马逊、LINE、索菲亚机器人等领军企业带着数十家高唱 AI 的企业，在 keynote 和圆桌环节悉数登场。其中就包含行业明星和新秀，与老练稳重的老牌巨头相比，他们展示了独有的活力，与参会者积极的讨论下一个科技热潮。

同样亮相 RISE 大会的搜狗，则在大会上发布了全球首个高度实用化、定制化的虚拟主播。不需要主播本人的出境，只需要央视新闻主播姚雪松 1.5 个小时的音视频数据，结合语音、图像等多模态信息进行联合建模训练，输入一段 RISE 大会文字稿，就可以快速预测生成与真人无异的播报效果。（观看以下视频了解实况）

在「兜售」了一遍搜狗以语言为核心的 AI 战略布局后，搜狗出人意料地在大会上爆料，将在年底前发布 4 款新的智能硬件。

带着一些对于 AI 落地的疑问，深圳湾发起了一次与王小川的对话。

是吗？AI 已经没有那么吃香了？

在人工智能方面，我认为中国还是有机会跟美国在应用层面上齐头并进。

2018 年 3 月 5 日，人工智能产业第二次被写入政府工作报告。据统计，2017 年中国人工智能核心产业规模超过 700 亿元，随着各地人工智能建设的逐步启动，预计到 2020 年，中国人工智能核心产业规模将超过 1600 亿元，年复合增长率将达 31.7%。

事实上，人工智能不是一个新课题，上个世纪 60 年代、80 年代就分别有两波人工智能热潮。不同于以往人工智能只存在于高校，现在参与人工智能的企业数是过去的数倍，可以说，现在人工智能才开始真正走向了实用。

在目前的中国经济体系中，互联网是最有创新活力的一个版块，拥有着庞大的用户规模。而以这个群体为核心，中国在人工智能应用领域具备很大优势。这些互联网公司有大量的数据，有足够的资金和创新动力，也能吸引不少工程师人才，甚至是美国的顶尖科学家。

在技术研究方面，中国略显薄弱。好在目前全球是一个知识共享体系，在有最前沿的人工智能论文出来之后，我们很快就能学习到新的学术成果，并将之转化成生产力。因此，在人工智能应用层面上，我认为中国还是有机会跟美国齐头并进的。

那么，AI 的下一个应用突破会在哪里？

我们已看到当前最热的「智能音箱大战」...这些事情背后有一个共同点——让人工智能开始去解决语言的问题。

在这一年间，人工智能领域有许多新的突破。包括当前最热「智能音箱大战」，以及其他「黑科技」。例如，Google 在今年 I/O 大会上提出，让机器帮助人打电话预订餐厅等。所有这些事情背后都有一个共同点，那就是让人工智能开始去解决语言的问题。

我认为以后 AI 会融入到方方面面，并呈现这样一个消费趋势——机器越来越懂人，而不是人去适应机器。比如，从以前的五笔输入法到现在的拼音、语音输入，就是一个从人适应机器到机器适应人的一个典例。

未来的 AI，应该可以做到让人和机器更自然地交流，变得更聪明且能帮人类处理更多的工作。人工智能可能会在以下几个领域率先有所发展：

一是识别。比如涉及到大量识别工作的安防领域。
二是商业智能，即让机器智能做出决策判断。比如在投资等一些领域，让机器做出比人类更高效、可靠的判断。
三是在娱乐产业。人类需要享受艺术和文化生活，而目前包括画作、音乐、影视剧、游戏等在内的相关作品都由人创作。未来在 AI 的帮助下，创作效率可以得到极大的提高，为人类提供更好的娱乐产品。
另外在这些垂直领域，AI 也会有大的突破：一个是医疗，一个是电商和客服。

仅 1.5 小时的数据训练，就能生成虚拟主播，搜狗家的技术优势在哪里？

这是全球首款高实用化、定制化的虚拟主播，采用搜狗业界领先的语音合成、唇语合成、音视频联合建模、深度学习等技术。

在本次大会（RISE）亮相的虚拟主播是全球首款高实用化、定制化的虚拟主播，目前市面上还没有类似的产品。

它采用了搜狗在语音合成、唇语合成、音视频联合建模、深度学习等技术的研究成果。采用一个主播的音视频数据，结合语音、图像等多模态信息进行联合建模训练，给机器输入一段文字，便可以生成一段音视频同步的新闻播报。

其最大的难点在于，经过真人主播 1.5 小时的数据训练后，仅提供一段文本，机器要通过虚拟主播技术来生成逼真度极高的视频，并且还要确保视频中主播的音频和脸部表情、唇动能够自然且一致。

至于技术优势方面，早在 2012 年，搜狗就开始研究语音合成技术，经过多年的技术沉淀和数据积累，目前已具备多语种、多音色的语音合成能力，并在业内首推个性化语音合成和情感迁移的技术。用户上传少量音频，即可合成高质量的个性化音色，并且能快速迁移成多种讲话风格（相声贯口、唱歌、绕口令等）。

未来，搜狗会在虚拟主播情感表达上做更深入的研究，让虚拟主播的真实感得到提升。结合搜狗语音交互系统知音 OS 能力，我们可以让虚拟主播具备交互能力。例如用在带屏幕的智能音箱，虚拟主播就可以发展成为虚拟私人助理，用户可以从单纯与声音交互变成与一个逼真的虚拟人物交互。

这么多很牛的技术，具体会应用在哪里？

搜狗希望可以让人和机器的交互更自然。接下来我们会推出更完整的虚拟主播，它能跟你在互动时开始具有自己的表情，甚至模仿具体的人的声音跟你去互动，跟用户的交互更自然亲切。

自然交互方面，搜狗涉及的技术包括语音识别与合成、图像识别与合成等。其中，搜狗中文语音识别准确率已经做到 98%。

目前，搜狗输入法已经是中国最大的语音输入引擎，为我们的语音交互研究积累了大量语料和用户行为基础。接下来，我们会把更多的工作聚焦到语种、方言、麦克风矩阵，以及语音的纠错修改等。

除了语音识别以外，我们开始尝试对于表情做更多的理解，其中包括：

唇语识别，即机器通过图像识别捕捉人嘴唇运动，并建立识别模型。搜狗中文唇语识别技术在垂直应用领域中的准确率超过 90%。

情感迁移技术，即生成相同音色，实现个性化语音合成。这一技术对声音结构，主要在风格、音色等方面，有更深层次的理解。

基于以上几项技术联合建模，接下来我们会推出更完整的虚拟主播，它能跟你在互动时具备自己的表情，甚至模仿具体的人的声音跟你去互动，从而跟用户的交互变得更自然亲切。

这么多很牛的技术，怎么赚钱？

我们认为，靠技术创新，可以获得巨大的市场份额。

过去，搜狗主要依靠搜索广告盈利，提供的是人和信息的服务。伴随 AI 技术的应用，用户能够与机器进行更自然的语言交互。另外，机器通过计算，对语言逻辑进行处理，能给用户提供更精准的答案。

在 AI 技术的帮助下，这一模式会获得更大的增值。这一竞争力的直接体现就在于收入的提升。我们认为，靠技术创新，可以获得巨大的市场份额。

概括来讲，我们的盈利现在分成三大部分：

搜索引擎：搜狗在国内占有 18% 的市场份额，一年收入规模达到 60 亿。
搜狗输入法：帮助中国人更好的用中文表达自己的想法，目前，搜狗输入法在中国 PC 和手机上都处于相对垄断的位置。
翻译：今年我们推出了新的智能硬件，搜狗旅行翻译宝和搜狗录音翻译笔，两款以 AI 翻译为核心，能够帮大家解决语言问题的产品。这些产品和搜狗的输入法是一脉相承的，也是帮大家表达和获取信息，而范围从表达中文，获取中文信息，扩展到了获取全世界的信息，和全世界对话。

另外，在电商和客服等垂直行业，我们会寻求更大的突破。例如通过人机结合，帮助电商人员更好的表达他们的想法，从而更方便的提供电商咨询等服务。