Uploads%2farticles%2f12545%2f42429930235 b13a6689ec k
|
2018-07-16

虚拟主播、智能硬件… AI 的下一个应用突破会在哪里 | 对话搜狗王小川

和国内 BAT 大型发布会高唱 AI 赋能各种场景的论调不太一致的地方,是华尔街对于 AI 的态度:回归冷静,伴随对 AI 公司的投资放缓、估值下移。

在上周香港召开的 RISE 大会上,微软、亚马逊、LINE、索菲亚机器人等领军企业带着数十家高唱 AI 的企业,在 keynote 和圆桌环节悉数登场。其中就包含行业明星和新秀,与老练稳重的老牌巨头相比,他们展示了独有的活力,与参会者积极的讨论下一个科技热潮。

同样亮相 RISE 大会的搜狗,则在大会上发布了全球首个高度实用化、定制化的虚拟主播。不需要主播本人的出境,只需要央视新闻主播姚雪松 1.5 个小时的音视频数据,结合语音、图像等多模态信息进行联合建模训练,输入一段 RISE 大会文字稿,就可以快速预测生成与真人无异的播报效果。(观看以下视频了解实况)

在「兜售」了一遍搜狗以语言为核心的 AI 战略布局后,搜狗出人意料地在大会上爆料,将在年底前发布 4 款新的智能硬件。

带着一些对于 AI 落地的疑问,深圳湾发起了一次与王小川的对话。

是吗?AI 已经没有那么吃香了?

在人工智能方面,我认为中国还是有机会跟美国在应用层面上齐头并进。

2018 年 3 月 5 日,人工智能产业第二次被写入政府工作报告。据统计,2017 年中国人工智能核心产业规模超过 700 亿元,随着各地人工智能建设的逐步启动,预计到 2020 年,中国人工智能核心产业规模将超过 1600 亿元,年复合增长率将达 31.7%。

事实上,人工智能不是一个新课题,上个世纪 60 年代、80 年代就分别有两波人工智能热潮。不同于以往人工智能只存在于高校,现在参与人工智能的企业数是过去的数倍,可以说,现在人工智能才开始真正走向了实用。

在目前的中国经济体系中,互联网是最有创新活力的一个版块,拥有着庞大的用户规模。而以这个群体为核心,中国在人工智能应用领域具备很大优势。这些互联网公司有大量的数据,有足够的资金和创新动力,也能吸引不少工程师人才,甚至是美国的顶尖科学家。

在技术研究方面,中国略显薄弱。好在目前全球是一个知识共享体系,在有最前沿的人工智能论文出来之后,我们很快就能学习到新的学术成果,并将之转化成生产力。因此,在人工智能应用层面上,我认为中国还是有机会跟美国齐头并进的。

那么,AI 的下一个应用突破会在哪里?

我们已看到当前最热的「智能音箱大战」...这些事情背后有一个共同点——让人工智能开始去解决语言的问题。

在这一年间,人工智能领域有许多新的突破。包括当前最热「智能音箱大战」,以及其他「黑科技」。例如,Google 在今年 I/O 大会上提出,让机器帮助人打电话预订餐厅等。所有这些事情背后都有一个共同点,那就是让人工智能开始去解决语言的问题。

我认为以后 AI 会融入到方方面面,并呈现这样一个消费趋势——机器越来越懂人,而不是人去适应机器。比如,从以前的五笔输入法到现在的拼音、语音输入,就是一个从人适应机器到机器适应人的一个典例。

未来的 AI,应该可以做到让人和机器更自然地交流,变得更聪明且能帮人类处理更多的工作。人工智能可能会在以下几个领域率先有所发展:

  • 一是识别。比如涉及到大量识别工作的安防领域。
  • 二是商业智能,即让机器智能做出决策判断。比如在投资等一些领域,让机器做出比人类更高效、可靠的判断。
  • 三是在娱乐产业。人类需要享受艺术和文化生活,而目前包括画作、音乐、影视剧、游戏等在内的相关作品都由人创作。未来在 AI 的帮助下,创作效率可以得到极大的提高,为人类提供更好的娱乐产品。
  • 另外在这些垂直领域,AI 也会有大的突破:一个是医疗,一个是电商和客服。

仅 1.5 小时的数据训练,就能生成虚拟主播,搜狗家的技术优势在哪里?

这是全球首款高实用化、定制化的虚拟主播,采用搜狗业界领先的语音合成、唇语合成、音视频联合建模、深度学习等技术。

在本次大会(RISE)亮相的虚拟主播是全球首款高实用化、定制化的虚拟主播,目前市面上还没有类似的产品。

它采用了搜狗在语音合成、唇语合成、音视频联合建模、深度学习等技术的研究成果。采用一个主播的音视频数据,结合语音、图像等多模态信息进行联合建模训练,给机器输入一段文字,便可以生成一段音视频同步的新闻播报。

其最大的难点在于,经过真人主播 1.5 小时的数据训练后,仅提供一段文本,机器要通过虚拟主播技术来生成逼真度极高的视频,并且还要确保视频中主播的音频和脸部表情、唇动能够自然且一致。

△ 搜狗虚拟主播技术解析

至于技术优势方面,早在 2012 年,搜狗就开始研究语音合成技术,经过多年的技术沉淀和数据积累,目前已具备多语种、多音色的语音合成能力,并在业内首推个性化语音合成和情感迁移的技术。用户上传少量音频,即可合成高质量的个性化音色,并且能快速迁移成多种讲话风格(相声贯口、唱歌、绕口令等)。

未来,搜狗会在虚拟主播情感表达上做更深入的研究,让虚拟主播的真实感得到提升。结合搜狗语音交互系统知音 OS 能力,我们可以让虚拟主播具备交互能力。例如用在带屏幕的智能音箱,虚拟主播就可以发展成为虚拟私人助理,用户可以从单纯与声音交互变成与一个逼真的虚拟人物交互。

这么多很牛的技术,具体会应用在哪里?

搜狗希望可以让人和机器的交互更自然。接下来我们会推出更完整的虚拟主播,它能跟你在互动时开始具有自己的表情,甚至模仿具体的人的声音跟你去互动,跟用户的交互更自然亲切。

自然交互方面,搜狗涉及的技术包括语音识别与合成、图像识别与合成等。其中,搜狗中文语音识别准确率已经做到 98%。

目前,搜狗输入法已经是中国最大的语音输入引擎,为我们的语音交互研究积累了大量语料和用户行为基础。接下来,我们会把更多的工作聚焦到语种、方言、麦克风矩阵,以及语音的纠错修改等。

除了语音识别以外,我们开始尝试对于表情做更多的理解,其中包括:

唇语识别,即机器通过图像识别捕捉人嘴唇运动,并建立识别模型。搜狗中文唇语识别技术在垂直应用领域中的准确率超过 90%。

情感迁移技术,即生成相同音色,实现个性化语音合成。这一技术对声音结构,主要在风格、音色等方面,有更深层次的理解。

基于以上几项技术联合建模,接下来我们会推出更完整的虚拟主播,它能跟你在互动时具备自己的表情,甚至模仿具体的人的声音跟你去互动,从而跟用户的交互变得更自然亲切。

△ 王小川和搜狗汪仔机器人

这么多很牛的技术,怎么赚钱?

我们认为,靠技术创新,可以获得巨大的市场份额。

过去,搜狗主要依靠搜索广告盈利,提供的是人和信息的服务。伴随 AI 技术的应用,用户能够与机器进行更自然的语言交互。另外,机器通过计算,对语言逻辑进行处理,能给用户提供更精准的答案。

在 AI 技术的帮助下,这一模式会获得更大的增值。这一竞争力的直接体现就在于收入的提升。我们认为,靠技术创新,可以获得巨大的市场份额。

概括来讲,我们的盈利现在分成三大部分:

  • 搜索引擎:搜狗在国内占有 18% 的市场份额,一年收入规模达到 60 亿。
  • 搜狗输入法:帮助中国人更好的用中文表达自己的想法,目前,搜狗输入法在中国 PC 和手机上都处于相对垄断的位置。
  • 翻译:今年我们推出了新的智能硬件,搜狗旅行翻译宝和搜狗录音翻译笔,两款以 AI 翻译为核心,能够帮大家解决语言问题的产品。这些产品和搜狗的输入法是一脉相承的,也是帮大家表达和获取信息,而范围从表达中文,获取中文信息,扩展到了获取全世界的信息,和全世界对话。

另外,在电商和客服等垂直行业,我们会寻求更大的突破。例如通过人机结合,帮助电商人员更好的表达他们的想法,从而更方便的提供电商咨询等服务。

△ 搜狗翻译宝

从「造硬件」到「卖硬件」,搜狗这家互联网公司有什么心得?

一个新的产品出来之后,从用户对它有大概的认知,到真正去使用,再到去进行口碑传播,需要一个过程。

我们知道,一个新的产品出来之后,从用户对它有大概的认知,到真正去使用,再到去进行口碑传播,需要一个过程。

以搜狗的翻译宝和录音翻译笔这两款产品为例,从产品角度来讲,目前整个翻译市场还是相对比较垂直、小众。我们的翻译类产品从推出到现在仅有几个月时间,在这期间,用户逐渐形成了对产品、技术、企业的认知。

最终,这两款产品的市场反馈也都不错:翻译宝在首发日开售 1 小时后,各地就陆续售罄,当日销售额突破 1000 万;搜狗录音翻译笔发售前在京东平台的预约量超过 11 万。

未来,无论是在旅游还是在商务场景,跨语言交流市场将会巨大的发展潜力,搜狗将此作为重要目标并有所作为。

△ 搜狗录音翻译笔

关于川总爆料今年年内还会推出 4 款新硬件,可以了解更多吗?

可以透露的信息是,它们是以语言为核心的,2C 的、便携性产品。

这些新产品目前还处于保密阶段,可以透露的信息是,它们是以语言为核心的,2C 的、便携性产品。

在智能硬件布局上,搜狗遵循的核心的逻辑是,产品具有核心的语音、语言交互技术,并为某个和用户个人直接相关、真实落地的场景打造。

Back to top btn