搜狗吴滔：听觉+视觉才能组成一个完整的翻译机产品，离线翻译是搜狗的「独家秘籍」| WARE 2018

活动报道 |

2018-04-24

搜狗吴滔：听觉+视觉才能组成一个完整的翻译机产品，离线翻译是搜狗的「独家秘籍」| WARE 2018

对于很多公司来说，做硬件是一个很难，却又无法回避的问题。

谈哲

「对于很多公司来说，做硬件是一个很难，却又无法回避的问题。」

在深圳湾「WARE 2018 新硬件峰会」上，搜狗公司副总裁、搜狗旅行翻译宝项目负责人吴滔很坦诚的表达出自己对于互联网公司做硬件的理解。

到目前为止，搜狗一共推出过三款智能硬件，第一款是三年前推出的智能手表「糖猫」，另外两款则是今年 1 月份发布的「搜狗旅行翻译宝」及「搜狗速记翻译笔」。3 月 12 日，搜狗翻译宝在京东首发，首发当日销售额便突破了 1000 万。

吴滔认为，出境旅游是 AI 翻译技术一个核心的应用场景，而用户的需求聚焦在听得懂及看得懂两个层面，搜狗的翻译产品依据这两个核心需求已经有了足够的技术积累：

在「听」的方面，搜狗的语音识别+语义理解准确率达 97%，并且离线翻译结果媲美在线水平。双麦克风阵列技术能够保证拾音清晰。基于搜狗独创的神经网络机器翻译技术，能实现 61 种语言互译。

在「看」的方面，目前搜狗的 OCR 图像识别技术准确率可达 96%，能有效解决光线不足、抖动、扭曲、字体折行等问题，经由全卷积神经网络算法处理，形成准确的文本翻译。

目前搜狗翻译产品覆盖软硬件，已经在全球积累了超过 1000 万用户，日均翻译请求达 1.4 亿次，交互翻译方式包括语音、对话、文字翻译和图像翻译，字符规模达 200 亿规模。

吴滔表示，搜狗希望用 AI 翻译打破语言壁垒，帮助用户跨语言表达和获取信息。而智能硬件是互联网公司 AI 能力落地最好的体现，未来，搜狗会有更多硬件产品的探索。

以下是吴滔在「WARE 2018 新硬件峰会」上的演讲实录，在不改变原意的基础上略有删减：

演讲嘉宾：吴滔/搜狗公司副总裁、搜狗旅行翻译宝项目负责人

演讲主题：搜狗的 AI 翻译应用之路

大家好，今天主要给大家分享一下搜狗 AI 翻译的应用之路。

搜狗公司是中国第四大互联网公司。我们主要有两个产品：一个是搜索引擎，移动搜索引擎领域搜狗是第二大；另外一个产品是搜狗的输入法，在输入法里面我们是属于领先的位置，是中国第一大输入法。

搜狗本身是一家技术公司，聚焦 IO 的场景。整个搜狗在人工智能上的布局，主要是围绕着 IO，IO 的主要载体就是语言。无论是输入法还是搜索，都有一个很相似的特征：有用户的输入，通过用户输入之后，我们去理解它，能够推测用户的意图，帮助他，给到他想要的东西。

搜狗的人工智能布局，是以认知为主体的，分为听觉认知和视觉认知。

听觉认知包含语音识别、TTS、声纹识别，这些技术已经比较成熟了。搜狗的语音识别+语义理解准确率达 97%，并且离线翻译结果媲美在线水平。双麦克风阵列技术能够保证拾音清晰。基于搜狗独创的神经网络机器翻译技术，能实现 61 种语言互译。搜狗在这些基础技术上还做了风格的迁移、个性化语音的标注和身份识别，并已经比较成熟的应用到现在的很多产品上。

视觉认知包含 OCR、唇语识别、狗脸识别等等。目前搜狗的 OCR 图像识别技术准确率可达 96%，能有效解决光线不足、抖动、扭曲、字体折行等问题，经由全卷积神经网络算法处理，形成准确的文本翻译。

问答，则是我们对于识别之后的文本，如何能够理解用户的意图，同时能够回答用户的问题，这其实与搜索的原理是相同的。至于翻译，是从一种文本转换成另外一种文本，其实跟整个交互逻辑相关，比如说从语音的识别到合成，有了整个循环的基础，我们才能把翻译做得更好。

这是我们在人工智能上面获得的一些成绩（见 PPT），刚刚拿到了视觉识别领域国际大赛的奖项，我们提交的深度模型打破了世界纪录，在国际学术赛事 WMT 中获得中英机器翻译全球第一名。NTCIR 是日本短文本交互类比赛，看把 Twitter、微博这些社交内容分析输入其中，看能不能找到相关的匹配度，这里面我们也拿到第一。

跨语言搜索是搜狗引擎上比较突出的特色，我们的英文搜索是业内首个跨语言的检索产品，不仅能让我们检索到重要的英文文献，更能够让中国人了解到国外最先进的科技类的、学术文本界和舆论界的消息。此外，我们还在 2016 年 11 月乌镇大会上发布了首个基于 NLP 深度神经网络的商用同声传译产品。

刚刚讲了这么多，回归到搜狗的使命，那就是让表达和获取信息更简单。I 与 O 一个是输入、一个是输出，翻译就是让跨语言的表达和获取信息更简单。

讲完跟搜狗人工智能战略相关的产品，接下来讲讲搜狗是如何落地应用的。

做硬件这件事情，是很多公司现在很头疼，却又很难回避的问题。最早的时候，互联网架构了一个虚拟世界，我们从最早的原子世界里构思出来一个新的虚拟世界，这就是互联网的价值。现在互联网已经非常成熟了，但是依然还有很多应用场景是没有办法覆盖到的。在这些应用场景中，我们需要一些新的实物载体和新的技术才可以 touch 到用户的需求，因此我们需要通过 IoT 来连接到更多场景。

搜狗在传统翻译领域都是 toB 端的，所以我们思考以出境旅游作为一个 to C 的核心的场景。围绕这个场景，我们通过深度的调研与洞察，认为用户到国外旅游，他的需求会聚焦在两件事情上：一是要能听得懂，二是要能看得懂。

我们在推出搜狗旅行翻译宝之前，已经有一些翻译机产品进入市场了，包括讯飞、百度等公司都推出了一些相关产品。但我有两个点不太理解：第一是这些产品都没有屏幕，虽然你的语音识别准确率比较高，但是在你不懂英文或者不懂其他语言的情况下，如何确认对方说的是什么，这个问题还是很大的；第二是没有摄像头，我们东方人相对比较含蓄，在国外能不依赖别人完成的事情还是尽量自己完成，特别是看到路牌和菜单，可能不好意思问人家，所以在这些场景中，视觉翻译也许这是比听觉翻译更重要的能力。

在解决「听得懂」这个问题上，我们可以拆解成几个方面：第一，网络永远是痛点。很多朋友都体验过，中国的 4G 网络真的是全球领先的，我们在国内可能没什么感觉，但出过国的朋友都知道国外的网络很恶劣，我们在外面被吐槽的是网络太卡顿，而且延时太长；另外，出入境的时候、飞机上也是没有网络的，这时候该怎么办？第二，在日常的会议或者环境很嘈杂的情况下，怎么能精准的听清别人说的话，因此过硬的拾音降噪能力很重要。

从技术维度解读一下我们做了什么事情。语音识别我不多讲了，这方面大家都差不多，重点讲讲搜狗的算法积累。

搜狗对机器翻译技术很有信心，我们这个技术是跟清华的实验室联合做的，中间有很多技术细节大家可能不是特别了解。首先是端到端神经机器翻译模型，重点讲一下，我们能做到把一个神经网络模型变得可视化，这是重大的突破，我们知道机器学习基本上是一个不可被描述的过程，很难被改进，因而输出的结果很难去优化。而通过这种可视化的神经网络模型，这个技术能够不断被迭代优化。在国际学术赛事 WMT 2017 中，我们的这项技术获得人工评价指标的双向第一名。

翻译这件事情，但凡涉及到人工智能、但凡涉及到机器学习的，就是看数据。搜狗本身是做大数据的公司，我们每天产生的语料长达 24 万小时，调用次数 3.6 亿次，再加上我们从自己的搜索引擎里面可以发掘上亿的语料。有了这个数据的积累，这对我们训练模型是非常有益的。

每天，在搜狗整个平台上翻译相关的请求，有 1.4 亿次左右，包含 200 亿字符，活跃用户超过 1000 万用户。交互翻译方式包括语音、对话、文字翻译和图像翻译。

这里也简单分享一下，为什么搜狗旅行翻译宝的离线能力能做到这么好，这是我们的独家秘籍。现在很多友商，包括讯飞都说自己有离线能力，但是把这个能力拿出来 PK 一下，我们毫不谦虚的讲，他们跟我们的差距还是比较大的。为什么呢？里面有四个核心点：

第一，搜狗的语料数据量足够大。上面已经讲过，这里不再赘述。

第二，我们的模式足够完整。在云端我们有上百 G 的资源和内存可以做计算，但是一般要做到离线设备上挑战就非常大。现在主流手机的内存大概 2-4G，最高配的 6G，怎么把你的模型塞进去。

我们知道，做一个机器和语音对话翻译有三个模型：第一个是识别，能够离线识别出你的语言；第二是通过机器翻译，将一种语言转换成另一种语言；第三是把翻译出来的东西读出来。在翻译机离线内存严重受限的情况下如何把这三个模型放进去？这就是把在线翻译模型压缩，搜狗能做到将翻译模型压缩至1/ 48 ，极大的减少了占用内存空间。

第三，语音运算响应速率可达百毫秒级。在离线的时候非常受限制。如果你的模型能做到足够大，那你的效果一定是很好的。但是这样的话你的计算量很大，效率可能很低，一句话可能需要一秒、两秒才翻译出来。我们自己做了 EVA-Inference，极大提升了反应速率，能达到离线百毫秒级实时响应。

第四，知识的提纯能力。通过压缩翻译模型，翻译效率也会随之降低，例如当你把模型压到 1/4 的时候，准确度和相关指标品质会极速下降。于是我们就通过机器学习的技术，建立相应的弥补模型，希望把准确度和匹配度拉回来，这使得我们的离线翻译水平足以「媲美在线水平」。

搜狗的翻译技术已经支持 24 种语言，覆盖了 200 多个国家。目前我们的离线主要做中英，中日、中韩离线翻译能力应该会在未来的 2-3 个月内发布，其他的语言翻译主要是在线的。

OCR 是比较复杂的技术，特别是文本和 logo，在图像识别领域是很难的事情。搜狗旅行翻译宝已经能做到中英、中日和中韩的 OCR，翻译准确率可达 96%。

OCR分了几个部分，第一部分跟拍相关，你拍的像素、清晰度、光线、角度等等，这都有很大影响；如果你拍的很糟糕，那么谁都没有办法识别，这跟背景、光线、拍摄角度相关。第二部分，OCR 识别的时候要先把文字抠出来，通过离线翻译出来，然后替换成需要的文字。一般行业内讲的准确率 96% 是在相对标准情况下的文字识别率。