行业观察 |

2018-03-29

Google 开放基于 DeepMind's AI 的 TTS 服务，接入后你的设备也能像人类一样自然的说话

可覆盖 12 种语言，32 种方言口音。

谈哲

3 月 27 日，Google 宣布推出一款新的 AI 语音 TTS 服务，作为其机器学习云工具套件的一部分。这项服务被命名为「Cloud Text-to-Speech」，任何开发者或者企业可购买服务。

Google 表示，这项新服务可提供 12 种语言、32 种不同版本的语音选择，并支持多种音频格式，包括 MP3 和 WAV。此外，开发人员还可以根据需求，自定义音调、语速和音量增益等要素。

基于 WaveNet 神经网络，与自然人声交互相似度高达 70%

有趣的是，Cloud Text-to-Speech 中包含许多使用 WaveNet 构建的高保真声音。WaveNets 是由 Google 旗下子公司 DeepMind 实验室研发的一种卷积神经网络，基于 WaveNets 神经网络，能使得机器模拟生成的语音更为自然，与人类声音之间的相似度能提高到 70% 以上。

去年 10 月，WaveNet 首次被整合进 Google Assistant，被应用到 Google Home 等硬件产品中

在 2016 年末，DeepMind 推出 WaveNet 的第一个版本，当时在实验室环境之外的应用效果还十分生硬，在此之后的一年半里，Google Speech 团队一直在大力投资，并与 DeepMind 紧密合作来将 WaveNet 模型产品化。

去年 10 月，WaveNet 首次被整合到 Google Assistant 中（尽管只有英语和日文两个版本），其自然环境下合成的语音效果已经有了巨大的改善，现在则可以应用于 Cloud Text-to-Speech 中。

最新版本 WaveNet 模型运行于 Google 云端 TPU 基础架构之上，生成的原始波形比原始版本快 1000 倍，并且可实现在 50ms 内生成 1s 的语音内容。

「WaveNet 具备一个巨大的人类语音数据库，WaveNet 能将采样速率从 8 位提高到 16 位，能在 1s 时间内创建出 24000 个样本波形，高度再现出包括唇音、喉音在内的声音细节，以达到更加人性化的高保真人声效果。」Google Cloud AI 的产品经理 Dan Aharon 在博客中写到。

开发者可应用于电视、汽车、机器人等 IoT 设备，对 Google 意义重大

据 Dan Aharon 介绍，开发者可以通过多种方式应用 Cloud Text-to-Speech，例如：

嵌入智能电视、汽车、机器人、智能音箱地等 IoT 设备；
打造自然人声对话系统，为公司提供语音服务系统（IVR）；
将基于文本的内容资源（如新闻、书籍）转换为语音格式（例如电台广播或有声读物）；

据外媒评论，这一动作无疑对于 Google 是意义重大的，具体原因体现在以下两个方面：

首先，自 Google 于 2014 年收购 DeepMind 起，就一直在尝试如何将 Deepmind 的 AI 技术转化为可落地商业化的产品。到目前为止，DeepMind 的算法已经被应用在 Google 数据中心，并能够为之减少 40% 的演算成本；此外 Deepmind 的 AI 技术还被应用在了健康领域。更重要的是，此次直接将 WaveNet 整合进 Google 的云业务中，将赋予 Google Cloud 以 AI 为其独特要素，并依此赢得亚马逊与微软的云业务。

图注：据测试小组给出的意见评分 4.1（1-5分），WaveNet 的美国英语发音比标准（非 WaveNet）声音的 MOS 好 20％以上，与人类声音的相似度超过 70 ％。

其次，Deepmind 的 AI 语音 TTS 技术已经是目前业内技术最为先进、商用最为成熟的技术之一。大多数语音合成器（包括苹果的 Siri），都是使用所谓的拼接式合成，程序会以单个音节的形式进行处理存储，例如「ba」「sht」「oo」，然后将它们按照特定的语法拼接起来形成单词与句子。尽管这种方法的应用已经相当成熟，但在听觉体验上依然不够自然。

相比之下，Cloud Text-to-Speech 被认为是世界范围内最优秀的 TTS 系统，其提供的基于 WaveNet 卷积网络模型合成的人声，比标准（非 WaveNet）声音的 MOS 好 20％以上，与人类声音的相似度超过 70 ％，在世界范围内被认为是最优秀的 TTS 系统。

目前 Cloud Text-to-Speech 已经向个人开发者及企业开放，详细的操作指南及定价均已在 Google Cloud 官方博客开放。（作者：谈哲@深圳湾）

TTS