Find X8 系列定档 10 月 24,首发潮汐引擎 x 天玑 9400 最强组合
Google 开放基于 DeepMind's AI 的 TTS 服务,接入后你的设备也能像人类一样自然的说话
可覆盖 12 种语言,32 种方言口音。
3 月 27 日,Google 宣布推出一款新的 AI 语音 TTS 服务,作为其机器学习云工具套件的一部分。这项服务被命名为「Cloud Text-to-Speech」,任何开发者或者企业可购买服务。
Google 表示,这项新服务可提供 12 种语言、32 种不同版本的语音选择,并支持多种音频格式,包括 MP3 和 WAV。此外,开发人员还可以根据需求,自定义音调、语速和音量增益等要素。
基于 WaveNet 神经网络,与自然人声交互相似度高达 70%
有趣的是,Cloud Text-to-Speech 中包含许多使用 WaveNet 构建的高保真声音。WaveNets 是由 Google 旗下子公司 DeepMind 实验室研发的一种卷积神经网络,基于 WaveNets 神经网络,能使得机器模拟生成的语音更为自然,与人类声音之间的相似度能提高到 70% 以上。
在 2016 年末,DeepMind 推出 WaveNet 的第一个版本,当时在实验室环境之外的应用效果还十分生硬,在此之后的一年半里 ,Google Speech 团队一直在大力投资,并与 DeepMind 紧密合作来将 WaveNet 模型产品化。
去年 10 月,WaveNet 首次被整合到 Google Assistant 中(尽管只有英语和日文两个版本),其自然环境下合成的语音效果已经有了巨大的改善,现在则可以应用于 Cloud Text-to-Speech 中。
最新版本 WaveNet 模型运行于 Google 云端 TPU 基础架构之上,生成的原始波形比原始版本快 1000 倍,并且可实现在 50ms 内生成 1s 的语音内容。
「WaveNet 具备一个巨大的人类语音数据库,WaveNet 能将采样速率从 8 位提高到 16 位,能在 1s 时间内创建出 24000 个样本波形,高度再现出包括唇音、喉音在内的声音细节,以达到更加人性化的高保真人声效果。」Google Cloud AI 的产品经理 Dan Aharon 在博客中写到。
开发者可应用于电视、汽车、机器人等 IoT 设备,对 Google 意义重大
据 Dan Aharon 介绍,开发者可以通过多种方式应用 Cloud Text-to-Speech,例如:
- 嵌入智能电视、汽车、机器人、智能音箱地等 IoT 设备;
- 打造自然人声对话系统,为公司提供语音服务系统(IVR);
- 将基于文本的内容资源(如新闻、书籍)转换为语音格式(例如电台广播或有声读物);
据外媒评论,这一动作无疑对于 Google 是意义重大的,具体原因体现在以下两个方面:
首先,自 Google 于 2014 年收购 DeepMind 起,就一直在尝试如何将 Deepmind 的 AI 技术转化为可落地商业化的产品。到目前为止 ,DeepMind 的算法已经被应用在 Google 数据中心,并能够为之减少 40% 的演算成本;此外 Deepmind 的 AI 技术还被应用在了健康领域。更重要的是,此次直接将 WaveNet 整合进 Google 的云业务中,将赋予 Google Cloud 以 AI 为其独特要素,并依此赢得亚马逊与微软的云业务。
其次,Deepmind 的 AI 语音 TTS 技术已经是目前业内技术最为先进、商用最为成熟的技术之一。大多数语音合成器(包括苹果的 Siri),都是使用所谓的拼接式合成,程序会以单个音节的形式进行处理存储,例如「ba」「sht」「oo」,然后将它们按照特定的语法拼接起来形成单词与句子。尽管这种方法的应用已经相当成熟,但在听觉体验上依然不够自然。
相比之下,Cloud Text-to-Speech 被认为是世界范围内最优秀的 TTS 系统,其提供的基于 WaveNet 卷积网络模型合成的人声,比标准(非 WaveNet)声音的 MOS 好 20% 以上,与人类声音的相似度超过 70 %,在世界范围内被认为是最优秀的 TTS 系统。
目前 Cloud Text-to-Speech 已经向个人开发者及企业开放,详细的操作指南及定价均已在 Google Cloud 官方博客开放。(作者:谈哲@深圳湾)