Google I/O 2019:AI 往实用性的道路前行,少了黑科技依旧精彩
最新动态
|
2019-05-17
Google 发布 Translatotron 翻译系统,支持语音直接翻语音
未来的 Google 翻译能模仿你的说话特征
随着机器学习和 AI 技术的发展,机器翻译得到了快速的发展,在很多的场景下,我们都可以看到机器语音翻译的应用。在现阶段,语音翻译系统在实现翻译时大致需要三个步骤:
1、自动语音识别,将语音转录为文本
2、通过机器翻译,将文本翻译成另一种语言的文本
3、将文本再生成翻译后的语音(TTS)
不过,Google AI 最新的论文显示,Google 正尝试将这三步中的文本翻译去掉——日前,Google AI 官方博客提出了一个实验性质的新系统 「Translatotron」,这一系统可实现使用序列到序列模型的直接语音翻译,是首个能够直接将一种语言的语音内容直接翻译成另一种语言的语音版本,而中间不需要文本转化的端到端模型。得益于此,Translatotron 可以实现更快的翻译速度,还能降低机器转译出现的错误。
Translatotron 系统能够在翻译时将说话者的语音使用频谱图作为输入,再配合神经声码器和扬声器编码器的切入进行编码处理,最终以目标语言生成新的频谱图,实现语音到语音的翻译转换输出。
并且,扬声器编码器可以在预先进行一些简单的对话训练,并在训练中针对说话者的声音特征进行编码。通过学习之后,再调节新的频谱图解码器,这样就可以使合成后的语音能够保留一些说话者的声音特征,就算是不同的语言也都可以实现特征保留。
虽然最终的语音听起来会有些机器人的感觉,不过也算是在实现真正的「同声」传译之路上迈进一大步了。
Google 表示,Translatotron 系统的推进将是未来语音转语音翻译系统的新起点。