Google 发布 Translatotron 翻译系统，支持语音直接翻语音

Uploads%2farticles%2f13156%2fgoogles translatotron translates speech directly to speech

最新动态 |

2019-05-17

Google 发布 Translatotron 翻译系统，支持语音直接翻语音

未来的 Google 翻译能模仿你的说话特征

陈鑫

随着机器学习和 AI 技术的发展，机器翻译得到了快速的发展，在很多的场景下，我们都可以看到机器语音翻译的应用。在现阶段，语音翻译系统在实现翻译时大致需要三个步骤：

1、自动语音识别，将语音转录为文本

2、通过机器翻译，将文本翻译成另一种语言的文本

3、将文本再生成翻译后的语音（TTS）

不过，Google AI 最新的论文显示，Google 正尝试将这三步中的文本翻译去掉——日前，Google AI 官方博客提出了一个实验性质的新系统「Translatotron」，这一系统可实现使用序列到序列模型的直接语音翻译，是首个能够直接将一种语言的语音内容直接翻译成另一种语言的语音版本，而中间不需要文本转化的端到端模型。得益于此，Translatotron 可以实现更快的翻译速度，还能降低机器转译出现的错误。

Translatotron 系统能够在翻译时将说话者的语音使用频谱图作为输入，再配合神经声码器和扬声器编码器的切入进行编码处理，最终以目标语言生成新的频谱图，实现语音到语音的翻译转换输出。