Uploads%2farticles%2f11638%2fscreenshot 2017 06 22 11.35.28
|
2017-06-28

这家公司的技术能「窃取」你的声音,未来科技还是招摇撞骗?

嗯,听上去充满浓郁的民科味儿……

语音合成,指的是通过人工方法合成人声的技术,这种技术现在已经比较成熟,特别是今年以来,语音作为交互与人工智能结合受到了更多的重视,语音合成技术也接连取得突破。

虽然「制造」人声已经不是什么难事,但要让人为合成的声音听起来更像真人却还有很长一段路要走。来自旧金山的一支初创团队 BabelOn 打算在语音合成领域做一些微小的工作——让你能直接把自己的声音「翻译」为其他语言,效果就像你本人在用八门外语谈笑风生一样。

BabelOn 的技术需要采集用户的声音信息,用户要在 BabelOn 的录音室里花大概 20 分钟的时间,用各种不同的情绪语气朗读特定的文本,用来创建语言信息档案(BabelOn Language Information Profile, BLIP),此后,基于这份人声档案,BabelOn 就能合成出与本人嗓音高度一致的人声。

这似乎跟已有的语音合成方法没什么两样,例如某导航 App 上人人都爱的林志玲导航语音包,就是通过这种本人声音素材采集+算法合成的方式重现志玲阿姨性感嗓音的。但 BLIP 档案包含的不仅仅是人的声音样本,BabelOn 联合创始人 Daisy Hamilton 将人的身体比喻为乐器,在建立 BLIP 档案时,BabelOn 专门的采集终端会捕捉和分析各种影响和构成人声的因素,例如说话时气息、嘴部的运动、声音在胸腔和喉咙的传播等等,将这些因素加以量化,形成包含多个维度的声音档案。有了所有这些发声要素的信息,BabelOn 几乎等于构建了一个能够重现用户声音的虚拟的发声系统。

听上去简直科幻不是吗,一旦建成这样一份档案,就相当于给人复制了一张万能的虚拟嘴巴,语音翻译似乎是最不起眼的应用方向。

不过,像大多数最终效果听上去很科幻的技术一样,BabelOn 的技术也还处在十分初级的阶段,早在 2004 年,Hamilton 的父辈就看到了类似技术在电影配音行业中的前景,并申请了 BabelOn 背后核心技术的专利。BabelOn 技术的初期的应用方向,也将主要在电影和游戏的配音上。基于人声档案,BabelOn 可以用演员本人的声音合成多种语言的台词,同时赋予声音剧本需要的情感和语气变化,相比请多个语种的配音演员,BabelOn 能够大大提高配音效率,同时减少人工成本。未来,BabelOn 希望能够实现实时的语音翻译。

当外媒关注到 BabelOn 的技术时,首先担心的是一个能够完全复制人声音的系统所带来的潜在安全问题,但这可能是 BabelOn 目前最不需要担心的问题。

BabelOn 技术的关键,在于将各种的影响和构成人声的参数尽可能完整地纳入模型当中,但这一设想本身可能就过于理想化了。把人比作「乐器」的比喻或许没错,但这是一台极其复杂的乐器,一种语言中的某个舌音在另一种语言中根本不存在的情况比比皆是,要根据有限样本模拟这个充满变量的发声系统,并应用到其他语言的发音中,这是与传统的语音合成不同的实现理念。

但在实际合成语音的过程中,BabelOn 又不可避免地仍需借用现有的语音合成相关技术,早在 2004 年 BabelOn 技术没能实现的原因就是「周边技术的限制」,那么现在,BabelOn 在语音合成最基本的可理解度和自然度上,是否就能超越现有的语音合成技术了呢?

BabelOn 表示,他们用于人声信息采集的硬件终端是与美国劳伦斯利弗莫尔国家实验室合作开发的,据称改装自美国国防部用于其他用途的设备。此外关于软件和硬件的相关信息,BabelOn 再没有透露更多。

最后,BabelOn 的这样一项初期明显面向 B 端市场的技术,很奇怪地选择了登录 Indiegogo 展开众筹,Hamilton 表示,他们只是希望通过 Indiagogo 将 BabelOn 介绍给全世界,同时获得申请软件许可的启动资金。

嗯,虽然听上去还是充满浓郁的民科味儿,但还是象征性地表示一下期待吧。

>>
Back to top btn