产品评测 |

2020-03-13

实测小度语音定制后，对语音助手从工具向人格化方向进化的思考

用自己的合成音给孩子讲故事，小度语音定制功能上线后的体验和思考

陳壹零

前几天，我收到了一条小度上线语音定制新功能的推送。

定制化语音是一个非常值得关注的新方向。虽然用机器合成音朗读文本并不陌生，但是用定制化的合成音朗读一篇童话故事，这个功能还是吸引了宅在家里的我和我的家人。

通过小度 APP，找到「设备超能力」的「爸妈讲故事」，有一个一分钟的介绍视频。在页面底端点击「一键录制专属语音」，按照提示，即可录制自己或家人的语音包。

△ 在小度 APP 中的「设备超能力」里，找到「爸妈讲故事」，就可以启用定制化语音功能

在安静的环境，我用了不到 3 分钟的时间，跟读和录制 20 条音频内容。语音训练的内容是两则童话，录制完成后，系统会对每一条语音进行自动的检测和判断，直到全部完成后提交。

语音包生成后，大概需要一个小时左右的制作时间，完成后系统自动将语音包直接推送到小度在家智能屏或小度智能音箱上。这时，再唤醒小度，点播「爸妈讲故事」，小度就可以用我的合成音给宅在家里的孩子们讲故事了。

△ 小度定制化语音功能的体验

定制化语音功能的体验，不仅要看制作流程，还要听声音的温度

定制化语音这个概念对于普通用户来说，还是一个专业词汇，其背后的技术可能未必能看得透彻。用户更多关注的是，要用 AI 合成的自己的声音给孩子讲故事，制作流程是否便捷，合成的声音听起来是否舒服。

我们先看制作的流程。小度的定制合成音可以在任何一部安装了小度 APP 的手机上完成。

但目前小度的定制合成音只应用在了「听爸妈讲故事」这一个技能上，且 APP 上的入口很深（小度还没有在首页做推荐）。当然，如果直接用语音搜索，系统则会快速跳转调用「听爸妈讲故事」这个技能。

录制的内容选用的两则童话——与「听爸妈讲故事」里的童话故事样本属于一个领域，且机器的领读兼顾了情感的加入，也会让我和我的家人在录制时，不由自主的用「情」，声音也更有感情色彩。

△ 语音样本的取材和领读者的声音语调，甚至交互流程的设计，对于跟读者都会有影响

录制完成后，声音会自动上传云端，然后再将合成音同步到内置小度语音助手的智能屏或智能音箱，就可以点播预先设定好的语音包，让个性化的声音讲故事了。

接着我们来听一下合成后的效果。仔细对比后（鉴于像我这样的普通用户，并不是语音合成的专业人士，所以「仔细对比」主要是建立在感官上的对比，而非专业参数），我发现小度的合成效果在音色、语速、语气、停顿、相似度等方面，都略胜一筹。

△ 小度用 20 句语音样本定制的合成音，来模仿真人讲童话

为了弥补合成音不可避免的出现的一些错音，系统还自动添加了音乐作为背景。有了音乐的烘托，即便是用机器合成音朗读的童话故事，听起来也会更加舒适、自然。

从某种程度上说，小度的定制化语音更像是「听爸妈讲故事」这个语音技能的一个绑定功能。但也恰恰是因为从设备端出发、从场景出发、从用户体验的细节出发，才会让小度的定制化语音功能，成为用户真正喜欢用的技能。

值得一提的是，起初我以为小度上线的可阅读的童话故事只有固定的《皇帝的新装》等 10 篇，但随着我录制的个性化语音包数量增加，可朗读的童话数量也随之增加。我听「孩子」讲故事，孩子听「外婆」讲故事，一家人玩的倒也是惬意。

△ 听爸妈讲故事中的故事库，每一个声音所读的故事内容会有所不同

纵观行业，定制化语音的发展路径各有差异

语音合成技术由来已久，即便是在大众市场，用林志玲、郭德纲等娱乐明星合成的语音导航，早已成为老百姓们开车时的最爱。

而定制化语音业已行业关注的新方向，并且已经有很多公司致力于相关技术和产品的研发。

去年，百度地图曾上线定制语音导航的功能，同样是采用了 APP 跟读和录制的模式，但阅读内容是 20 句看似并没有什么共性的随机生成的句子（这一点和小度在家跟读童话有一些不一样）。

在「语音广场」的语音包列表里，还能找到到百度地图为艺人们录制好的语音包，华晨宇、包贝尔一应俱全。一天换一个，开车不孤单。

今年 2 月，在小米 10 的新品发布会上，小米也公布了小爱同学定制声音、定制唤醒词的功能。

录制的流程是类似的。不同的是，目前小爱同学的定制化语音仅向小米 10 系的手机开放。并且，从官方分享的视频来看，其应用主要是在一问一答的语音搜索。

△ 小爱同学定制声音的官方演示

Google 的 TTS 最近也有了更新。在已获得 GMS（Google 移动服务）许可的 Android 设备上，通过 Chrome 浏览器打开任一网页，说「Hey Google，Read It」，就可以语音调用 Google Assistant 直接用本国语言读网页了。

出于长文本阅读的难度，Google 还没有在「定制化」文本阅读的方向上向前再迈一步。但 Google 此次在 Android 设备上推出可以直接阅读网页的语音助手，也透露着人们希望通过「聆听」获取信息的需求在与日俱增。

△ Google Read It 体验 | 图源：Droid Life

一般来说，专业的声音合成需要专业人士指导，在录音棚录制 500 甚至上万句语料素材，录制的过程少则 4~6 小时，多达数日。有些厂商因此也采用了多层级定制的个性化 TTS。而判断 TTS 效果好坏的标准，则主要看性价比，即投入的成本越高（文本采样的数量、后期合成投入的人力等），合成音的效果也就越好。

此外，语音定制功能，考验的是前端语音规格系统和后端合成拼接系统（时长模型、声学模型、声码器等）的成熟度。这需要很多年的积累，不仅是技术的积累，还有经验和语音素材的积累。

而从行业厂商一系列动作来看，语音定制功能背后，不仅体现了软硬件厂商技术实力的较量和比拼，更是 AI 技术和产品体验设计方面的底蕴。

△ 电影《Her》中，男主与温柔性感的萨曼萨的 AI 合成音对话。

定制化语音是语音交互体验的一次升级，但更人性化的语音才是未来

回顾过去几年，语音交互技术从以亚马逊 Echo 为代表的智能设备诞生以来，就在不断的演进。

最初，语音助手需要具备「你问我答」的基本功能。在 2015 年到 2018 年的几年间，几乎所有的支持语音助手的智能设备，都具备了这一功能。

尽管已经体现了人机交互中，设备「智能」的一面，但绝大部分的设备，仅能够提供基础的信息查询服务。

△ 亚马逊在去年也推出了 Alexa Conversations，将对话式技能开发工具升级

当时在 AI 领域领先的百度，也在小度音箱大卖后，很快意识到，这种单向的交流是远远不够的。重复唤醒、对话中断，使得很多智能设备成为听不懂、答不上的「智障」。

在 2018 年末的百度世界大会上，李彦宏首次通过小度在家演示了一次唤醒多次交互的 AI 对话。之后，小度不断的升级全双工免唤醒能力，不仅实现了与小度对话的对答如流，聊天也越来越人性化。

△ 李彦宏在百度世界大会 2018 上演示 Endless Conversation。

与一些产品公司不断的升级硬件设备的做法不同，小度在这两年的硬件迭代并没有那么频繁，但小度在产品人性化方面却在持续补强，才会让人们真正喜欢。

百度曾在 2019 年 Q4 财报中公布了小度品牌第一方硬件语音月交互次数，23 亿交互量是去年同期的 7 倍多。看到这个数字，我脑海里浮现了一组画面：

△ 小度在家智能屏 X8

老爸每天早起都会收到小度播报的疫情新闻、老妈边擀着饺子皮边追着她喜欢的电视剧、小朋友还会偷懒让小度帮忙做计算题、或是一家人一起玩成语接龙......每当看到这样的场景，就会感慨，这数十亿次的交互背后，不仅是语音技术的不断优化升级，也是对更自然、流畅的语音体验的打磨。

最新发布的小度在家智能屏 X8，融合了人脸识别、手势控制、眼神唤醒等更多的人性化交互方式；通过童脸识别即可快速进入儿童模式，进而直达丰富的儿童教育娱乐内容；通过手势「OK」就可以直接操控界面。同时在人机对话方面，系统通过 AI 模型演进和自学习 AI 系统进行自动学习，从而更好的理解和满足用户的需求。