Uploads%2farticles%2f14169%2f%e5%b0%8f%e7%b1%b3%e5%a3%b0%e5%ad%a6

语音交互：实现「情感化」，业内首家情感化 TTS

对于智能设备而言，实现情感化语音交互是一项挑战。

「情感」本身就是主观的、多样的感受，一种情感可以有多种呈现形式，更适合人与人的面对面对话。情感化语音交互对技术要求较高，要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识，将较主观的情感音素统一化、标准化。

随着人工智能技术的发展，在实现人机对话的基础上，各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素，小米 AI 实验室在「情感数据量有限」的前提下，通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感 TTS（Text to speech，人工语音合成），成为业内首家情感化 TTS 大规模落地的企业。

通过小米 AI 实验室的不断深耕，此次小米小爱同学 Art 全面支持情感化语音交互，基于有限但类型不同的情感音频数据（如开心、关心、害羞、惊讶等），通过不同技术训练并迭代声学模型，最终支持情感 TTS 合成并实现「小爱同学」音色情感化、拟人化。

未来，小米语音将升级此技术——支持情感 TTS 实时合成。

从下图中可以看出，在大数据集的预训练模型基础上，利用目标说话人的中性情感数据对网络进行微调，得到目标说话人的中性情感模型；在此基础上用带情感的小批量数据对模型进一步微调，最终得到不同情感的模型，最终实现情感合成。

在国内语音助手行业中，小米首次实现情感化 TTS 的大规模落地，未来将打造情感更加丰富的「小爱同学」，为用户提供多元化的语音交互体验，为 IoT 设备增加更丰富更立体更逼真的语音交互体验。

AIoT 放音技术：首次实现一句话全屋同步播放相同音频功能

小米小爱音箱 Art，是首款可以实现语音支持全屋播放的设备。用户直接对小爱同学说「全屋播放 XXX」，无需提前在 App 端进行手动设置，即可实现一句话语音交互，为用户提供了更便捷的使用方式。

要实现这一功能，音箱需要具备 AIoT 放音的技术。小米 AIoT 放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后，将不同音箱播放声音的同步优化到微秒级别，同时还实现了在不同型号的音箱之间的数据同步，提供更细腻的音质和宽广的声像。

由这张图可见，立体声支持 APP 创建组网，才能进行语音指令和 APP 操作播放，全屋播放同时支持语音指令和 APP 创建组网。

立体声功能同时支持语音指令和 app 操作播放，云端音频流下发至音箱 A，音箱 A 将立体声分离为左右声道，音箱 A 自己播放左声道音频并将右声道音频流下发给音箱 B，由 B 音箱播放右声道，精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和 app 创建组网，音频流下发至音箱 C，音箱 C 将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放，不区分声道，可支持多个设备。

就近唤醒：业内首次上线，跨设备关闭闹钟功能

早在 2018 年，小米音箱系列就上线了就近唤醒功能。值得一提的是，此次小米小爱音箱 Ar t就近唤醒全新升级，可支持跨设备关闭闹钟。远处的音箱闹钟响了，唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首次上线，小米小爱音箱 Art 也是首款支持该功能的产品。

说到就近唤醒，小米早在 2018 年就上线这一功能，截止 2020 年 4 月 28 日，分布式就近唤醒已为多设备用户累计避免约 6.82 亿次设备同时唤醒，准确率达到 98%。近期首发上线了端云多维度结合的就近唤醒综合决策策略，深入加强多设备状态信息联动，智能判决空间信息，进一步提升了家庭复杂网络环境的兼容性，同时做到了多设备响应的唯一执行，大幅提升用户体验。

未来，小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中，保证算法的可用性，让每个设备主动感知所处的不同环境，根据环境完成算法自适应，将数据结果取长补短，相互融合，实现多维度智能感知。

两麦阵列唤醒：兼顾低功耗与高性能，高效降噪，获得干净人声

小米小爱音箱 Art 同步支持两麦阵列唤醒技术。在麦克风阵列方面，小米采用两麦盲源分离降噪前端，通过盲源分离、降噪、回声消除等技术，在多声源的嘈杂环境、音箱自身播放音乐时，都能结合语音增强技术，消除噪音的强干扰，获得干净、准确的人声音频。

在唤醒方面，为了兼顾低功耗与高性能，自研语音唤醒算法采用双级唤醒策略。

低功耗待机唤醒词检测模型，利用子采样与共享隐含层等技术，减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型，采用粗粒度建模单元，结合局部信息与长时上下文信息，高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本，再经过数据扩充技术，提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

据小米官方数据，现在，小米 IoT 平台连接的智能硬件数已达到 2.5 亿台，音箱出货量已经达到 2200 万台。在这么大的用户体量下，如何让基础体验持续提升，且提升产品在 AI 体验上的创新性，对自研 AI 团队来说是非常重要的使命。

编辑：左一 / 深圳湾

资讯来源：小米

小米