2019-11-23

AI 如何像人一样聊天、唱歌不走调？微软小冰首席科学家揭秘背后的技术

小冰表面古灵精怪，背后蕴藏大力量

化名参加央美的研究生毕业展、举办个人画展、以人工智能歌手身份签约 AVEX，成为滨崎步、安室奈美惠的同门师妹，在网易云上发布单曲……微软小冰今年出镜率高了不少，它在用实际行动展示人工智能创造（AI Creation）的可能性，以及微软研究落地的可行性和价值。

本周四，微软小冰在北京微软（亚洲）互联网工程院举办 Research Workshop，系统分享了微软小冰在 AI 人机对话、人工智能创造（唱歌）、跨模态理解这几方面技术的最新进展，为我们一一揭露小冰才艺爆棚背后的复杂技术。

从学习人说话，到自主学习，微软小冰走向「自我完备」

作为一个主打 EQ、由闲聊机器人起家的人工智能，微软小冰在对话式 AI 技术方面有着许多领先业界的创举：最早提出全双工语音对话技术，发展至今，平均对话轮数（CPS）达到世界领先的 23 轮；第六代小冰升级共感模型，融合全双工和实时视觉，让 AI 也能「察言观色」；第七代小冰实现了从「平等对话」向「主导对话」方向的跨越。简单来说，小冰在培养越来越接近人类的交流能力。

微软小冰首席 NLP 科学家武威用「Self-Complete」（自我完备）这一个词语概括微软小冰近几年来的研发成果。具体来讲，Self-Complete 需要 AI 自主学习、自主管理、自主关联这三种能力。

自主学习

对话机器人学习分为两个层次，第一个层次是从人类的对话中学习说话，这是目前对话式 AI 正在主攻的方向。这次，武威重点谈到第二个层次，机器之间的互相学习，也是微软小冰的一个新探索方向。

机器之间的的互相学习，道理其实就类似人类的「你有一个思想，我有一个思想，我们交换一下，一人就有两个思想甚至更多」。

「术业有专攻」，跟人类一样，每个机器人也都可能有自己的领域知识。微软小冰团队研发出了 Co-teaching 算法，让 AI 的两个不同检索模型在训练过程中互为师生、相互学习。结果表明，两个模型对比以往的学习路径都有了显著提升。

自主管理

自主管理即 AI 能管理说话的内容、走向，典型的应用就是微软小冰第六代公布的共感模型。

在共感模型中，包含两个模型，一个回复生成模型，即决定说什么。第二个为策略决定模型，即怎么说。两个模型相结合，将微软小冰从原来基于上下文直接产生回复的模式，转变成了基于上下文产生策略，从而产生相应的对话，譬如主动引导一个话题、提问、确认、或者是无意识、简单的回复。

在日本、美国，微软小冰基于知识库，通过对上下文对话理解，做到了帮助用户挑选所购买商品，达到了 68% 的转化率。这是微软小冰共感模型在商业落地上的其中一个应用。

自主联结

自主联结，指的是机器人能够将包括搜索引擎、文档、图片、视频、知识图谱等分散在各地的多模态知识，联结起来，进行消化、吸收，形成自己的输出内容，内容也不限于文本、图片等任一形式。

今年 2 月，微软小冰面向未来的多模态交互感官已在日本完成公开测试：通过手机 APP 应用和手机摄像头，小冰可综合文本、声音和图像等信息与人类交流。比如在日本的一项测试中，用手机摄像头充当眼睛，小冰可以在陪用户一同逛水族馆，对所见所闻（鱼）挑起对话、评论。

模型+数据，让 AI 学唱歌比学说话要难得多

在本次 Workshop 上，微软首席语音科学家栾剑，首次系统披露微软小冰歌唱能力背后的技术。

栾剑提到，相比说话，唱歌具有门槛高、情感表达更丰富的特点。此外，唱歌具备发音、节拍、旋律三大基本要素。因此，AI 唱歌技术可以沿袭过去的语音合成技术，同时也存在额外的技术难点。

传统的 AI 唱歌模型主要包含单元拼接、参数合成（隐马尔可夫模型）这两种主流的方式，但也都各有短板：单元拼接易导致唱腔过渡不自然、生硬，参数合成因声码器的关系会损失音质。

微软小冰采取参数合成的方式，加以模型改良，避免出现上述情况。在模式上分别对声谱参数、节奏序列、音高轨迹（即唱歌的三大要素）进行建模，为协调三个参数的耦合性，微软用一个预测参数模型同时预测三个参数，但按照目前技术水平处理上有不小的难度。栾剑表示，卷积神经网络近几年的快速发展，让三个参数同时建模成为可能。

众所周知，深度学习需要大数据的训练来支持。栾剑坦言，AI 唱歌技能养成的一个大难题是严重缺乏清唱的数据。对此，小冰与唱片公司合作，在混杂各种音轨、伴奏的歌曲中，将人声部分的时间戳进行标注、发音的起始结束时间、音高轨迹进行提取，给小冰训练出更丰富的演唱风格。

谈谈比喻句创作、绘画生成：AI 要有理解能力，也要懂常识

文本创作、绘画作为微软小冰人工智能创作的重点技能，也在巩固的基础上持续突破新的技术难点。微软小冰首席科学家宋睿华为大家讲解了其最新的进展：学会造比喻句，跨模态理解。

不同于人类常用的「像……一样」的手法，微软小冰通过输出「解释」的方式创造比喻句，重点关注本体和喻体之间的联系。

对此，微软小冰团队从诗歌中抽取了 120 个主题，挑选了 6 大类，96 个常用比喻的概念，随后从 1000 个常用词中选取 3000 个最常用的形容词扩充小冰的比喻能力。例如将爱情、心、世界、梦想、生活、快乐等抽象概念，提取出相关信息，相互之间关联产生合理的比喻。

小冰已有的合格比喻句作品有：

爱情跟脂肪联系造成的比喻句：「爱情就像脂肪，是点点滴滴的积累。」
灵魂与球迷联系造成的比喻句：「灵魂就像球迷一样，在无声的呐喊。」

跨模态理解

用跨模态的方式去理解文本，是微软小冰训练理解能力的一个课题。

目前，业界已经有类似 Text-to-Image、Text-to-Video、Story-to-Image 这样一些旨在挖掘 AI 理解能力的课题。以 Story-to-Image 为例，微软小冰希望能模仿人类，理解一句话背后暗含的意思，以及常识。

不同于单一检索，Story-to-Image 以故事为基础输出图像，关系到上下文的连贯性，图画细节是否与故事匹配（match），此外，鉴于以往 one to one 训练数据，一句话只能输出一张图像，往往无法展现语句的所有信息量。

对此，微软小冰创新性地提出 one to more 的训练算法，让 AI 针对一句话、一个故事线输出数张图片。

比如「有一个老太婆养着一只母鸡，它每天下一个黄灿灿的金蛋」。one to one 的模型只输出一张老奶奶的图片，而 one to more 的模型，能在这基础上再输出一张鸡蛋图片。

另外，人类普遍具备的「常识」也是人工智能需要提升的一个能力。例如，人类都知道「北极熊是白色」的事实，因此不会在写作中特意加上「白色的」这样一个前缀来描述北极熊。

相应的，在「画饼充饥」Story-to-Image 的训练中，小冰在创作的绘画中表现出了父母找到丢失小孩是「激动」的心情，是一种理解人类情绪的常识的表现。

做一个通用型的 AI Being：技术要有挑战，成果要能被接受

谈到人工智能，我们目前大多接触到的是实用性的语音助手，鲜少有人体会和理解像小冰这样情感、才艺型的 AI，它们会朝着什么样的路径发展。

在接受采访过程中，栾剑、宋睿华均表达了的微软小冰在 AI 技术研究上的立场。

就技术而言，微软小冰首先瞄准具有挑战性的研究方向，但也必须以目前技术能够达到的程度为前提。其次，要做出大家能够广泛接受的产品和成果，反之群众接受度不高，不利于收集反馈数据，以及推进研发的进展。

对于技术能够产生怎样的商业价值，不仅仅是市场团队，研发团队本身也在挖掘。以基于跨模态理解的绘画生成技能为例，未来将有可能应用在儿童绘本创作中。以唱歌为例，目前原创词曲是稀缺资源，日后微软小冰如果能在这方面有建树，也将会有巨大的想象空间。

微软小冰团队进一步表示，只有技术成果达到理想状态，才会推向市场。回到今年第七代微软小冰发布 AI beings 完整框架 Avatar Framework 时所传达的宗旨，让微软小冰的能力形成一个通用型的平台，帮助厂商打造各种各样的 AI，「孕育出一片 AI 森林」。

PS.福利大放送
整场 Workshop 干货满满，一篇文章无法精细覆盖到每一个技术点。本文提到的所有技术点，微软（亚洲）互联网工程院均已经发布了相应技术成果的论文。
感兴趣的技术小伙伴，可在深圳湾（ID:shenzhenware）公众号留言「微软小冰」四个字，获取微软小冰技术相关学术论文

微软小冰

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：Nreal 联合运营商将进韩国市场，开发者套件全球预售

下一篇：何止 Meta x Oakley，小米等十家 AI 拍摄眼镜上新！下半年好看！