深度特稿 |

2018-05-03

如何提高人工智能的情商？揭秘语音交互话术中的六大普适性原则

以目标为中心、准确、简洁、自然、友好、有个性

欧源

「与机器像和人一样对话」大概是人类对人工智能最初的设想，也是人类希望在人工智能领域实现的目标。

然而，现在的人工智能还仅仅停留在「可以说话」的阶段，离「会说话」还存在不小的差距，我们经常可以听到「这个问题我还理解不了，如果你想……，可以这样对我说……」诸如此类「低情商」的反馈。

为了探索让机器如何「像人一样说话」，本篇文章将从用户视角出发，尝试从艺术和人性的角度对语音交互中的机器话术进行阐述，主要包含以下内容：

1. 话术设计研究：我们如何做的

2. 话术设计原则：用户关注什么？哪个更重要

3. 话术设计建议：原则如何指导话术设计

本文转载自百度 AI 交互设计院。

话术设计研究：我们如何做的？

当下的话术研究多从研究者视角出发，原则主要源自研究者的日常观察、哲学思辩和专业判断。本次，我们从用户视角出发来探讨话术，研究过程如下：

1. 案头研究

我们对人与人的对话结构和对话原则进行了系统梳理，特别推荐 Grice 的「合作原则」（出自《逻辑与会话》演讲，1967）和索振羽的「得体原则」（出自《语用学教程》第二版，2014）。这一步至关重要，它加深了我们对「对话」的理解，这些原则也成为我们设计实验话术时的重要参考依据。

2. 对话场景设计

为覆盖尽可能多的场景，我们系统梳理了语音交互的典型场景，如听音乐、问天气、家居控制、生活服务等。同时，每个场景下也细分了机器的不同状态，如是否听清、能否识别、是否有能力满足等。

3. 具体话术设计

对话场景梳理清晰后，我们针对每个场景设计实验所需话术。话术来源主要有二，一是主流语音交互产品的现有话术，二是研究者基于人与人的对话原则撰写而成的话术。

4. 话术实验

上述准备完成后，进入正式实验阶段。在实验中，我们创设了各类场景（具体场景见「对话场景设计」部分），并且模拟了真实的人机对话过程（所有实验话术均转为语音合成音进行播报），要求用户基于真实体验对不同场景下每类话术的喜好度进行评价。

同时，我们使用了「参与式设计」，以「假如你是机器，你会如何回答」为起点，引导用户更深地参与到话术设计中，共同探讨实验话术以及更为理想的表达方式。这一过程使我们获得了大量源自用户的鲜活话术，也使我们能从更丰富的角度挖掘用户构建话术的原则、方法与技巧。

5. 设计原则提炼与验证

基于案头研究和实验发现，我们提炼了初步的设计原则。之后，要求用户对原则的可理解性、全面性、适用性等进行评估。经过多轮评估，我们不断调整原则，最终获得了现在的话术设计原则。

话术设计原则：用户关注什么？哪个更重要？

我们发现，在用户心中，好的话术要兼顾理性和感性原则。理性原则体现在「机器的话是有用的」，话术应该是以目标为中心、准确、简洁的；感性原则强调「对话过程令人愉悦」，话术应该是自然、友好、有个性的。

同时，我们要求用户基于自身体验对各原则的重要性进行了 1-10 级评价，其中1分代表非常不重要，10 分代表非常重要，分数越高，重要性越高。

结果发现，现阶段，用户更看重理性原则，尤其是以目标为中心，准确，而自然、友好等感性原则暂居相对次要的位置。

此外，我们也梳理了不同原则下的具体评估指标，这些指标代表在该原则下，用户在对话中具体的关注点。不同指标的重要性有所不同，详见下表。

话术设计建议：原则如何指导话术设计？

接下来，我们一起看看上述这些原则如何指导具体的机器话术设计。

1. 以目标为中心原则

以目标为中心是用户最为看重的原则。用户非常重视效率（闲聊场景除外），他们希望机器的回复与自己的需求高相关，可以快速达成心中所想。

同时，用户表示在语音交互中，需要更多「引导」，尤其需要了解机器当下和未来状态。语音看不见摸不着，我们无法像在图形用户界面（GUI）中那样——通过导航条判断所在的位置，看到按钮可以判断是否点击等。如果缺少必要的引导，用户在语音交互中很容易迷茫，产生各类负面情绪。

因此，话术设计时，必须遵循以目标为中心原则，做好引导，让用户可以通过声音「看到」通往需求的路径。基于此原则，设计话术时可考虑以下几条建议：

建议 1：优先回应用户的核心意图

围绕用户最关心的问题优先给出适合的回应。

建议 2：清楚传达机器当前的情况

如果因为各种原因无法直接满足用户需求时，应及时告知，避免用户困惑。

建议 3：澄清目标，不轻易终结对话
对话过程中，引导用户不断澄清目标，不轻易做话题的终结者。

建议 4：告诉用户接下来怎么做

不能清晰识别用户意图时，可主动询问用户有可能的意图，引导用户完成目标。

建议 5：提供相关替代方案

在无法直接满足用户时，可考虑提供相关度较高的替代方案，间接满足用户。

2. 准确原则

用户认为表达准确是最基本的原则。表述不准确可能导致用户误解、无法判断机器所要传达的真正含义，使对话脱离正轨甚至无法进行。

基于准确原则，设计话术时可考虑以下建议：

建议 1：避免表述有歧义

表述的含义要确定，不要说让用户「这样理解可以，那样理解也可以」的话。口语中最常见的歧义是同音歧义，即语音相同带来的歧义。以下两类同音歧义，话术设计时需要注意：

同音异形词歧义，如播放菜谱时提到「切 ji 放糖」，是「记」还是「忌」？

同音同形词歧义，如闲聊时提到「我最喜欢杜鹃啦」，是杜鹃这种花还是杜鹃这种鸟？

建议 2：避免表述过于笼统模糊

表述要尽可能具体明确，避免过于笼统模糊。

我们来看下面一个案例，研究中，面对第一种话术，大多数用户表示「有点懵」，「是给音箱起名字，还是告诉音箱自己的名字？不知道该怎么回答」。而第二种话术则明确指出是「音箱对自己的称呼」。

3. 简洁原则

在研究中，用户多次提到「不喜欢这个话术，太啰嗦了，能不能拣重点说」，「说太多了，压根没记住啊」，这些抱怨体现了用户对简洁的重视。

用户如此重视简洁是必然的。语音是一维线性的，只能一个字一个字的听完，无法快进，不能后退。哪怕信息不相关、无意义，用户都无法略过。这些冗余信息既浪费用户时间，也会增加用户的烦躁情绪。

更重要的是，大脑能处理的语音信息量有限，一旦超出会给人的工作记忆造成负担。长期以来，神奇数字 7±2 被认为是工作记忆的容量，但近期这一标准遭到质疑，普遍认为这一估计偏高。有研究者（Mastin，2010）认为这一数字可能是 4±1。

基于此原则，设计话术时可考虑以下几条建议：

建议 1：表述简单明了，不啰嗦

传递必要信息前提下，保持话术简洁。

建议 2：避免信息量过大，一次提供的选项不超过三个

单次交互提供的信息量不要过大，以免给用户造成认知和记忆负担。

4. 自然原则

在研究中，听到某些话术，用户纷纷表示「这太生硬了，一点都不自然」，「这明显就是机器说的话，人怎么可能这么说呢」。用户希望话术可以贴近生活，尽可能自然。

这是非常好理解的。在人机语音交互中，人类最想使用的肯定是自然语言。口头语言是人类最擅长，使用门槛最低的自然语言，人类使用口头语言进行交流的历史已跨越十万年。与之相比，书面语言的发展不过五千年，计算机语言更是刚刚萌芽。因此，设计话术时，可参考汉语口头语言的特点，营造「自然感」。

基于此原则，设计话术时可考虑以下几条建议：

建议 1：措辞口语化

日常对话中，我们会使用丰富多彩的重叠词（如看看、马上马上）、语气词（如吧、呢、哈）、感叹词（如哎！天！）、惟妙惟肖的象声词（如噗通、呼啦）、填补词（如嗯，呃），也会妙用各种副语言，如「哼哼」之类的鼻化音、笑声、颤音等等。话术设计中，可以参考这些口语化的表达。

尤其注意，话术设计时要尽可能避免专业术语、技术名词、晦涩用语等。

建议 2：句式自然，可使用话语标记

口语中句子多短小，结构简单。语言学研究发现，口语中长句占比仅 19%，短句占比达到 81%（超过 7 个实词的单句为长句，反之为短句。实词指具有实际含义且能单独充当句子成分的词）。话术设计时可考虑这一特点，尽可能使用短句。

另外，口语对话中会使用「话语标记语」做句子之间的过渡，话术设计时也可参考。常见的话语标记有：「首先…然后…最后」之类的序列标记；「开始」、「以后」之类的时间标记；「这」、「那」之类的指示词等。

建议 3：增加措辞多样性

使用同义词为固定的答案增加多样性，比如表示确认的时候，可以随机呈现「ok」、「收到」、「好的」、「没问题」等等。这些同义词可以增加对话活力，让对话更自然。

5. 友好原则

研究中，我们发现，用户很反感机器以「高人一等」的姿态说话，尤其反感被机器指责。高人一等的话语和指责会让用户觉得「不忿」、「挫败」，甚至会丧失对机器的「信任」。

人是社会性动物。日常交往中，我们更喜欢对我们友好、喜欢我们的人，而倾向远离那些不够友善的人。判断对方是否友善，语音是最直观的线索。在人机语音交互中，我们同样能根据机器的应答判断其是否友好。因此，话术设计时要重视友好。

基于此原则，话术设计时可考虑以下几条建议：

建议 1：错误归为机器，而非人

错误发生时，从机器的角度说明出错原因。

建议 2：避免要求用户按照特定的方式表达

尊重用户的说话方式，不要试图教给用户怎么说话。

建议 3：体现「关注用户需求」的服务态度

即使不能满足用户需求，也要体现出努力帮助用户的态度。

6. 有个性原则

必须强调，话术体现的个性必须与产品人设保持一致，比如冷静成熟的产品人设就不太适合嗲嗲说话撒娇卖萌的话术。

本次我们发现，用户对「幽默」的话术接受度较高。在人际交往中，幽默能提升他人对自己的印象，让人感觉亲密并能帮助人们缓解压力。语用学研究也发现，只要适合特定场景，幽默话语的交际效果是最佳的。

不过，幽默具有明显的文化和群体差异，「甲之蜜糖，乙之砒霜」，设计话术时需特别注意。

建议 1：遇到难题时，可考虑使用幽默话术回应

遇到无法实现的功能时，通过幽默话术回应用户，调节氛围。

建议 2：娱乐话题的表述可以更加活泼有趣

讨论一些娱乐话题或闲聊时，话术可以考虑增添更多趣味元素。

小结

本文从用户视角出发，阐述了机器话术设计的6大普适性原则，以及如何基于这些原则设计话术。我们定义的设计原则及提供的设计建议如下：

话术研究具有挑战性。话术与对话场景、对象，产品本身的人设、特性，系统语音识别、语义理解能力等均具有密切关系。但这不妨碍我们通过参与式的用户研究探索话术设计的普适性原则。所谓「深根固柢」，这些原则是机器话术设计时的基础与根基，有助于我们打造更自然和极致的语音对话体验。

我们也以此研究为契机，开始探索在AI时代，在机器话术这个领域，如何将技术和艺术、人性结合，希望能带来让用户内心真正喜欢的体验。

机器话术作为一个充满艺术特色又与人性密不可分的主题，还有着许多未知且充满魅力的方面值得探索。希望本次研究可以抛砖引玉，引发更多同仁更深入的研究。

内容来源：百度 AI 交互研究院

题图：搭载 DuerOS 解决方案的智能电视

实习编辑：江翎海

DuerOS

语音智能

语言交互

人机交互

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

本文出自“会说话的人，一开口就赢了”——语音交互中的机器话术研究`，并由深圳湾(www.shenzhenware.com)编辑发布。
转载、采访、约稿、投稿、团队报道请联系微信公众号：shenzhenware（回复关键字）。

上一篇：中美学者共话尖端科技，第 7 届 CMU 中美创新创业峰会现场回顾