2018-06-03

越「拟人」，越「恐怖」？谈谈人工智能里的「恐怖谷」理论

面对越来越「像人」的智能设备，人们会产生什么样的感受呢？

AI 时代下，越来越多的智能设备被赋予了更多「人性化」的特征，比如能说会动，有人格有情绪，甚至会思考。面对这么多越来越「像人」、越来越「智能」的设备，人们会产生什么样的感受呢？是喜欢还是反感，是接受还是担忧？这就涉及到我们今天要介绍的理论「恐怖谷」。

什么是「恐怖谷」?

大家有没有过这样的经历？当你在看一些动画电影中的角色，比如《冰雪奇缘》中的 Elsa 公主，你会觉得她很美丽，很吸引人；而当你看一些科幻电影中的角色，比如《最终幻想：灵魂深处》的女主角 Aki，你会觉得乍一看人物形象还挺逼真的，但总觉得动作表情有些僵硬，给人怪怪的，不太舒服的感觉。这是为什么呢？其实可以通过「恐怖谷」的理论来进行解释。

「恐怖谷」理论最早是 1970 年由日本机器人专家森政弘提出的，当机器人与人类的相似度极低（如图，工业机器人）时，人们对它没有太多的情感反应；当这些非人的物体开始被赋予一些人类的特征，在外形和动作上同人类逐渐接近时（如图，人形机器人），人们对它的亲近感和好感度会逐渐增加；但当它与人类相像超过一定程度，人们对它的好感反而会下降，呈现一个情感反应的低谷，即「恐怖谷」；当它与人类的相似度继续上升，人们对它的好感会再次回到正面。

「恐怖谷」效应是如何产生的呢？

解释「恐怖谷」效应成因的角度很多，这里主要介绍最核心的三种。

一种解释是「认知失调」，简单来讲，就是「预期」和「真实」情况不一致导致认知冲突。当类人物体和人类的相似度很高时，我们潜意识里会把它视为我们的一员，而对于我们人类来讲，每天接触各种各样的人，人是什么样子的，能长成什么样子，应该有怎样的动作表情，我们都很清楚；当它有任何不像人的地方时，我们很容易就能察觉，并和我们本来的预期产生了矛盾，我们无法马上解决这种矛盾时，内心的不舒适甚至不安和恐惧就发生了。

2011 年，加州大学圣地亚哥分校的认知科学家艾斯•塞金（Ayse Saygin）通过脑成像实验发现，人们在观看仿真机器人的活动影像时，大脑与运动感知相关的区域活动会比观看人类和普通机器人更加活跃（如图）。因为当我们看普通机器人和人类活动时，他们的外观会帮助我们提前预测他们的运动方式，而实际看到的结果就如我们预期的一样。仿真机器人却不同，他们外观酷似人类，动作却和机器人相同，这在我们头脑中造成了与预期不符的矛盾，从而要调动更多的大脑区域来协调这些矛盾。这一结果正好可以佐证「认知失调」这一解释。

还有一种解释是「共情抑制」，即当我们看到一个既像人又不像人的个体时，无法很好地感受和理解对方的情绪和情感状态，我们的「共情」能力出现了障碍，这让我们感觉很不舒服。

2007 年，在日本京都国际电气通信基础技术研究所工作的蒂埃里•查米纳德（Thierry Chaminade）和他的同事做了一项研究，他们给参与研究的志愿者播放了一组拟人度不同的电脑合成角色，同时对这些志愿者的脑部进行核磁共振扫描。结果显示，当志愿者看到拟人程度很高的角色时，脑中负责心理化（Mentalizing）的区域活动会明显增强。所谓心理化，包含理解他人情感的能力。这一区域活动增强说明人们在理解那些高拟人程度角色的情绪/情感时出现了困难，这在一定程度上支持了「共情抑制」的解释。

也有一些研究人员会从「进化选择」的角度进行解释，指出人类会从本能上排斥那些看起来不太正常的、病态的个体，以此来保护自己，而这些不正常、病态的特征通常都是由面部和肢体表现出来的。所以当我们看到那些看似逼真，却面色惨白、表情僵硬、动作机械的仿真机器人时，会不自觉地联想到「不健康」、甚至「死亡」，这时候就会产生不适、反感甚至恐惧的感觉。

我们前面说的「恐怖谷」理论基本都是围绕着外表和动作的视觉感知层面，而随着 AI 时代的到来，人们越来越多地使用语言直接和一些智能设备进行对话。

对于「机器的语言」，是否也存在「恐怖谷」效应呢？

有研究者尝试探索过在声音的自然度方面是否存在「恐怖谷」效应，发现在当时的实验条件下，声音的自然度方面，并不存在「恐怖谷」效应。2014 年，捷克皮尔森西波西米亚大学应用科学系的研究人员，曾探讨过在语音对话系统中 TTS（通过技术的手段把文本转成语音）和「恐怖谷」之间的关系。他们让 30 名受试者（大学生，覆盖技术和人文学科背景）分别同 AI 语音交互系统进行两段对话，分别对应 TTS 合成的两种声音，机器化的声音（声音 A）和自然度高的声音（声音 B），然后让受试者评价对两种声音及两段对话的喜好度。

结果发现，近 3/4 的用户更喜欢自然度高的声音（声音 B），且技术学科背景的学生喜欢声音 B 的比例更高。

除了声音的自然度，如果人们还能从「机器的语言」中感受到类人的情绪/情感，性格特征，逻辑思考及解决问题等能力时，是否会产生「恐怖谷」效应呢？下面这个研究，可以从一定程度上给我们一些启示。

2017 年，德国开姆尼茨工业大学的心理学家斯坦（Jan-Philipp Stein）和奥勒（Peter Ohler）做过一个实验，他们让被试通过 VR 观看一支 3D 影片，里面是一对男女正在进行一小段对话，整段对话包含多种情绪/情感状态，两人先是提到燥热的天气让人昏昏欲睡，接着女人开始抱怨她拥有的自由时间太少，而且那个还不出现的迟到朋友让她觉得很困扰，与此同时，男人在对话中会对女人的处境展现同情。

受试者分为 4 组，每组看的内容一模一样，不同的是被告知对话产生的方式不一样。研究者告诉组 1 和组 2 的受试者，这段对话是两个真实的人在说话，其中组1的对话内容是提前设计好的，而组 2 则是现场自主产生的；而组 3 和组 4 的受试者，则被告知其实是电脑在后台控制着屏幕上两个人的对话，只不过组 3 的对话内容是提前设计好的，而组 4 是自发产生的。

结果发现，组 4（被告知对话是由电脑操控且自主产生）的受试者表示他们在观看影片时会有特别怪异的感受。研究人员认为，这可能是因为当他们觉得电脑是主动表现出同情、困扰等情绪/情感时，会觉得不安，甚至恐惧，担心人类的独特性和掌控权会受到威胁。

从以上可以看出，对于「机器的语言」，在声音的自然度方面并不存在「恐怖谷」效应；而当声音带有情绪/情感时，则会触发「恐怖谷」效应。

目前「恐怖谷」理论比较多地被应用于影视、动画、游戏制作领域，也出现了不少跌入「恐怖谷」的失败案例。如开篇提到的《最终幻想：灵魂深处》中的女主角 Aki；还有好莱坞电影《极地特快》，全球第一部全部使用数字捕捉技术的高仿真动画电影，其人物角色逼近真人，却招致不少批评声，有人说它给人一种毛骨悚然的感觉，有人觉得人物形象有点像僵尸，甚至有人认为这部片子应该起名为「活死人之夜」......