哈曼宋柏勋：人机交互和人际沟通毕竟不同，语音到底怎样做才算自然？| WARE 2017

2017-07-19

尽管语音智能在追求像人一样的自然交互，但人际沟通和人机交互毕竟还有许多差异的。

「我们谈语音交互的时候，说的当然是人用语音跟机器交互。但现在我们思考的是，如何让人与机器的交互方式回归到像人与人交谈一样自然，这才是我们发展技术想要追求的目的。」

在深圳湾「WARE 2017 语音智能平台与应用峰会第 II 季」上，哈曼（Harman）麦克风系统负责人宋柏勋比较了人际语言沟通和人机语音交互之间的异同，从语音交互的需求、人机听觉的差异、以及声音信号的处理等方面，浅析了如何让人机语音交互更接近人与人自然对话的问题。

自然的交互≠完全相同

「现在语音技术的努力方向，主要还是在听懂人在说什么，层面停留在人对机器的控制。」宋柏勋说，「而未来的需求则是要让机器更了解你，带有人与人交谈的情绪性，知道你是谁，知道与你互动与其他人互动是不同的。」

尽管语音智能在追求像人一样的自然交互，但人际沟通和人机交互毕竟还有许多差异的。

人机交互需要高的识别率，需要语音方面的强化，能够通过声纹识别分辨不同的对象，同时，还要求机器的可控。

「比如你让它关电视它就要关电视，说了三遍它还没反应你就觉得产品有问题了。」宋柏勋说，但人与人交谈的重点则并不是追求这种绝对的控制。

人与人的交谈，除了需要清晰的语音，还带有情绪性，这种情绪语气本身也在传递信息。此外，在聆听的专注性上，人可以有意识地进行选择。

二者的这些方面的差异，有的需要弥合从而增强人机语音交互的自然程度，而有的则是基于交互对象的固有差异，如何区分和兼顾这两种差异，是实现自然语言交互的关键。

现在的语音识别技术，多数是通过分析下图这样的声音频谱特征来识别语言内容。

「但人的听觉感知可不是这样基于声音频谱做傅里叶分析。」宋柏勋说，「人的听觉是声音引起耳蜗内基底膜振动，产生神经细胞兴奋将振动转化为脉冲电信号，传递到大脑的听觉皮质来解析。」这与现在语音识别技术中使用的方式是十分不同的。

「我们尝试用信号处理、机器学习等技术解决声音上的问题，需要花费大量的资源，是因为我们在技术上认知的声音特征和大脑所认知的是十分不同的，大脑感知声音的方式在另一维度上。」

「这也是为什么人只要用两只耳朵，就能在复杂的空间识别不同的声音，在多个人讲话的时候，专注聆听其中一个人。这与人耳的构造、声音信号传递过程中的控制和处理都密切相关。」

「这个过程中的声音信号处理十分复杂，但神经心理等学科的研究已经发现这个过程中的许多机制，并试图通过算法把这个复杂的机制转化为可实现的信号处理方式，这是为复杂的声音环境创造出更好信息处理方式的重要方向。」

作为一家一直深度钻研声音的传统音频厂商，哈曼试图做的，就是在语音智能体系中为人工智能提供足够好的「耳朵」和「嘴巴」，这也是哈曼公布 SONIQUE 语音识别方案的初衷。

「尽管语音智能在市场上已经开始兴起，但在制造上，在如何控制好音质，如何自定义规格，以及好与不好的标准制定等方面都还面临着挑战。」

针对不同应用场景，哈曼开发了一系列麦克风元件和专门为语音识别设计的低失真喇叭，通过硬件和算法的搭配在不同场景下实现性能优秀的声学解决方案。

而在未来应用方向上，语音除了作为人工智能的交互接口，进行语音控制、语音通话等功能外，宋柏勋还特别提到了基于声纹识别的个人化的重要性。最后，宋柏勋总结说，未来智能语音产业的发展重点，将落在讯号处理与机器学习的融合、市场专业分工化、产品落地与产业供应链完善、人机交互体验的提升以及人才的培养等多个方面。

版权声明：本文系深圳湾原创，转载或摘录请先获得授权。
深圳湾微信公众号：shenzhenware。深圳湾同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：Gowild 邱楠：知识图谱是聊天机器人走向强人工智能的关键 | WARE 2017