Uploads%2farticles%2f10973%2fgoogle will eventually add voice search and amp reporting to the console
|
2016-07-19

AI 对话技术没那么简单,那有多复杂?

人们每天在 PC 、手机端等进行的简单搜索行为,其实就是一个人机交互的过程,在搜索框输入关键字,搜索引擎则分析输入内容的语义,尽可能为用户推荐高精确度的答复。

曾几何时,各大搜索引擎都纷纷增加了语音搜索功能,相比书面化的文字搜索,人们在语音搜索场景下的表达往往更口语化,进而增加了搜索引擎的处理难度。在极客公园 2016 起点·创造者峰会 AI 论坛上,360 搜索技术总监魏少俊解析了 AI 对话的技术。

AI 对话的三种类型

从技术层面上,人与 AI 的交互方式分为三种:功能型交互、内容型交互、开放型交互。

功能型交互:也称为命令型交互,即接到人类的要求、命令后,机器通过语音识别、语音合成等技术解析语义,进一步执行任务。在这种交互方式下,人们所提出的指令只限于简单易懂的内容。

内容型交互:也称为知识型交互,如让机器讲一个童话故事,回答既有的地理知识等。基于海量的知识库,机器通过网页抓取、筛选等技术,向用户推荐最佳答案。

开放型交互:这对机器的上下文语义衔接、灵活度要求非常高,以达到真正的人机情感沟通,如聊天机器人等。目前该项技术仍处于探索阶段。

总的来说,语音搜索引擎对 AI 有两方面的要求,一是对用户语言的理解能力,二是基于海量知识库的应答能力。

AI 对话的技术模块

AI 对话所需要的技术模块有 4 个部分,分别为:语音识别(目前相对成熟)、语义识别、云计算、海量的语料训练。

语义识别主要基于上下文的自然语言处理技术,主要由 5 部分组成:

1.意图识别,识别用户在搜索框内输入的内容或问题,理解用户的意图并给出相应的回答。

2.情感识别,主要应用在与聊天机器人的开放式聊天当中,机器人能够识别出用户在对话过程中所表达的情感,并以正确的情感回应对方,这些情感包含 21 个类别。

3.指代消解和省略回复,比如用户提问:「上海的天气如何?」,在得到回答后继续提问:「北京的呢?」,虽然没有提及「天气」二字,但机器能够根据上下文语义理解用户提出的问题并作出相应的回答。

4.意图澄清,比如用户要求看「蓝莲花」,那具体是图片还是书籍?机器人则会进一步向用户询问,得到切确的答案后以做出正确的执行。

5.拒识判断,当用户提出的要求超出规范允许的范围,如反动、色情的内容,机器则拒绝不答。

另外,机器人在应答层存在一种「多轮对话」的技术,在有些时候,用户需要与机器进行多次对话后,才能将意图表达完整。

而在人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时,纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。

对话边界的区分、确认也是机器应答需要具备的机制,用户表达的意图到下一个意图之间、每个意图的确认均为机器对话智能化表现。

本文资料、图片提供者:极客公园

Uploads%2fusers%2favatar%2f1073144951%2fthumb qq  20160720142817
李卓颖 2016-07-20 12:52

如有语音识别,语音合成,自然语言理解的需求或问题,欢迎和我交流,13828815023手机同微信

Back to top btn