哈佛大学生爆改雷朋 Meta AI 眼镜成「搭讪神器」,只需看一眼,就能获取个人信息
聊天机器人如何通过「知识图谱」变得更加智能? | 活动回顾
知识图谱通过对现有数据的挖掘、抽取、加工,将信息融合为统一的全局知识库。
聊天机器人,是一种通过自然语言模拟人类进行对话的程序,很多大型互联网公司投入重金研发相关技术,并陆续推出相关产品:苹果的 Siri、微软的小冰、百度的小度、Google Allo 等等,涵盖娱乐、教育、医疗等领域。
本期来到 AI & ROBO Class 的嘉宾是深圳湾的老朋友 —— 王昊奋,他毕业于上海交通大学,曾任教于华东理工大学,如今是深圳狗尾草科技 CTO,在语义技术和图数据管理方面有丰富的经验。在活动现场,王昊奋结合多年的教学和研发经验,为在座的机器人从业者分享聊天机器人面临的机遇和挑战。
聊天机器人的诞生比你想象中的早
在众人眼中,语音聊天机器人似乎是近几年才发展起来的新兴事物,其实,聊天机器人却已经经过了半个世纪的研究和发展。
早在 1966 年,计算机科学家约瑟夫.维森班就设计出了世界上最早的聊天机器人 —— Eliza,但是 Eliza 并没有人们想象中的那么智能,而且只能完成针对特定领域的对话。它被设定为一个精神治疗师,会模拟真实的医生对用户进行提问,比如「你对那件事感觉如何?」「你觉得那是什么意思?」,它会重复这些开放而模糊的问题。
随后的几十年里,不断有新的聊天机器人诞生,比如 Dr. Sbaitso、「人工语言在线计算机实体」A.L.I.C.E 聊天机器人、IBM 的 Watson 以及我们现在已经熟知的 Siri、Cortana、Alexa 等。
王昊奋认为:「如今的聊天机器人,从应用场景上来看,可以分为在线客服、娱乐、教育、个人助理和智能问答五个种类。」 比如微软推出的基于情感计算机器人「小冰」,其首要目的就是供网友进行「娱乐」,同时让人工智能的概念在大众中普及开来,而手机上的 Siri、小度、Google Now 的功能则更加工具化,用于个人语音助理,辅助用户处理个人工作和生活上事物。
自然语言处理三步:自然语言理解、对话管理、自然语言生成
要实现人机间的自然语言通信,意味着计算机既能理解自然语言文本的意义,也能以自然语言文本表达既定的思想和意图。具体来说,自然语言处理技术包括了自然语言理解(Natural Language Understanding)、对话管理(Dialogue Management)、自然语言生成(Natural Language Generation)三个部分。
自然语言理解包括很多层面,从语法上来讲,它包括了词性的标注,专有名词的识别,形态的分析;从语义理解上来讲,它包括了语言之间逻辑的推理,语义的计算,对话的理解;从文本篇章的层面上理解,它还包括情感分析,观点提取等。
王昊奋指出,在歧义消除、用户意图识别、语言多变性的处理上,目前的自然语言理解还有很大的提升空间。「比如,我对机器人说,我想听『海阔天空』,传统的自然语言理解只能识别出这是一首歌的名称,并不知道我想要听的是 Beyond 的 『海阔天空』,还是信乐团的『海阔天空』,或者是其他翻唱的版本。」王昊奋说到。
当我们跟机器人聊天时,是希望可以有多轮对话,能够一直聊下去,而不是单纯的一问一答,所以对话管理就非常重要。对话管理指的是对话状态的更新以及下一步动作的规划执行,具体来说,它包括了对话状态的跟踪,对话策略的构建,用户与对话媒介的情感建模,对话程序的个性建模以及话轮的转换。
另外,在机器人在接收并理解了用户的语言之后,需要找到最佳的语言表达方式将内容和思想反馈给用户。整个自然语言生成的过程包括了内容选择、文本规划、句子合成、指代表达生成、表层实现等阶段。
以目前的发展来看,自然语言生成还存在着很多不足,如海量的文法结构,上下文的整合,以及通过深度学习生成答复的对话模型很难解释,而这些只能通过更好的语料和参数调整来改善。
知识图谱能提供更有价值的决策支持
2012 年,「知识图谱」的概念首先由谷歌提出,并且将此技术应用在 Google Now 语音服务上,从此,知识图谱逐渐成为百度、搜狗等科技公司所追捧的语义分析技术。王昊奋从大四起就开始了知识图谱的研究,而那时的知识图谱还被叫做语义万维网。
「采用了知识图谱、逻辑推理机的机器人具有记忆功能,同时有一定的推理能力,使对话更加流畅自然。」王昊奋说。
知识图谱为深度学习的训练提供先验知识,而基于知识图谱设计的用户画像和个性设定,则能保证虚拟人物交互信息的一致性。
类比人类智慧的形成依赖知识和经验,机器依靠知识图谱和大数据,通过人工智能来类比人类。这里抽象知识积累所形成的经验可以通过知识规则或深度学习的模型来刻画,而深度学习训练需要的大数据可通过知识图谱的数据增强来实现。
具体来说,一个通用的结合了知识图谱和深度学习的框架,依赖知识图谱对输入的文字进行实体和关系等语义理解,通过深度学习包括各种序列到序列学习的框架得到候选输出,通过推理来做最后回答的排序和过滤来实现最后的输出。
聊天机器人未来的机遇和挑战
现场观众提问
在谈到聊天机器人的未来时,王昊奋说:「以现在的发展来看,我认为聊天机器人在某些特定场景的应用会更加普及,比如客服,法律和医疗的咨询。」
事实上,聊天机器人已经开始慢慢渗透至这些细分的领域中。IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断,另外,基于 Watson 的技术,IBM 推出了世界首位人工智能律师 ROSS。
当然,如今的自然语言处理和机器人技术远不够成熟,在长对话、上下文处理、个性化回答、意图以及情商的体现上还相当欠缺。随着时间的推进技术会不断地更新迭代,彼时聊天机器人就能打开更广阔的应用空间。