Uploads%2farticles%2f11934%2f093543fe1zqxra6aa1yrjr
|
2017-11-27

AAAI 2018 论文收录结果公布,Gowild 狗尾草两篇论文同时入选

11 月,第 32 届人工智能顶级国际会议 AAAI 2018 论文收录结果公布,国内人工智能创业团队深圳 Gowild(中文:狗尾草)智能科技有限公司两篇论文入选,是国内唯一入选两篇论文的创业公司。

AAAI 人工智能大会创办于 1980 年,是人工智能领域的顶级盛会。据了解,随着 AI 研究热潮的到来,AAAI 的参会人数和论文数量也逐年攀升,其中,2017 年注册参会人数接近 2000 人,论文投稿量超过 2500 篇。

本次 Gowild 入选的两篇论文,由 Gowild 旗下人工智能研究院 Gowild AI Lab 分别与苏州大学、华东师范大学合作发表,论文作者将于 2018 年 2 月受邀前往美国新奥尔良进行演讲。

Gowild AI Lab 是 Gowild 旗下的 AI 团队,由长期带队参与国家科研项目的知识图谱专家王昊奋博士发起,专注于 AI 前沿研究及产品应用落地。2017 年,推出 Gowild AI Virtual life Engine(Gowild人工智能虚拟生命引擎,简称「GAVE」),成功应用于 Gowild 旗下的 holoera 及公子小白系列产品中。

另一方面,Gowild AI Lab 积极启动校企合作,与苏州大学、华东师范大学成立联合实验室,建立 AI 智库,推动产学研的良好转化。此次两篇论文的入选,正是校企合作丰硕成果的体现。

附:核心的论文情况介绍

这两篇论文所关注的主题,都是实现虚拟生命的过程中遇到的实际问题,并通过校企合作进行研究和落地。两篇论文分别研究了命名实体识别(NER)和推荐系统。前者是自然语言理解(NLU)的基础功能,而后者可以在产品上体现「生命感」和认知功能。由于 NLU 技术目前在人工智能领域也仅仅处于起步阶段,因此,在 NER 方面的研究,体现了如何利用众包技术进一步提升数据的质量和算法的性能,从而增强虚拟生命的感知功能。而推荐系统,则以场景化出发,可以通过对多源异构的知识图谱进行融合,实现准确的推荐,让用户真实感受到「情感陪伴和关怀」,从而使得虚拟生命产品,从传统聊天机器人的「被动交互」,进化到根据用户兴趣和喜好进行「主动交互」。

1. 和苏大的合作是基于众包的NER《Adversarial Learning for Chinese NER from Crowd Annotations》

训练命名实体识别系统时,需要大量的人工标注语料。为了保证质量,通常需要雇佣专家来进行标注,但这样的流程成本高,且难以扩大规模。我们采用众包标注方法雇佣普通人员来快速低成本完成标注任务,但获取的数据包含噪音。我们提出了利用众包标注数据来学习对抗网络模型的方法,构建中文实体识别系统。受到对抗网络学习的启发,我们在模型中使用了两个双向 LSTM 模块,来分别学习标注员的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中,以不同标注员作为分类目标进行对抗学习。从而达到优化公有模块的学习质量,使之收敛于真实数据 (专家标注数据)。本文的算法框架如下图:

其中,左边部分是作为 baseline 算法的 CRF+LSTM,右边部分是本文提出的模型框架。

最终构建的中文实体识别系统(Crowd-NER)在真实数据上的性能比传统 CRF 模型高7%(F1),如下图所示:

2. 和华师大的合作是融合时间因素的标签推荐方法『Personalized Time-Aware Tag Recommendation』

标签是用户用来管理和查找网络资源的重要工具,如何给用户推荐合适的标签来标注网络资源也是当前的研究热点。传统的标签推荐技术有基于张量分解的协同过滤方法 PITF,但此类模型没有捕捉到时间对用户打标签行为的影响。受到考虑了时间影响的 BLL 类工作的启发,本文提出了一种融合时间因素的标签推荐方法(Time-Aware PITF, TAPITF)。该模型在 PITF 的基础上增加了时间权重和频次权重,使用 Hawkes 过程建模了用户倾向于使用自己最近最多使用过的标签这一行为特征,同时也考虑了目标资源上热门标签的影响。在真实标签数据集上的实验表明我们的方法具有较好的推荐准确度和一定的新颖性。

另外,本文提出的标签推荐模型也可以很好地辅助基于对话的音乐推荐任务。在对话系统中,通过对话能够收集到用户对于歌曲及标签的偏好。将收集到的<用户-歌曲-标签-时间戳>数据使用本文提出的 TAPITF 模型分解后可以得到用户、歌曲、标签对应的隐向量作为其特征向量表示,用于后续的音乐推荐。

在实验数据上,TAPITF 模型在准确度和收敛性能上均优于其他算法,后续我们考虑使用深度学习模型 RNN 来建模时间信息以更好地提升模型的效果。

Back to top btn