论文浅尝 | 基于多模态特征的视觉实体链接

2022 年 1 月 7 日 开放知识图谱

转载公众号 | 数据智能英文刊



文章题目:Visual Entity Linking via Multi-modal Learning

作者:郑秋硕,闻浩,王萌,漆桂林

引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data Intellignece 4(1)(2022).

doi: 10.1162/dint_a_00114


    现有的视觉场景理解方法主要关注识别视觉对象及检测视觉关系,其侧重于粗粒度概念发现,而忽略了细粒度场景理解。事实上,网络上的许多数据驱动应用场景(例如新闻阅读和电子购物)需要准确地将概念提及识别为实体,并正确地链接到知识图谱。有鉴于此,本文确定了一项新的研究任务:用于细粒度场景理解的可视化实体链接。为了完成这项任务,我们首先从不同的模态中提取候选实体的特征,即视觉特征、文本特征和知识图谱特征。然后,我们设计了一种基于深度模态注意力的神经网络,利用排序学习方法,将所有特征集合起来,并将视觉提及映射到知识图谱中的实体。


图1.视觉场景理解与视觉实体链接


考虑以下两个场景:案例一:一个在线用户正在阅读关于篮球的体育新闻,并且想要在照片中区分姚明和特雷西·麦克格雷迪,如图[示例]所示。然而,即使是世界先进的目标检测系统也不能保证给出正确的答案。案例二:另一个用户倾向于对Tracy Mcgrady的鞋感兴趣,并想知道具体的签名运动鞋,但现有的图像搜索引擎如Bing.com只能识别白色的鞋子。为了完成用户提出的上述任务,我们需要更多详细的辅助信息来补充视觉学习。补充信息可以从综合多模态知识图谱中获得,如Richpedia和IMGpedia。如果知识图谱中的实体成功链接到图像中的对象,我们可以在案例一中使用正确的名称(即Tracy Mcgrady)回答问题,并在案例二中使用特定的鞋品牌(即阿迪达斯T-MAC4)精确地向用户推荐。

    解决办法见图2:

图2.视觉实体链接概述,它由两部分独立组成,即特征提取模块和视觉实体链接模块。特征提取模块从三种模式中提取特征。


在本文中,我们提出了一个新的框架来实现视觉场景理解中的视觉实体链接。具体地说,我们首先为图像生成一个粗粒度的场景图,并利用VGG-16网络提取对象的视觉特征。然后,我们使用GRU语言方法从图像标题中提取对象的文本特征,并通过命名提及匹配发现候选KG实体。在提取候选实体的KG特征后,我们提出了一种基于深度模态注意神经网络的学习排序方法来聚合所有特征并将视觉对象映射到KG中的实体。实验结果见表1

表1.主要实验结果

    表1显示了VELD数据集上排名前1、3、5和10的候选实体列表检索精度结果。前两个实验使用视觉模态和知识图模态信息。通过实验结果证明,现有的基于静态离线训练的深度神经网络不能很好地完成视觉实体连接任务。由于训练数据集的局限性,很难建立一个包含开放域中所有实体的图像资源的数据集,因此从另一个角度证明了该模型的有效性。

    第三到第五个实验是基于文本模态和知识图模态的特征进行视觉实体链接,通过一系列后处理,目标帧的链接不受视觉特征的影响。从实验结果来看,语篇情态和我们的完整模型之间仍然存在很大的差距。

    与简单的视觉对象识别方法和使用文本和KG作为支持的文本实体链接方法相比,我们发现我们提出的方法明显优于这些基线。这是因为我们在不同的模态中联合融合了三种特征,而不是简单的基于模态的链接。另一个令人信服的观点是,通过在VELD数据集上应用类似的多模式学习模型DZMNED,结果表明,在Top-1精度度量上,它们仅达到66.46%。我们的模型达到83.16%,这表明我们的模型在视觉实体链接任务中具有很大的优势。






郑秋硕,东南大学网络空间安全学院研究生,获得了东南大学计算机学士学位。他的主要研究兴趣是多模态学习和知识图谱的下游应用。




闻浩,东南大学计算机科学与工程学院本科生。他的研究兴趣主要包括信息检索、实体链接和多媒体研究。




王萌,东南大学计算机科学与工程学院助理教授,知识图谱与人工智能研究小组负责人,东南大学至善青年学者。2018年获西安交大计算机科学与技术系博士学位。2016年澳大利亚昆士兰大学访问学者,与Xue Li教授和萧芳舟教授在昆士兰大学的DKE实验室合作研究。他的研究领域是知识图谱、语义搜索、NLP和跨模态数据。




漆桂林,东南大学计算机与软件工程学院教授、东南大学认知智能研究所所长、南京柯基数据科技有限公司首席科学家、OpenKG发起人之一、中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任和江苏省人工智能学会知识工程与智能服务专委会副主任、国际期刊 Data Intelligence 主编、国际期刊 Journal of Web Semantics 的副主编和 Semantic Web Journal 的编委、Journal of Big Data Research的编委、世界三大出版集团之一的爱思唯尔(Elsevier)的数据管理顾问委员会顾问、情报工程期刊编委。获得“江苏省六大人才高峰”资助和“创业南京高层次人才”资助。所取得的科研成果在工业界中得到实际应用,产生了实际效益,在司法类案推送、电商数据分析、电力故障智能检测和知识推送、医药知识问答、军事决策系统和安全决策系统中落地,产业化前景广阔。



Data Intelligence 期刊介绍

Data Intelligence 中国科学院文献情报中心主办的英文学术期刊。创刊于2019年,目前被EI、ESCI、Scopus、DOAJ、Inspec数据库收录期刊以知识表示、处理与应用(本体、元数据及其标准、语义标注体系、知识图谱等)及结构化、语义化的数据论文、语义数据驱动的智能算法、系统、平台为刊发主体,致力于推动数据融合、数据与数据处理平台的有效共享、倡导数据追本溯源,促进知识实时构建,并为下一代精准智能语义数据分析和应用以及深度知识服务提供创新源泉。期刊官网:https://direct.mit.edu/dint 



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
1

相关内容

ACL2022 | 基于强化学习的实体对齐
专知会员服务
34+阅读 · 2022年3月15日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
20+阅读 · 2021年4月15日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
41+阅读 · 2020年9月7日
论文浅尝 | 用于视觉推理的显式知识集成
开放知识图谱
0+阅读 · 2021年10月26日
论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络
开放知识图谱
21+阅读 · 2019年5月1日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2021年11月19日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
29+阅读 · 2018年4月6日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关VIP内容
相关资讯
论文浅尝 | 用于视觉推理的显式知识集成
开放知识图谱
0+阅读 · 2021年10月26日
论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络
开放知识图谱
21+阅读 · 2019年5月1日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员