【北京大学】探索提取跨模态信息进行图像caption,Distilling Cross-Modal Information

2020 年 3 月 5 日 专知

题目: Exploring and Distilling Cross-Modal Information for Image Captioning

摘要: 近年来,基于注意力的编解码模型在图像字幕中得到了广泛的应用。然而,目前的图像理解方法还存在很大的困难。在这项工作中,我们认为这种理解需要对相关图像区域的视觉注意和对相关属性的语义注意。为了实现有效的注意,我们从跨模态的角度对图像字幕进行了研究,提出了一种全局和局部信息挖掘和提取的方法,对视觉和语言中的源信息进行挖掘和提取。它通过提取图像的显著区域组和属性搭配,全局地提供基于标题上下文的图像空间和关系表示形式aspect vector,并参照aspect vector局部地提取细粒度区域和属性进行选词。我们的全神贯注模型在COCO测试集上的离线COCO评估中获得了129.3分的CIDEr分数,在准确性、速度和参数预算方面都有显著的效率。

https://arxiv.org/abs/2002.12585



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“EDCM” 就可以获取探索提取跨模态信息进行图像caption,Distilling Cross-Modal Information》专知下载链接


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
7

相关内容

【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
【中科院计算所】图卷积神经网络及其应用
Arxiv
12+阅读 · 2019年4月9日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年4月21日
VIP会员
相关论文
Arxiv
12+阅读 · 2019年4月9日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年4月21日
Top
微信扫码咨询专知VIP会员