Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.


翻译:摘要: 图像字幕生成是一项目前具有挑战性的任务,它要求同时具备理解视觉信息和使用人类语言来描述图像中的信息的能力。在本文中,我们提出了一种高效的方法,通过在对象关系Transformer结构中引入Attention on Attention机制来扩展其图像理解能力。在VieCap4H数据集上的实验表明,我们提出的方法在VLSP举办的Image Captioning共享任务的公共测试和私人测试上显著优于其原始结构。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
21+阅读 · 2023年3月26日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
32+阅读 · 2022年3月18日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
Arxiv
10+阅读 · 2021年8月4日
Arxiv
15+阅读 · 2021年7月14日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
21+阅读 · 2023年3月26日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
32+阅读 · 2022年3月18日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员