本文提出了一个双层级特征协作的Transformer结构,以实现区域特征和网格特征两者的优势互补,并在其中提出了特征几何对齐图来指导特征间的信息交互,从而解决多路特征直接融合带来的语义噪声问题,最终在该任务的线上线下常用公开数据集上均证明了此模型的优势。

成为VIP会员查看完整内容
26

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
知识增强的文本生成研究进展
专知会员服务
97+阅读 · 2021年3月6日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
49+阅读 · 2021年2月7日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
15+阅读 · 2021年2月3日
【AAAI2021】面向交通需求预测的耦合层图卷积
专知会员服务
45+阅读 · 2021年1月31日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【AAAI2021】图卷积网络中的低频和高频信息作用
专知会员服务
58+阅读 · 2021年1月6日
专知会员服务
65+阅读 · 2020年12月24日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
使用GAN生成序列数据
专知
7+阅读 · 2020年7月4日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2019年1月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
VIP会员
相关VIP内容
知识增强的文本生成研究进展
专知会员服务
97+阅读 · 2021年3月6日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
49+阅读 · 2021年2月7日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
15+阅读 · 2021年2月3日
【AAAI2021】面向交通需求预测的耦合层图卷积
专知会员服务
45+阅读 · 2021年1月31日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【AAAI2021】图卷积网络中的低频和高频信息作用
专知会员服务
58+阅读 · 2021年1月6日
专知会员服务
65+阅读 · 2020年12月24日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
相关论文
Arxiv
6+阅读 · 2019年7月11日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2019年1月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
微信扫码咨询专知VIP会员