In recent years, we have witnessed significant performance boost in the image captioning task based on vision-language pre-training (VLP). Scale is believed to be an important factor for this advance. However, most existing work only focuses on pre-training transformers with moderate sizes (e.g., 12 or 24 layers) on roughly 4 million images. In this paper, we present LEMON, a LargE-scale iMage captiONer, and provide the first empirical study on the scaling behavior of VLP for image captioning. We use the state-of-the-art VinVL model as our reference model, which consists of an image feature extractor and a transformer model, and scale the transformer both up and down, with model sizes ranging from 13 to 675 million parameters. In terms of data, we conduct experiments with up to 200 million image-text pairs which are automatically collected from web based on the alt attribute of the image (dubbed as ALT200M). Extensive analysis helps to characterize the performance trend as the model size and the pre-training data size increase. We also compare different training recipes, especially for training on large-scale noisy data. As a result, LEMON achieves new state of the arts on several major image captioning benchmarks, including COCO Caption, nocaps, and Conceptual Captions. We also show LEMON can generate captions with long-tail visual concepts when used in a zero-shot manner.


翻译:近年来,我们看到了基于视觉语言预培训(VLP)的图像说明任务中显著的绩效提升。 规模被认为是这一进步的一个重要因素。 然而,大多数现有工作仅侧重于大约400万图像(如12或24层)的中等规模的预培训变压器(如12或24层),在大约400万个图像上进行。 在本文中,我们展示了LEMON,一个LAE尺度的iMage aptiONer, 并首次对VLP图像说明的缩放行为进行了实证研究。 我们使用VLP模型作为我们的参考模型,由图像提取器和变压器模型组成,并将变压器向上和向下推缩,模型大小为13至6.75亿个参数。 在数据方面,我们用高达2亿张的图像文本双对进行实验,根据图像的利特属性自动从网上采集这些图像(如 AlT200M) 。 广泛分析有助于将性表现趋势描述为模型大小和前培训数据规模的模型模型, 和变压模型规模模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型,以及变型模型模型模型模型模型,以及变模型模型模型模型模型,以及变缩模型变缩模型,以及变变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变, 以及变变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变的变模型变模型变,我们模型变的变变变变变变变, 。 我们还用模型变变变变变变, 将使用模型变变变变,在高模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变码模型变模型变模型变模型变模型变模型变模型变模型变模型变模型变

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
30+阅读 · 2021年6月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关论文
Arxiv
3+阅读 · 2020年4月29日
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员