Automatically generating textual descriptions for massive unlabeled images on the web can greatly benefit realistic web applications, e.g. multimodal retrieval and recommendation. However, existing models suffer from the problem of generating ``over-generic'' descriptions, such as their tendency to generate repetitive sentences with common concepts for different images. These generic descriptions fail to provide sufficient textual semantics for ever-changing web images. Inspired by the recent success of Vision-Language Pre-training (VLP) models that learn diverse image-text concept alignment during pretraining, we explore leveraging their cross-modal pre-trained knowledge to automatically enrich the textual semantics of image descriptions. With no need for additional human annotations, we propose a plug-and-play framework, i.e CapEnrich, to complement the generic image descriptions with more semantic details. Specifically, we first propose an automatic data-building strategy to get desired training sentences, based on which we then adopt prompting strategies, i.e. learnable and template prompts, to incentivize VLP models to generate more textual details. For learnable templates, we fix the whole VLP model and only tune the prompt vectors, which leads to two advantages: 1) the pre-training knowledge of VLP models can be reserved as much as possible to describe diverse visual concepts; 2) only lightweight trainable parameters are required, so it is friendly to low data resources. Extensive experiments show that our method significantly improves the descriptiveness and diversity of generated sentences for web images. The code is available at https://github.com/yaolinli/CapEnrich.


翻译:在网站上自动为海量未标记的图像生成文本描述,可以极大地有利于现实中的网站应用,如多模式检索和推荐。然而,现有模型存在生成“过于通用”描述的问题,例如它们倾向于为不同的图像生成具有共同概念的重复句子。这种通用的描述无法为不断变化的 Web 图像提供足够的文本语义。受到近期视觉-语言预训练模型(VLP)模型成功的启发,这种模型在预训练期间学习了多样的图像-文本概念对齐,我们探索利用它们的跨模态预训练知识,以自动增强图像描述的文本语义。不需要额外的人工注释,我们提出了一种即插即用的框架 CapEnrich,以补充通用的图像描述中更多的语义细节。具体而言,我们首先提出了一种自动数据构建策略,以获取所需的训练语句,然后采用提示策略(即可学习和模板提示)来激励 VLP 模型生成更多的文本细节。对于可学习的模板,我们固定整个 VLP 模型,并仅调整提示向量,这具有两个优点:1)可以尽可能保留 VLP 模型的预训练知识以描述多样的视觉概念;2)仅需要轻量级的可训练参数,因此有利于低数据资源。广泛的实验表明,我们的方法显着提高了 Web 图像生成的句子的描述性和多样性。 该代码可在 https://github.com/yaolinli/CapEnrich 上获取。

0
下载
关闭预览

相关内容

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
专知会员服务
24+阅读 · 2021年9月19日
专知会员服务
41+阅读 · 2021年6月6日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
AAAI 2022 | MAVEx—基于知识的视觉问答方法
PaperWeekly
3+阅读 · 2022年10月8日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
专知会员服务
24+阅读 · 2021年9月19日
专知会员服务
41+阅读 · 2021年6月6日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员