Vision-Language Pre-training (VLP) with large-scale image-text pairs has demonstrated superior performance in various fields. However, the image-text pairs co-occurrent on the Internet typically lack explicit alignment information, which is suboptimal for VLP. Existing methods proposed to adopt an off-the-shelf object detector to utilize additional image tag information. However, the object detector is time-consuming and can only identify the pre-defined object categories, limiting the model capacity. Inspired by the observation that the texts incorporate incomplete fine-grained image information, we introduce IDEA, which stands for increasing text diversity via online multi-label recognition for VLP. IDEA shows that multi-label learning with image tags extracted from the texts can be jointly optimized during VLP. Moreover, IDEA can identify valuable image tags online to provide more explicit textual supervision. Comprehensive experiments demonstrate that IDEA can significantly boost the performance on multiple downstream datasets with a small extra computational cost.


翻译:然而,互联网上的图像-文本配对共同存在通常缺乏清晰的匹配信息,这是VLP的次最佳信息。 现有建议采用现成物体探测器的方法,以使用额外的图像标签信息。 然而,对象探测器耗费时间,只能确定预先界定的对象类别,限制了模型能力。 观察到文本包含不完整的细微图像信息,我们引入了IDEA,这代表着通过VLP的在线多标签识别来增加文本多样性。 IDEA表明,在VLP期间,用从文本中提取的图像标签进行多标签学习,可以共同优化。 此外,IDEA还可以在网上找到有价值的图像标签,以提供更明确的文本监督。全面实验表明,IDEA能够大大提升多个下游数据集的性能,并带来少量的计算成本。

0
下载
关闭预览

相关内容

粤港澳大湾区数字经济研究院是一家面向人工智能、数字经济产业和前沿科技的国际化创新型研究机构,坐落于深圳市深港科技创新合作区内。IDEA正与 MSR、Google Brain、DeepMind、OpenAI 等同行者一起推动人类 AI 技术前沿的发展。IDEA 的使命是立足社会需求,研发颠覆式创新技术并回馈社会,让更多的人从数字经济发展中获益。IDEA 秉承共享共赢共生的开源开放精神,积极营造自由而富有激情的创新工作环境,聚集全世界最聪慧的大脑一起创造人类社会最需要的价值。我们坚持科技擎天,产业立地,相信最好的研究从需求中来,到需求中去,最终惠及广大企业和受众。 IDEA 目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家,致力于在 AI 基础技术与开源系统、人工智能金融科技、区块链技术与可信计算、企业级 AI 系统、产业智能物联网与智能机器人等领域研发国际顶尖成果,并培育一批国际领先科技企业,带动深圳乃至大湾区万亿级数字经济产业发展。 AIPT(AI 平台技术研究中心)致力于建设支撑人工智能算法、算力和数据的平台,通过具体项目的研发、实施和部署来推进 AI 技术的落地和产业化,团队成立以来,已发布 ReadPaper 论文阅读平台、BIOS 医疗知识图谱两款产品。AIPT 负责人-谢育涛曾任微软公司技术合伙人兼微软(中国)操作系统工程院院长。谢育涛在微软公司工作 20 余年,先后在微软美国总部的 Microsoft Office 产品组、必应团队、微软亚洲互联网工程院以及微软(中国)操作系统工程院、人工智能和云计算等多个研发部门担任重要职务。他在操作系统、搜索技术、人工智能、应用及服务领域拥有丰富的技术与管理经验。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
28+阅读 · 2022年3月28日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
20+阅读 · 2020年6月8日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
相关资讯
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员