Recent advances in vision-language pre-training (VLP) have demonstrated impressive performance in a range of vision-language (VL) tasks. However, there exist several challenges for measuring the community's progress in building general multi-modal intelligence. First, most of the downstream VL datasets are annotated using raw images that are already seen during pre-training, which may result in an overestimation of current VLP models' generalization ability. Second, recent VLP work mainly focuses on absolute performance but overlooks the efficiency-performance trade-off, which is also an important indicator for measuring progress. To this end, we introduce the Vision-Language Understanding Evaluation (VLUE) benchmark, a multi-task multi-dimension benchmark for evaluating the generalization capabilities and the efficiency-performance trade-off (``Pareto SOTA'') of VLP models. We demonstrate that there is a sizable generalization gap for all VLP models when testing on out-of-distribution test sets annotated on images from a more diverse distribution that spreads across cultures. Moreover, we find that measuring the efficiency-performance trade-off of VLP models leads to complementary insights for several design choices of VLP. We release the VLUE benchmark to promote research on building vision-language models that generalize well to more diverse images and concepts unseen during pre-training, and are practical in terms of efficiency-performance trade-off.


翻译:第二,最近VLP的工作主要侧重于绝对业绩,但忽略了效率-业绩权衡,这也是衡量进展的一个重要指标。为此,我们引入了愿景-语言理解评价(VLUE)基准,这是用于评价通用能力以及VLP模式效率-业绩权衡(Pareto SOTA')的多功能性基准。我们发现,衡量VLP通用成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本

0
下载
关闭预览

相关内容

不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
73+阅读 · 2022年6月28日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
征稿 | CFP:Special Issue of NLP and KG(JCR Q2,IF2.67)
开放知识图谱
1+阅读 · 2022年4月4日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
相关资讯
征稿 | CFP:Special Issue of NLP and KG(JCR Q2,IF2.67)
开放知识图谱
1+阅读 · 2022年4月4日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
Top
微信扫码咨询专知VIP会员