General purpose vision (GPV) systems are models that are designed to solve a wide array of visual tasks without requiring architectural changes. Today, GPVs primarily learn both skills and concepts from large fully supervised datasets. Scaling GPVs to tens of thousands of concepts by acquiring data to learn each concept for every skill quickly becomes prohibitive. This work presents an effective and inexpensive alternative: learn skills from fully supervised datasets, learn concepts from web image search results, and leverage a key characteristic of GPVs -- the ability to transfer visual knowledge across skills. We use a dataset of 1M+ images spanning 10k+ visual concepts to demonstrate webly-supervised concept expansion for two existing GPVs (GPV-1 and VL-T5) on 3 benchmarks - 5 COCO based datasets (80 primary concepts), a newly curated series of 5 datasets based on the OpenImages and VisualGenome repositories (~500 concepts) and the Web-derived dataset (10k+ concepts). We also propose a new architecture, GPV-2 that supports a variety of tasks -- from vision tasks like classification and localization to vision+language tasks like QA and captioning to more niche ones like human-object interaction recognition. GPV-2 benefits hugely from web data, outperforms GPV-1 and VL-T5 across these benchmarks, and does well in a 0-shot setting at action and attribute recognition.
翻译:一般目的视觉(GPV)系统是用来在不需要建筑变革的情况下解决一系列广泛的视觉任务的模式。今天,GPV主要从大型完全监督的数据集中学习技能和概念。通过获取数据以学习每一种技能的每个概念,将GPV推广到数万个概念,这很快变得令人望而却步。这项工作提出了一个有效和廉价的替代方案:从完全监督的数据集中学习技能,从网络图像搜索结果中学习概念,并利用GPV的关键特征 -- -- 跨技能传输视觉知识的能力。我们使用一个包含1M+图像的数据集,覆盖10k+视觉概念,以显示现有两个GPV(GPV-1和VL-T5)在3个基准上以网络监督的概念扩展。5个基于每个技能的CO数据集(80个基本概念),这是一套新的由5个数据集组成的系列:从完全监督的数据集中学习技能,从网络图像搜索结果中学习概念,并利用网络衍生数据数据集(10k+概念)。我们还提议一个新的结构,即GPV-2支持从视觉分类和本地化到视觉2等任务,在G-L等高视域域域域定义中,从高的确认,在数据库中,从数据库中,从数据库中,从数据库中,从数据库中,从一个新的5级化到更深入认识,从数据库中,从数据库,从数据库,到更深入地认识,从数据库中,从数据库,到更认识,从数据库,从数据库,到更认识,从数据库,到认识,从数据库,从数据库,到认识,从数据库,从数据库,从数据库,从数据库,从数据库中,从数据库,从数据库,从数据库,到数据库,到数据库,到数据库,从数据库,从数据库,到数据库,从数据库,从数据库,从数据库,到数据库,到数据库,到数据库,从,从,从,从,从,到数据库,到数据库,到数据库,从,从,从,到数据库,到数据库,从,从,到数据库,到数据库,到数据库,到数据库,从,从数据库,到数据库,到数据库,从数据库,从数据库,从数据库,到数据库,从数据库,从,从,到数据库,到数据库,到数据库,从数据库,到数据库,到数据库,从数据库,从数据库,从数据库,到数据库,到数据库,到数据库,从,到