现有的视觉和语言学习方法通常需要为每个任务设计特定于任务的架构和目标。例如,用于视觉问答的多标签答案分类器、用于参考表达式理解的区域评分器和用于图像字幕的语言解码器等。为了减轻这些麻烦,在这项工作中,我们提出了一个统一的框架,在同一个语言建模目标的单一体系结构中学习不同的任务,即多模态条件文本生成,我们的模型学习在基于视觉和文本输入的文本中生成标签。在7个流行的视觉和语言基准测试中,包括视觉问答,参考表达理解,视觉常识推理,其中大多数之前被建模为判别性任务,我们的生成方法(具有单一统一的体系结构)达到了与最近特定任务的最先进的视觉和语言模型相当的性能。此外,我们的生成方法显示出更好的泛化能力的问题,有稀有的答案。此外,我们还表明,我们的框架允许在单一体系结构中使用单一参数集进行多任务学习,实现了与单独优化的单任务模型相似的性能。我们的代码在https://github.com/j-min/VL-T5上公开。
https://www.zhuanzhi.ai/paper/445856f3eda78c729919b0f51153c716