基于维基百科的图像文本数据集 (WIT)

2021 年 10 月 26 日 TensorFlow


发布人:Google Research 软件工程师 Krishna Srinivasan 和 研究员 Karthik Raman


多模式视觉语言模型依赖大量数据集来对图像和文本之间的关系进行建模。一般来说,这些数据集有两种创建方法:手动为图像添加文字说明,或抓取网页并提取替代文本 (alt-text) 作为文字说明。虽然前一种方法更利于产生更高质量的数据,但高强度的人工注释过程限制了可创建的数据量。另一方面,虽然自动提取方法可以产生更大的数据集,但却需要通过启发式算法以及仔细过滤来确保数据质量,或者扩展模型来保证强大性能。现有数据集的另一个缺点是极少涉及非英语语言。这不禁让我们产生疑问:我们能否突破这些限制,创建包含各种内容的高质量、大规模、多语言数据集?

  • 图像和文本之间的关系

    https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

  • 确保数据质量

    https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html


对此,我们推出了基于维基百科的图像文本 (WIT) 数据集。这是一个大型多模式数据集,通过从维基百科文章和 Wikimedia 图像链接中提取与图像相关的多种不同文本选择集创建而成。在创建过程中会执行严格的过滤环节,以便仅保留高质量的图像文本集。

  • 基于维基百科的图像文本 (WIT) 数据集

    https://github.com/google-research-datasets/wit


如我们在 SIGIR 2021 上发布的“WIT:适用于多模式、多语言机器学习的基于维基百科的图像文本数据集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中详细说明的那样,该过程产生一个包含 3750 万个实体丰富的图像文本示例精选集,其中涵盖 1150 万张独特的图像,跨越 108 种语言。大家可凭知识共享许可下载并使用 WIT 数据集。此外,我们也很高兴地宣布,我们将与 Wikimedia Research 以及其他外部协作者携手在 Kaggle 举办 WIT 数据集的竞赛

  • WIT:适用于多模式、多语言机器学习的基于维基百科的图像文本数据集

    https://dl.acm.org/doi/10.1145/3404835.3463257

  • 下载并使用

    https://github.com/google-research-datasets/wit

  • WIT 数据集的竞赛

    https://www.kaggle.com/c/wikipedia-image-caption/overview


数据集

图像

数量

 文本

上下文

文本

语言数量  

Flickr30K

32K

158K

-

< 8

SBU Captions 

1M

1M

-

1

MS-COCO

330K

1.5M

-

< 4;7

(仅限测试)

CC-3M

3.3M

3.3M

-

1

CC-12M

12M

12M

-

1

WIT

11.5M

37.5M

~119M

108

相比以往数据集,WIT 的语言更多,规模更大


WIT 数据集的独特优势包括:


1. 大规模: WIT 是公开提供的最大的图像文本示例多模式数据集。


2. 多语言: WIT 拥有 108 种语言,是其他数据集的十倍或以上。


3. 上下文信息: 与典型的多模式数据集(每个图像只有一个文字说明)不同,WIT 包含许多页面级和部分级上下文信息。


4. 现实世界实体: 维基百科是一个覆盖广泛的知识库,其丰富的现实世界实体可以在 WIT 中得以体现。


5. 具有挑战性的测试集:在我们最近获得 EMNLP 接受的研究中,所有最先进的模型在 WIT 上表现出的性能都明显低于传统评估集,例如平均召回率 (recall) 下降约 30 点。

  • 最近获得 EMNLP 接受的研究

    https://arxiv.org/abs/2109.05125


数据集的创建过程


WIT 的主要目标是在不牺牲质量和概念覆盖面的情况下创建大型数据集。因此,我们选择利用当今最大的在线百科全书:维基百科。


就可用信息的深度而言,我们以维基百科上的“Half Dome”(加州约塞米蒂国家公园)页面为例如下所示,文章为图像提供了许多有趣的文本说明和相关的上下文信息,如页面标题、主要页面描述以及其他上下文信息和元数据。


维基百科页面示例,其中包含可供提取的各种图像相关文本选择集和上下文。选自维基百科“Half Dome”页面:照片由 David Iliff 拍摄。许可证:CC BY-SA 3.0


此特定“Half Dome”图像的维基百科页面示例。选自维基百科“Half Dome”页面:照片由 David Iliff 拍摄。许可证:CC BY-SA 3.0


我们首先选择包含图像的维基百科页面,然后提取各种图像文本关联内容和周围的上下文。为进一步优化数据,我们执行严格的过滤环节来确保数据质量。过滤过程包含:


基于文本的过滤,以确保文字说明的可用性、长度和质量(例如通过删除通用默认填充文本);


基于图像的过滤,以确保每个图像都具有特定的大小且拥有允许的许可;


基于图像和文本实体的过滤,以确保适合研究(例如排除仇恨类言论)。


接着我们进一步对图像文字说明集随机抽样,由真人进行校对评估,他们中绝大多数人都认可一个结论:98% 样本其图像与文字说明一致。


高度语言多样性


WIT 拥有 108 种语言的数据,是首个大规模、多语言、多模式数据集。


图像文本集数量

独特语言

数量

图像数量

独特语言

数量

> 1M

9

> 1M

6

500K - 1M

10

500K - 1M

12

100K - 500K 

36

100K - 500K 

35

50K - 100K

15

50K - 100K

17

14K - 50K

38

13K - 50K

38

WIT:跨语言覆盖统计信息


出现在十几个维基百科页面,且涵盖超过 12 种语言的图像示例。选自维基百科“Wolfgang Amadeus Mozart”页面


首个上下文图像文字数据集


大多数多模式数据集仅为给定图像提供单个文本说明(或类似文字说明的多个版本)。WIT 是首个提供上下文信息的数据集, 可以帮助研究人员就上下文对图像文字说明以及图像选择的影响进行建模。


显示图像文本数据和额外上下文信息的 WIT 数据集示例


具体而言,可能有助于研究的 WIT 关键文本字段包括:


文本说明:WIT 提供三种不同的图像文字说明,包括(可能受上下文影响的)“参考描述”、(可能不受上下文影响的)“属性描述”,以及“替代文本描述”。


上下文信息:包括页面标题、页面描述、网址和有关维基百科部分的局部上下文(包括部分标题和文本)。


如下所示,WIT 在以下不同字段具有广泛的覆盖。


WIT 图像

文字字段

训练

 Val

测试

合计/独特

行/元组

 37.1M

261.8K

210.7K 

37.6M

独特的图像

11.4M

58K

57K

11.5M

参考描述

16.9M

150K

104K

17.2M/16.7M 

属性描述

34.8M

193K

200K

35.2M/10.9M

替代文本

5.3M

29K

29K

5.4M/5.3M

上下文文本

-

-

-

119.8M

WIT 的关键字段兼有文本说明和上下文信息


高质量训练集与

具有挑战性的评估基准


维基百科广泛覆盖各种概念,这意味着 WIT 评估集作为评估基准非常具有挑战性,即使对于最先进的模型而言也是如此。在图像文本检索方面,我们发现传统数据集的平均召回分数 (mean recall scores) 为 80 秒,而对于 WIT 测试集而言,资源丰富的语言为 40 秒,资源不足的语言为 30 秒。我们希望这可以转而帮助研究人员构建更强大、更稳健的模型。


WIT 数据集与 Wikimedia 和

Kaggle 携手开展竞赛


此外,非常高兴地宣布,我们将携手 Wikimedia Research 以及一些外部协作者共同组织 WIT 测试集的竞赛。竞赛将在 Kaggle 举办,竞赛任务为图像文本检索。我们将给定一组图像和文本说明,而参赛者的任务是为每个图像检索适当的文字说明。


为促进该领域的研究,维基百科为大部分训练和测试数据集提供了 300 像素分辨率的图像和基于 Resnet-50 的图像嵌入向量。除 WIT 数据集以外,Kaggle 还将托管所有图像数据,并提供 Colab notebooks。此外,参赛者届时可访问 Kaggle 论坛,以便分享代码和开展协作。任何对多模态感兴趣的人都可以借此轻松开始并运行实验。我们很高兴并且期待各位参赛者可以在 Kaggle 平台,通过 WIT 数据集和维基百科图像为我们带来精彩表现。


结论


我们相信 WIT 数据集将帮助研究人员构建更好的多模态多语言模型,并识别更好的学习和表征技术,最终借助视觉语言数据在现实世界任务中优化机器学习模型。如有任何问题,请联系 wit-dataset@google.com。我们非常愿意倾听您如何使用 WIT 数据集。


致谢


我们想要感谢 Google Research 的共同作者:Jiecao Chen、Michael Bendersky 以及 Marc Najork。我们感谢 Beer Changpinyo、Corinna Cortes、Joshua Gang、Chao Jia、Ashwin Kakarla、Mike Lee、Zhen Li、Piyush Sharma、Radu Soricut、Ashish Vaswani、Yinfei Yang 以及审核者提供富有洞察力的反馈和评论。


我们感谢来自 Wikimedia Research 的 Miriam Redi 和 Leila Zia 与我们合作开展竞赛,并提供图像像素和图像嵌入向量数据。我们感谢 Addison Howard 和 Walter Reade 帮助我们在 Kaggle 举办这次竞赛。我们还要感谢 Diane Larlus (Naver Labs Europe (NLE))、Yannis Kalantidis (NLE)、Stéphane Clinchant (NLE)、EPFL 的博士生 Tiziano Piccardi、南安普敦大学的博士生 Lucie-Aimée Kaffee 以及 Yacine Jernite (Hugging Face) 对竞赛的重要贡献。


点击“阅读原文”访问 TensorFlow 官网



不要忘记“一键三连”哦~

分享

点赞

在看

登录查看更多
4

相关内容

维基百科( Wikipedia.org)是一个基于 Wiki 技术的全球性多语言百科全书协作项目,同时也是一部在网际网络上呈现的网络百科全书网站,其目标及宗旨是为全人类提供自由的百科全书。目前 Alexa 全球网站排名第六。
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
63+阅读 · 2021年4月11日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
交叉描述:图像和文本的语义相似度
TensorFlow
2+阅读 · 2021年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
66+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
相关资讯
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
交叉描述:图像和文本的语义相似度
TensorFlow
2+阅读 · 2021年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
66+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员