1亿组图文对，填补中文开源多模态数据集空白！还附带基础模型，来自华为诺亚方舟实验室

会员服务 ·

1亿组图文对，填补中文开源多模态数据集空白！还附带基础模型，来自华为诺亚方舟实验室

2022 年 2 月 16 日 量子位

行早发自凹非寺
量子位 | 公众号 QbitAI

华为诺亚方舟实验室开源了第一个亿级中文多模态数据集：悟空。

这个新发布的数据集不仅规模大——包含1亿组图文对，而且质量也很高。

所有图像都是筛选过的，长宽都在200个像素以上，比例从1/3-3不等。

而和图像对应的文本也根据其语言、长度和频率进行了过滤，隐私和敏感词也都考虑在内。

例如这一组数据集中的例子，内容还相当新，像进门扫码登记，社区疫苗接种的防疫内容都有。

这一波可以说是填上了大规模中文多模态数据集的缺口。

悟空数据集

自一年前OpenAI的CLIP+Dall·E组合开启新一轮多模态学习浪潮以来，算上后续的ALIGN和FILIP，都在视觉语言预训练（VLP）领域表现优异。

世界范围内的成功离不开大规模数据集的支持，但中文开源数据方面，有是有，规模大的不多。

有了“悟空”数据集之后，就可以支持更多预训练模型用于下游任务。

数据集之外，团队还附赠了一款基本模型，参考了流行的文本图像双编码器架构：

其中视觉标记和文本标记作为输入。然后，将两种模式的输入标记连接起来，并用位置嵌入来显示标记位置。

有意思的一点是，这里的图像编码器是从英文数据集上训练的，上面预加载并锁定了从外部模型中训练的英文数据集中的权重。

但是仍然可以中文文本进行跨模态预训练，在下游任务中也表现得很好。

除此之外，华为诺亚还提供了不同下游任务的基准测试。

例如零样本图像分类，下图中除了Wukong_ViT-500M，其他的悟空模型变体都是在这个一亿的数据库上训练的：

再比如在图像检索文本和文本检索图像这两个任务上，在五个不同的数据集上的测试结果如下：

而这也证明了将在英语数据集上预训练的图像编码器应用于中文多模态预训练的良好效果。未来也可能会探索更多的解决方案，利用悟空数据集训练多语言跨模态模型。

目前悟空数据集在官网即可下载（链接在文末），赶快用起来吧~

数据集地址：
https://wukong-dataset.github.io/wukong-dataset/benchmark.html

论文地址：
https://arxiv.org/abs/2202.06767

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

华为诺亚方舟实验室

关注 4

诺亚方舟实验室是华为公司设立在香港的实验室成立于2012年，主要从事人工智能学习——数据挖掘研究。

【北理&哈佛】图多模态学习的疾病关系提取

专知会员服务

33+阅读 · 2022年4月15日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知会员服务

20+阅读 · 2022年4月13日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

中文预训练语言模型回顾

专知会员服务

34+阅读 · 2020年11月25日

【ICML2020】文本摘要生成模型PEGASUS

专知会员服务

35+阅读 · 2020年8月23日

【开放经典书】机器学习与优化，第三版，516页pdf图文并茂讲解ML

专知会员服务

151+阅读 · 2020年3月28日

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

CVer

2+阅读 · 2022年3月28日

新突破！华为诺亚开源首个亿级中文多模态数据集-悟空！

CVer

1+阅读 · 2022年3月8日

华为诺亚开源首个亿级中文多模态数据集-悟空，填补中文NLP社区一大空白

机器之心

1+阅读 · 2022年2月25日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了！百度这次实现了图文双向生成

AI前线

1+阅读 · 2022年1月7日

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

机器之心

1+阅读 · 2022年1月6日

横扫40+个SOTA！22位华人共同打造佛罗伦萨模型，一统图像视频文本，含9亿图像-文本对

新智元

0+阅读 · 2021年11月24日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

公共就业规模和结构优化的机理与模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于视觉感知机理的林火视频识别模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

云计算环境下旅游信息个性化服务模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

创新驱动模式下旅游服务供应链竞争决策模型与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

互联网环境下中文实体知识挖掘关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

多文种文档图像识别的多层次马尔可夫随机场模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

HRPose: Real-Time High-Resolution 6D Pose Estimation Network Using Knowledge Distillation

Arxiv

1+阅读 · 2022年4月20日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-Resolution

Arxiv

0+阅读 · 2022年4月19日

Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images

Arxiv

0+阅读 · 2022年4月19日

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Arxiv

0+阅读 · 2022年4月18日

MusicNet: Compact Convolutional Neural Network for Real-time Background Music Detection

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

VIP会员