会员服务 ·

0

腾讯开源业内最大多标签图像数据集，附ResNet-101模型

2018 年 9 月 10 日 量子位

允中发自凹非寺
量子位报道 | 公众号 QbitAI

鹅厂福利，又是开源。

最迟本月月底，腾讯AI Lab将开源“Tencent ML-Images”项目。

不仅要开源多标签图像数据集ML-Images，以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101。

业内最大规模

值得注意的是，这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别，在业内已公开的多标签图像数据集中，规模最大，一般科研机构及中小企业的使用场景，应该够了。

此前，业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。

所以一旦腾讯ML-Images开源，毫无疑问将成为业内规模最大。

不过腾讯方面认为，不光是数量规模上够诚意，在项目细节上，也都颇为用心：

大规模的多标签图像数据集的构建方法，包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中，团队充分利用了类别语义关系来帮助对图像的精准标注。

基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法，可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

基于ML-Images训练得到的ResNet-101模型，具有优异的视觉表示能力和泛化性能。通过迁移学习，该模型在ImageNet验证集上取得了80.73%的top-1分类精度，超过谷歌同类模型（迁移学习模式）的精度，且值得注意的是，ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

（注：微软ResNet-101模型为非迁移学习模式下训练得到，即1.2M预训练图像为原始数据集ImageNet的图像。）

ResNet-101模型

而同时提供的深度残差网络ResNet-101，是腾讯AI Lab基于ML-Images训练得到的。

腾讯方面介绍，该模型具有优异的视觉表示能力和泛化性能，在当前业内同类模型中精度最高，将为包括图像、视频等在内的视觉任务提供强大支撑，并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

“Tencent ML-Images”项目的深度学习模型，目前已在腾讯多项业务中发挥重要作用，如“天天快报”的图像质量评价与推荐功能。

比如，天天快报新闻封面图像的质量得到明显提高。

此外，腾讯AI Lab团队还将基于Tencent ML-Images的ResNet-101模型迁移到很多其他视觉任务，包括图像物体检测，图像语义分割，视频物体分割，视频物体跟踪等。

这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。

当然，最后顺路一提，鹅厂近年来在开源方面真是越干越勇。

自2016年首次在GitHub上发布开源项目（https://github.com/Tencent）以来，腾讯目前已有57个开源项目在列，领域覆盖了人工智能、移动开发、小程序……

嗯，好事情，再接再厉~

— 完 —

加入社群

量子位AI社群28群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

10

相关内容

ResNet

高效医疗图像分析的统一表示

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

基于深度神经网络的少样本学习综述

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

图神经网络的ImageNet？斯坦福大学等开源百万量级OGB基准测试数据集

图神经网络的ImageNet？斯坦福大学等开源百万量级OGB基准测试数据集

机器之心

6+阅读 · 2019年12月23日

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

GAN生成式对抗网络

4+阅读 · 2019年6月26日

CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型

CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型

PaperWeekly

31+阅读 · 2019年4月11日

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

量子位

6+阅读 · 2019年3月21日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

资源 | 腾讯开源800万中文词的NLP数据集

资源 | 腾讯开源800万中文词的NLP数据集

THU数据派

15+阅读 · 2018年10月29日

资源 | 开源数据集

资源 | 开源数据集

AI研习社

8+阅读 · 2018年9月25日

谷歌发布最大图像标注数据集，190 万张图片开启公开图像挑战赛

谷歌发布最大图像标注数据集，190 万张图片开启公开图像挑战赛

AI研习社

7+阅读 · 2018年5月1日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

资源|各领域公开数据集

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

CoCoNet: A Collaborative Convolutional Network

CoCoNet: A Collaborative Convolutional Network

Arxiv

6+阅读 · 2019年1月28日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Graph Convolutional Networks for Text Classification

Arxiv

31+阅读 · 2018年11月13日

Graph Correspondence Transfer for Person Re-identification

Arxiv

5+阅读 · 2018年4月1日

Triplet-based Deep Similarity Learning for Person Re-Identification

Arxiv

3+阅读 · 2018年2月9日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

VIP会员

相关主题

深度残差网络

相关VIP内容

高效医疗图像分析的统一表示

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

基于深度神经网络的少样本学习综述

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

图神经网络的ImageNet？斯坦福大学等开源百万量级OGB基准测试数据集

图神经网络的ImageNet？斯坦福大学等开源百万量级OGB基准测试数据集

机器之心

6+阅读 · 2019年12月23日

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

GAN生成式对抗网络

4+阅读 · 2019年6月26日

CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型

CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型

PaperWeekly

31+阅读 · 2019年4月11日

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

量子位

6+阅读 · 2019年3月21日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

资源 | 腾讯开源800万中文词的NLP数据集

资源 | 腾讯开源800万中文词的NLP数据集

THU数据派

15+阅读 · 2018年10月29日

资源 | 开源数据集

资源 | 开源数据集

AI研习社

8+阅读 · 2018年9月25日

谷歌发布最大图像标注数据集，190 万张图片开启公开图像挑战赛

谷歌发布最大图像标注数据集，190 万张图片开启公开图像挑战赛

AI研习社

7+阅读 · 2018年5月1日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

资源|各领域公开数据集

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

相关论文

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

CoCoNet: A Collaborative Convolutional Network

CoCoNet: A Collaborative Convolutional Network

Arxiv

6+阅读 · 2019年1月28日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Graph Convolutional Networks for Text Classification

Arxiv

31+阅读 · 2018年11月13日

Graph Correspondence Transfer for Person Re-identification

Arxiv

5+阅读 · 2018年4月1日

Triplet-based Deep Similarity Learning for Person Re-Identification

Arxiv

3+阅读 · 2018年2月9日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员