训练2021年每个SOTA模型，他的「核武」策略意外收获Kaggle银牌 - 专知

会员服务 ·

0

训练2021年每个SOTA模型，他的「核武」策略意外收获Kaggle银牌

2022 年 2 月 14 日 机器之心

机器之心报道

编辑：杜伟

可谓是「无心插柳柳成荫」。

在 Kaggle 的世界，软件开发者、金融模式和行为研究公司 Deep trading 的创始人 Yam Peleg 称得上一位「大神」。目前，他在 Notebooks Grandmaster 中排名第 11，在 Discussion Grandmaster 中排名第 5。

最近，他干的一件事在 reddit 上引发了网友热议：他训练了 2021 年的每一个 SOTA 模型，并在最近的一项 Kaggle 图像分类比赛中意外斩获了一枚银牌。这项 Kaggle 比赛名为「Pawpularity Contest」，这是一个典型的多模态回归问题，根据宠物图片来预测它们的可爱程度。

图源：https://www.kaggle.com/c/petfinder-pawpularity-score

他的思路是这样的：训练每个 SOTA 模型，使用 100 亿参数的集合的集合（ensemble of ensembles）来「核武攻击」（Nuke）Kaggle 比赛的排行榜。

对于这一策略（trick）的命名 ——「Nuke option」，网友表示非常喜欢，并将在其他比赛中用这一命名。

另一位网友称赞道，「在 Kaggle 环境中完成所有事情真了不起。」

方案解读

根据 Yam Peleg 的 Notebook 介绍，他训练的模型包括如下：

EfficientNet
NFNet
ViT
Swin Transformer
Deep Orthogonal Fusion of Local and Global Features（DOLG）
Hybrid Swin Transformer
External Attention Transformer（EAT）

他将自己的方案称为「Nuclear Protocols for Image Classification」，并表示只有用尽了其他方案才考虑使用。pipeline 如下图所示：提出的方法是 7 个堆叠 pipeline（140 + 模型）的集合，并且每个 pipeline 都有一个在提取图像嵌入上训练的第二阶段（2nd）模型。

实现步骤

训练这些 SOTA 模型之前，Yam Peleg 首先导入库：

接着安装其他配置，完成数据填充（seeding）：

配置部分截图

然后是 TPU 配置、加载元数据、CV 的分层 K 折回归（Stratified KFold for Regression）、增强（Augmentations）等步骤。数据 pipeline 如下所示：

读取原始文件，然后解码到 tf.Tensor
按需求重新调整图像大小
将数据类型变为 float32
缓存数据以提升速度
使用增强来降低过拟合，并使模型更稳健
将数据分割为 batch

最后依次训练模型，并将 Notebook 提交至了 Pawpularity Contest 中，获得了一枚银牌。

完整排行榜：https://www.kaggle.com/c/petfinder-pawpularity-score/leaderboard

参考链接：

https://www.kaggle.com/yamqwe/the-nuclear-option-train

https://www.reddit.com/r/MachineLearning/comments/s6spou/p_i_trained_every_single_sota_from_2021_and/

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

1

相关内容

Kaggle

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

训练深度学习模型，46页ppt

专知会员服务

54+阅读 · 2021年6月17日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知会员服务

59+阅读 · 2020年12月9日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

机器之心

2+阅读 · 2022年4月8日

RecSys Challenge 2022推荐赛题

RecSys Challenge 2022推荐赛题

机器学习与推荐算法

1+阅读 · 2022年3月22日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

极市平台

0+阅读 · 2022年3月20日

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

重新审视模型架构的掩码头部，用于新类别实例分割

重新审视模型架构的掩码头部，用于新类别实例分割

TensorFlow

1+阅读 · 2021年10月14日

我用Transformer修复代码bug

我用Transformer修复代码bug

夕小瑶的卖萌屋

1+阅读 · 2021年9月9日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

CVPR 2018 中国论文分享会之「深度学习」

CVPR 2018 中国论文分享会之「深度学习」

AI科技评论

11+阅读 · 2018年5月27日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

浙闽沿岸海域跨陆架输运的特征和动力机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于过程的冬油菜生长及产量花期渍害响应模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

大口径太阳望远镜主光路系统附加偏振的量化分析研究

国家自然科学基金

0+阅读 · 2013年12月31日

删失数据中位数回归模型的统计分析

国家自然科学基金

3+阅读 · 2012年12月31日

不可靠通信环境下复杂动态网络状态估计与故障诊断

国家自然科学基金

0+阅读 · 2012年12月31日

多地形移动机器人的机构动态耦合与控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

野外环境中基于自适应学习的移动机器人地形分类与建图

国家自然科学基金

1+阅读 · 2011年12月31日

基于测量的量子计算的研究

国家自然科学基金

0+阅读 · 2011年12月31日

遥感信息与生长模型协同的小麦估产方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Active Learning with Weak Labels for Gaussian Processes

Arxiv

2+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Comparison communication protocols

Arxiv

0+阅读 · 2022年4月17日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Accurate ADMET Prediction with XGBoost

Accurate ADMET Prediction with XGBoost

Arxiv

0+阅读 · 2022年4月15日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

ResMLP: Feedforward networks for image classification with data-efficient training

Arxiv

12+阅读 · 2021年5月7日

VIP会员

相关主题

Swin Transformer

相关VIP内容

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

训练深度学习模型，46页ppt

专知会员服务

54+阅读 · 2021年6月17日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知会员服务

59+阅读 · 2020年12月9日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

机器之心

2+阅读 · 2022年4月8日

RecSys Challenge 2022推荐赛题

RecSys Challenge 2022推荐赛题

机器学习与推荐算法

1+阅读 · 2022年3月22日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

极市平台

0+阅读 · 2022年3月20日

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

重新审视模型架构的掩码头部，用于新类别实例分割

重新审视模型架构的掩码头部，用于新类别实例分割

TensorFlow

1+阅读 · 2021年10月14日

我用Transformer修复代码bug

我用Transformer修复代码bug

夕小瑶的卖萌屋

1+阅读 · 2021年9月9日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

CVPR 2018 中国论文分享会之「深度学习」

CVPR 2018 中国论文分享会之「深度学习」

AI科技评论

11+阅读 · 2018年5月27日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

相关基金

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

浙闽沿岸海域跨陆架输运的特征和动力机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于过程的冬油菜生长及产量花期渍害响应模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

大口径太阳望远镜主光路系统附加偏振的量化分析研究

国家自然科学基金

0+阅读 · 2013年12月31日

删失数据中位数回归模型的统计分析

国家自然科学基金

3+阅读 · 2012年12月31日

不可靠通信环境下复杂动态网络状态估计与故障诊断

国家自然科学基金

0+阅读 · 2012年12月31日

多地形移动机器人的机构动态耦合与控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

野外环境中基于自适应学习的移动机器人地形分类与建图

国家自然科学基金

1+阅读 · 2011年12月31日

基于测量的量子计算的研究

国家自然科学基金

0+阅读 · 2011年12月31日

遥感信息与生长模型协同的小麦估产方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Active Learning with Weak Labels for Gaussian Processes

Arxiv

2+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Comparison communication protocols

Arxiv

0+阅读 · 2022年4月17日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Accurate ADMET Prediction with XGBoost

Accurate ADMET Prediction with XGBoost

Arxiv

0+阅读 · 2022年4月15日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

ResMLP: Feedforward networks for image classification with data-efficient training

Arxiv

12+阅读 · 2021年5月7日

大家都在搜

无人机集群

CMU博士论文

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员