Large-scale pretraining of visual representations has led to state-of-the-art performance on a range of benchmark computer vision tasks, yet the benefits of these techniques at extreme scale in complex production systems has been relatively unexplored. We consider the case of a popular visual discovery product, where these representations are trained with multi-task learning, from use-case specific visual understanding (e.g. skin tone classification) to general representation learning for all visual content (e.g. embeddings for retrieval). In this work, we describe how we (1) generate a dataset with over a billion images via large weakly-supervised pretraining to improve the performance of these visual representations, and (2) leverage Transformers to replace the traditional convolutional backbone, with insights into both system and performance improvements, especially at 1B+ image scale. To support this backbone model, we detail a systematic approach to deriving weakly-supervised image annotations from heterogenous text signals, demonstrating the benefits of clustering techniques to handle the long-tail distribution of image labels. Through a comprehensive study of offline and online evaluation, we show that large-scale Transformer-based pretraining provides significant benefits to industry computer vision applications. The model is deployed in a production visual shopping system, with 36% improvement in top-1 relevance and 23% improvement in click-through volume. We conduct extensive experiments to better understand the empirical relationships between Transformer-based architectures, dataset scale, and the performance of production vision systems.


翻译:对视觉表现进行大规模的大规模初步培训,导致在一系列基准计算机视觉任务上取得最先进的业绩,然而,这些技术在复杂生产系统中的极端规模的极端规模技术的效益相对而言尚未探索。我们考虑了一种流行的视觉发现产品的情况,在这种产品中,通过多任务学习,从使用-个案具体视觉理解(例如皮肤语调分类)到所有视觉内容的一般代表性学习(例如嵌入检索),导致在一系列基准计算机视觉任务上取得最先进的业绩表现。在这项工作中,我们描述了我们如何(1)通过大规模微弱监督的预培训,生成一个拥有超过10亿图像的数据集,其中含有超过10亿图像的大规模图像,以改善这些视觉表现;以及(2)利用变压器取代传统的革命骨干,同时了解系统和性改进性能,特别是在1B+图像规模上。为了支持这一主干模型,我们详细制定了一种系统化的方法,从杂质文本信号中得出薄弱的超超强的图像说明,展示了基于集群技术处理图像系统长期分布的图象标签的好处。通过对离线和在线的模型评估,我们展示了大规模、大规模变压型模型的造型模型的模型,我们展示了在视觉制作过程中的系统上对23级模型应用前的升级的系统改进了自我分析过程的系统上,在23的改进了自我分析结构中提供了重大的改进。

0
下载
关闭预览

相关内容

人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
专知会员服务
29+阅读 · 2021年7月30日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
学术报告|港科大助理教授宋阳秋博士
科技创新与创业
7+阅读 · 2019年7月19日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
数字孪生城市研究报告
智能交通技术
11+阅读 · 2018年12月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
4+阅读 · 2019年12月2日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
学术报告|港科大助理教授宋阳秋博士
科技创新与创业
7+阅读 · 2019年7月19日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
数字孪生城市研究报告
智能交通技术
11+阅读 · 2018年12月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员