51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai - 专知VIP

会员服务 ·

38

Transformer · 多模态 · 自监督学习 ·

2023 年 2 月 24 日

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多模态自监督学习。本节将讨论Transformer架构如何弥合视觉领域和自然语言处理领域之间的差距。ViT架构允许使用Transformer基座对不同模态进行多模态学习，如CLIP、LiT、VATT。它还开启了基于NLP领域掩模语言建模思想的自监督视觉表示学习，如BEIT和MAE。

成为VIP会员查看完整内容

68

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

103+阅读 · 2023年2月24日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

ACL2022开会了！DeepMind学者等《视觉语言预训练:当前趋势与未来》教程，阐述最新前沿技术，附Slides

ACL2022开会了！DeepMind学者等《视觉语言预训练:当前趋势与未来》教程，阐述最新前沿技术，附Slides

专知会员服务

50+阅读 · 2022年5月22日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

专知会员服务

78+阅读 · 2021年12月10日

【DeepMind】多模态预训练模型概述，37页ppt

【DeepMind】多模态预训练模型概述，37页ppt

专知会员服务

95+阅读 · 2021年7月2日

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”

通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”

微软研究院AI头条

6+阅读 · 2022年8月30日

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

开放知识图谱

4+阅读 · 2022年8月22日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知

5+阅读 · 2022年8月4日

「视觉语言多模态预训练」最新2022研究综述，概述图像(视频)-文本预训练模型机制

「视觉语言多模态预训练」最新2022研究综述，概述图像(视频)-文本预训练模型机制

专知

6+阅读 · 2022年7月11日

CVPR 2022 | 视频Transformer自监督预训练新范式，复旦、微软云AI实现视频识别新SOTA

CVPR 2022 | 视频Transformer自监督预训练新范式，复旦、微软云AI实现视频识别新SOTA

机器之心

0+阅读 · 2022年4月23日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

基于核酸-球多肽荧光纳米探针的活细胞荧光生物传感新方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于阈值精细控制技术的超低功耗高性能FinFET电路设计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于先验知识的三维点云鲁棒处理技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于黎曼空间模型的多模态Web图像流形学习及检索研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于量子相干诱导旋光的超窄线宽原子滤波

国家自然科学基金

0+阅读 · 2011年12月31日

拓扑保持变换与标志点匹配的图像弹性配准方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

Sub-meter resolution canopy height maps using self-supervised learning and a vision transformer trained on Aerial and GEDI Lidar

Arxiv

0+阅读 · 2023年4月17日

TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns

Arxiv

0+阅读 · 2023年4月16日

TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning

Arxiv

0+阅读 · 2023年4月15日

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2023年4月13日

Efficient Multimodal Fusion via Interactive Prompting

Arxiv

0+阅读 · 2023年4月13日

Converting ECG Signals to Images for Efficient Image-text Retrieval via Encoding

Arxiv

0+阅读 · 2023年4月13日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

自监督学习

相关VIP内容

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

103+阅读 · 2023年2月24日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

ACL2022开会了！DeepMind学者等《视觉语言预训练:当前趋势与未来》教程，阐述最新前沿技术，附Slides

ACL2022开会了！DeepMind学者等《视觉语言预训练:当前趋势与未来》教程，阐述最新前沿技术，附Slides

专知会员服务

50+阅读 · 2022年5月22日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

专知会员服务

78+阅读 · 2021年12月10日

【DeepMind】多模态预训练模型概述，37页ppt

【DeepMind】多模态预训练模型概述，37页ppt

专知会员服务

95+阅读 · 2021年7月2日

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

热门VIP内容

开通专知VIP会员享更多权益服务

大型语言模型遇上文本属性图：一种融合框架与应用的综述

人工智能赋能自主武器与人类控制第三部分：人类控制与系统操作员 | 35页

【博士论文】用于概率程序与生成模型的变分推断

军事指挥控制系统：2025年5种用途

相关资讯

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”

通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”

微软研究院AI头条

6+阅读 · 2022年8月30日

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

开放知识图谱

4+阅读 · 2022年8月22日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知

5+阅读 · 2022年8月4日

「视觉语言多模态预训练」最新2022研究综述，概述图像(视频)-文本预训练模型机制

「视觉语言多模态预训练」最新2022研究综述，概述图像(视频)-文本预训练模型机制

专知

6+阅读 · 2022年7月11日

CVPR 2022 | 视频Transformer自监督预训练新范式，复旦、微软云AI实现视频识别新SOTA

CVPR 2022 | 视频Transformer自监督预训练新范式，复旦、微软云AI实现视频识别新SOTA

机器之心

0+阅读 · 2022年4月23日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

相关基金

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

基于核酸-球多肽荧光纳米探针的活细胞荧光生物传感新方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于阈值精细控制技术的超低功耗高性能FinFET电路设计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于先验知识的三维点云鲁棒处理技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于黎曼空间模型的多模态Web图像流形学习及检索研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于量子相干诱导旋光的超窄线宽原子滤波

国家自然科学基金

0+阅读 · 2011年12月31日

拓扑保持变换与标志点匹配的图像弹性配准方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Sub-meter resolution canopy height maps using self-supervised learning and a vision transformer trained on Aerial and GEDI Lidar

Arxiv

0+阅读 · 2023年4月17日

TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns

Arxiv

0+阅读 · 2023年4月16日

TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning

Arxiv

0+阅读 · 2023年4月15日

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2023年4月13日

Efficient Multimodal Fusion via Interactive Prompting

Arxiv

0+阅读 · 2023年4月13日

Converting ECG Signals to Images for Efficient Image-text Retrieval via Encoding

Arxiv

0+阅读 · 2023年4月13日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

微信扫码咨询专知VIP会员