【ICCV2023教程】自监督学习改进多模态大模型, Ishan Misra@Meta - 专知VIP

会员服务 ·

28

ICCV 2023 · 自监督学习 · 多模态大模型 ·

2023 年 10 月 8 日

【ICCV2023教程】自监督学习改进多模态大模型, Ishan Misra@Meta

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在本次演讲中，我将展示如何利用自监督学习来改进基础的多模态模型，使其能够扩展到更多的模态、学习到更好的表示，并提高其效率。训练基础多模态模型时的一个大挑战是配对数据的稀缺性。虽然我们有大量的（图像，文本）数据，但其他模态，如深度或IMU的数据集整体上则是有限的。我们在这方面的首次尝试名为ImageBind，它展示了图像可以用作一个通用的信号来“绑定”多种不同的模态。我们证明了自然出现的图像配对，如（图像，IMU），（图像，深度）可以被自动用来学习一个共享的嵌入空间，其中未见过的模态对是对齐的。ImageBind实现了零射击识别、跨模态检索和生成的新能力。我们的第二项工作显示，使用自监督学习作为“预”预训练阶段可以改进多模态（图像，文本）表示，在各种模型大小和数据大小上都有所表现。预预训练提高了数十亿参数在数十亿图像上训练的基础模型的性能，同时也加速了它们的收敛。由此产生的模型在完全微调、线性探测、图像和视频领域的零射击识别任务上都展现出了最先进的性能。

成为VIP会员查看完整内容

51

相关内容

ICCV 2023

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

26+阅读 · 2022年3月11日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【MILA-唐建】学习知识图谱推理的符号逻辑规则，附视频与PPT

【MILA-唐建】学习知识图谱推理的符号逻辑规则，附视频与PPT

专知会员服务

84+阅读 · 2021年2月13日

【ICML2020-伯克利-马毅老师组】深度等距学习的视觉识别，Deep Isometric Learning for Visual Recognition

【ICML2020-伯克利-马毅老师组】深度等距学习的视觉识别，Deep Isometric Learning for Visual Recognition

专知会员服务

25+阅读 · 2020年7月1日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【剑桥大学ICLR2020】卷积条件神经过程，Convolutional Conditional Neural Processes

【剑桥大学ICLR2020】卷积条件神经过程，Convolutional Conditional Neural Processes

专知会员服务

33+阅读 · 2020年1月19日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

专知

13+阅读 · 2022年1月27日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

2+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

VIP会员

相关主题

自监督学习

多模态大模型

相关VIP内容

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

26+阅读 · 2022年3月11日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【MILA-唐建】学习知识图谱推理的符号逻辑规则，附视频与PPT

【MILA-唐建】学习知识图谱推理的符号逻辑规则，附视频与PPT

专知会员服务

84+阅读 · 2021年2月13日

【ICML2020-伯克利-马毅老师组】深度等距学习的视觉识别，Deep Isometric Learning for Visual Recognition

【ICML2020-伯克利-马毅老师组】深度等距学习的视觉识别，Deep Isometric Learning for Visual Recognition

专知会员服务

25+阅读 · 2020年7月1日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【剑桥大学ICLR2020】卷积条件神经过程，Convolutional Conditional Neural Processes

【剑桥大学ICLR2020】卷积条件神经过程，Convolutional Conditional Neural Processes

专知会员服务

33+阅读 · 2020年1月19日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

专知

13+阅读 · 2022年1月27日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

2+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员