【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

2022 年 10 月 30 日 专知

深度学习在多个领域都取得了突破性进展，从图像、语言和视频理解等核心机器学习任务，到医疗、自动驾驶和农业等现实行业。它的成功是通过为神经网络提供人工监督，从大型标记数据集(如ImageNet)自动学习分层数据表示。然而，获取大规模的标签数据通常是一个非常耗时和昂贵的过程。为应对这一挑战，本文挑战多模态视频数据的自监督极限。视频数据通常包含多种形式，如图像、音频、转录语音和可免费获得的文本标题。这些模态通常共享冗余语义信息，因此可以作为伪标签来监督彼此进行表示学习，而不需要使用人工标签。在不依赖标签数据的情况下，我们能够在从互联网收集的数百万个视频剪辑的非常大规模的视频数据上训练这些深度表示。通过在各种领域建立新的最先进的性能，展示了多模态自监督的可扩展性好处:视频动作识别、文本到视频检索、文本到图像检索和音频分类。我们还引入了数据转换、模型架构和损失函数方面的其他技术创新，以使用多模态自监督进一步改进对这些深度视频表示的学习。本文的第二个贡献是改进深度表示的可解释性的新工具，因为要破译这些深度表示中编码的关键特征是非常困难的。对于图像，我们展示了如何使用摄动分析来分析网络的中间表示。对于视频，我们提出了一种新的聚类方法，使用Sinkhorn-Knopp算法将深度视频表示映射到人类可解释的语义伪标签。本论文的研究成果为进一步提高深度视频表示学习的可扩展性和可解释性做出了贡献。

https://ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“m267” 就可以获取《 【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

9

相关内容

多模态数据

多模态数据

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【NUS博士论文】学习视觉场景的结构化表示，137页pdf

【NUS博士论文】学习视觉场景的结构化表示，137页pdf

专知会员服务

38+阅读 · 2022年7月15日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

复杂多组分化学体系二维测量数据的降维研究

国家自然科学基金

0+阅读 · 2011年12月31日

Generalized Decoding for Pixel, Image, and Language

Arxiv

1+阅读 · 2022年12月21日

Deep set conditioned latent representations for action recognition

Arxiv

0+阅读 · 2022年12月21日

MATCH: Metadata-Aware Text Classification in A Large Hierarchy

Arxiv

12+阅读 · 2021年2月15日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

VIP会员

相关主题

多模态数据

牛津大学 (University of Oxford)

相关VIP内容

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【NUS博士论文】学习视觉场景的结构化表示，137页pdf

【NUS博士论文】学习视觉场景的结构化表示，137页pdf

专知会员服务

38+阅读 · 2022年7月15日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

热门VIP内容

开通专知VIP会员享更多权益服务

因果强化学习的统一框架：综述、分类体系、算法与应用

《无人机系统 - 反无人机系统：测试方法》364页

【MIT博士论文】语言模型的推理时学习算法

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

相关资讯

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

复杂多组分化学体系二维测量数据的降维研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Generalized Decoding for Pixel, Image, and Language

Arxiv

1+阅读 · 2022年12月21日

Deep set conditioned latent representations for action recognition

Arxiv

0+阅读 · 2022年12月21日

MATCH: Metadata-Aware Text Classification in A Large Hierarchy

Arxiv

12+阅读 · 2021年2月15日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员