【牛津大学博士论文】多模态自监督学习，172页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】多模态自监督学习，172页pdf

2022 年 10 月 4 日 专知

深度学习推动了应用的爆炸式增长，然而训练深度神经网络通常需要昂贵的人工注释。在这篇论文中，我们探索了在训练深度神经网络时避免大量依赖人工注释示例的替代方案。具体来说，要么采用自监督方法来自动纠正自由获得的数据标签，要么完全放弃使用人工标签，而是利用音频和视觉信息的自然共生来学习视频中的对象表示。越来越多的数字数据通常会提供噪声标签，这些标签可以用来监督学习过程。传统的数据预处理包括在训练识别模型之前纠正/清理数据，但这可能需要大量的人工工作。我们考虑自动更正注释噪声，从而避免了昂贵的手动注释的需要。我们构建和扩展了最近的突破，使用一致性损失(consistency loss)和空间记忆映射(space memory map)来提供灵活的实例级注册，从而实现更大的泛化。进一步探索了多模态感觉流，利用模态冗余，即模态之间的重叠信息，为模型提供自监督。表示是通过利用不同的模式来学习的，而不使用任何人类注释的标签。我们将使用三个不同的应用程序演示此技术。

首先，我们自动管理一个大型音频数据集VGG-Sound，使用视觉引导收集了超过200k的视频，并在此基础上进行训练，生成最先进的音频识别模型。其次，我们提出了一种改进和扩展最近声源定位技术的方法，通过引入一种机制来挖掘硬样本并自动将其添加到对比学习公式中。最后，与在一个特定领域执行的现有视听同步任务不同，我们建议通过探索使用几种基于transformer的体系结构来解决开放世界设置中的同步问题。通过这些模型，我们在具有挑战性的语音数据集中获得了最先进的结果，并在一般声音数据集中显示了出色的泛化效果。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“M172” 就可以获取《【牛津大学博士论文】多模态自监督学习，172页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

9

相关内容

注释（编程）

注释（编程）

注释（编程）

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知会员服务

40+阅读 · 2022年10月11日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

45+阅读 · 2022年9月29日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

基因工程抗体用于农药残留检测的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Neural Embeddings for Text

Arxiv

0+阅读 · 2022年11月20日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

VIP会员

相关主题

注释（编程）

牛津大学 (University of Oxford)

相关VIP内容

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】自监督学习视频理解，143页pdf

【牛津大学博士论文】自监督学习视频理解，143页pdf

专知会员服务

40+阅读 · 2022年10月11日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

45+阅读 · 2022年9月29日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

热门VIP内容

开通专知VIP会员享更多权益服务

因果强化学习的统一框架：综述、分类体系、算法与应用

《无人机系统 - 反无人机系统：测试方法》364页

【MIT博士论文】语言模型的推理时学习算法

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

相关资讯

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

相关基金

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

基因工程抗体用于农药残留检测的研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Neural Embeddings for Text

Arxiv

0+阅读 · 2022年11月20日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员