【CMU博士论文】多媒体内容解纠缠表示,100页pdf

2022 年 8 月 8 日 专知


近年来,在Instagram、Podcast、Clubhouse、YouTube等各种平台上产生和发布了大量的多媒体数据。这一现象启发了大规模多媒体分析的研究工作,包括分析方法的基础,以及一些具体的下游应用(如识别、检索和信息提取)。特别是多媒体的表示学习是其中最重要的研究方向之一。一个良好的多媒体数据实例特征表示具有可解释性和通用性,可以提高下游任务的性能和效率。

由于多媒体内容的丰富性和噪声性,对其进行良好的表示具有挑战性。例如,在语音处理任务中,人类的话语包含语言信息,以及说话人的身份、说话风格和背景噪声等其他因素 。在这种情况下,我们需要一种表示类型,它从所有这些因素中捕获信息,并为下游应用程序恢复有用的因素。大多数主流技术利用特征向量来表示训练数据集中的每个实例,并通过进行预训练任务来优化特征提取器。然而,基于向量的表示方法不足以保持多媒体数据的丰富度和处理噪声。此外,常见的预训练程序,如计算机视觉研究领域的ImageNet分类任务,只关注单一类型的鉴别信息,对于某些应用可能是不够的。因此,在本文中,我探索了两个研究方向来解决这些问题。

在本文的第一部分,我提出了两种新的多媒体内容表示类型:概率分布和线性子空间 。与基于向量的表示方法相比,这两种方法都能较好地处理多媒体的丰富度和噪声。为了在下游任务中利用这两种表示,设计特定的算法和训练策略是必要的。在这部分论文中,我介绍了将分布和子空间表示与深度神经网络架构相结合的方法,这些方法可以端到端地进行优化。在下游任务上的实验结果表明,与主流的向量表示方法相比,本文提出的两种表示方法具有更好的性能。

在本文的第二部分,我研究了风格和内容解纠缠技术,它明确地保留了表征学习过程中多媒体内容中的不同因素 。解纠缠表示提供了更好的可解释性,并允许在数据合成场景中操纵隐藏因素。基于这一动机,我提出了两种方法来有效地分离多媒体数据中的隐藏因素。第一种方法将风格和内容之间的关系建模为隐藏特征空间中的简单矩阵操作。第二种方法通过制定对抗训练准则来最小化两个隐藏因素之间的互信息。在数据合成/生成任务的定性和定量实验中,评价了两种方法的优势。此外,我进一步论证了风格和内容解纠缠技术的适用性,通过构建一个预训练框架与生成模型。具体来说,生成模型产生的合成数据可以支持语音识别、人的重新识别等下游任务的监督训练过程。此外,解缠生成过程将数据扩充的思想从原始数据空间扩展到可解释的表示空间,允许我们在下游任务中纳入更多的先验知识。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DRMC” 就可以获取【CMU博士论文】多媒体内容解纠缠表示,100页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
0

相关内容

【博士论文】鲁棒深度学习自动驾驶,160页pdf
专知会员服务
39+阅读 · 2022年11月17日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
132+阅读 · 2022年10月4日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
《实现稳健和弹性机器学习》243页CMU博士论文
专知会员服务
31+阅读 · 2022年5月12日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
专知会员服务
62+阅读 · 2021年4月11日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
215+阅读 · 2020年10月8日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
17+阅读 · 2021年1月21日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
14+阅读 · 2020年1月27日
VIP会员
相关VIP内容
【博士论文】鲁棒深度学习自动驾驶,160页pdf
专知会员服务
39+阅读 · 2022年11月17日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
132+阅读 · 2022年10月4日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
《实现稳健和弹性机器学习》243页CMU博士论文
专知会员服务
31+阅读 · 2022年5月12日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
专知会员服务
62+阅读 · 2021年4月11日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
215+阅读 · 2020年10月8日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员