近年来,在Instagram、Podcast、Clubhouse、YouTube等各种平台上产生和发布了大量的多媒体数据。这一现象启发了大规模多媒体分析的研究工作,包括分析方法的基础,以及一些具体的下游应用(如识别、检索和信息提取)。特别是多媒体的表示学习是其中最重要的研究方向之一。一个良好的多媒体数据实例特征表示具有可解释性和通用性,可以提高下游任务的性能和效率。 由于多媒体内容的丰富性和噪声性,对其进行良好的表示具有挑战性。例如,在语音处理任务中,人类的话语包含语言信息,以及说话人的身份、说话风格和背景噪声等其他因素。在这种情况下,我们需要一种表示类型,它从所有这些因素中捕获信息,并为下游应用程序恢复有用的因素。大多数主流技术利用特征向量来表示训练数据集中的每个实例,并通过进行预训练任务来优化特征提取器。然而,基于向量的表示方法不足以保持多媒体数据的丰富度和处理噪声。此外,常见的预训练程序,如计算机视觉研究领域的ImageNet分类任务,只关注单一类型的鉴别信息,对于某些应用可能是不够的。因此,在本文中,我探索了两个研究方向来解决这些问题。 在本文的第一部分,我提出了两种新的多媒体内容表示类型:概率分布和线性子空间。与基于向量的表示方法相比,这两种方法都能较好地处理多媒体的丰富度和噪声。为了在下游任务中利用这两种表示,设计特定的算法和训练策略是必要的。在这部分论文中,我介绍了将分布和子空间表示与深度神经网络架构相结合的方法,这些方法可以端到端地进行优化。在下游任务上的实验结果表明,与主流的向量表示方法相比,本文提出的两种表示方法具有更好的性能。 在本文的第二部分,我研究了风格和内容解纠缠技术,它明确地保留了表征学习过程中多媒体内容中的不同因素。解纠缠表示提供了更好的可解释性,并允许在数据合成场景中操纵隐藏因素。基于这一动机,我提出了两种方法来有效地分离多媒体数据中的隐藏因素。第一种方法将风格和内容之间的关系建模为隐藏特征空间中的简单矩阵操作。第二种方法通过制定对抗训练准则来最小化两个隐藏因素之间的互信息。在数据合成/生成任务的定性和定量实验中,评价了两种方法的优势。此外,我进一步论证了风格和内容解纠缠技术的适用性,通过构建一个预训练框架与生成模型。具体来说,生成模型产生的合成数据可以支持语音识别、人的重新识别等下游任务的监督训练过程。此外,解缠生成过程将数据扩充的思想从原始数据空间扩展到可解释的表示空间,允许我们在下游任务中纳入更多的先验知识。

成为VIP会员查看完整内容
20

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】神经序列建模与应用,102页pdf
专知会员服务
55+阅读 · 2022年8月23日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
《多任务学习》最新综述论文,20页pdf
专知会员服务
123+阅读 · 2021年4月6日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【ICML2022】几何多模态对比表示学习
专知
2+阅读 · 2022年7月17日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
9+阅读 · 2022年1月16日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年10月4日
Arxiv
12+阅读 · 2020年6月20日
VIP会员
相关VIP内容
【CMU博士论文】神经序列建模与应用,102页pdf
专知会员服务
55+阅读 · 2022年8月23日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
《多任务学习》最新综述论文,20页pdf
专知会员服务
123+阅读 · 2021年4月6日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
相关资讯
【ICML2022】几何多模态对比表示学习
专知
2+阅读 · 2022年7月17日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
9+阅读 · 2022年1月16日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员