视频通常有多种形式的数据,如音频、视频、文本(字幕)。理解和建模不同模态之间的交互是视频分析任务的关键,如分类,目标检测,活动识别等。然而,数据模态并不总是相关的——因此,了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。视频的另一个显著特征是连续帧之间的连贯性,这是由于视频和音频的连续性,我们称之为时间连贯性。我们展示了如何使用非线性引导的跨模态信号和时间相干性来提高多模态机器学习(ML)模型在视频分析任务(如分类)中的性能。我们在大规模YouTube-8M数据集上的实验表明,我们的方法在视频分类方面显著优于最先进的多模式ML模型。在YouTube-8M数据集上训练的模型,在不需要再训练和微调的情况下,在一个来自实际电视频道的视频片段的内部数据集上也表现出了良好的性能,显示了我们的模型较强的泛化能力。

成为VIP会员查看完整内容
0
51

相关内容

小规模行人的检测是行人检测中最具挑战性的问题之一。由于缺乏视觉细节,小规模行人的表征往往难以从杂乱的背景中分辨出来。在本文中,我们对小规模行人检测问题进行了深入的分析,发现小规模行人的弱表征是导致分类器漏检的主要原因。为了解决这一问题,我们提出了一种新的自模拟学习(SML)方法来提高对小规模行人的检测性能。我们通过模仿大规模行人的丰富表现来增强小规模行人的表现。具体来说,我们设计了一个模拟损失,迫使小规模行人的特征表征接近大规模行人的特征表征。所提议的SML是一个通用组件,可以很容易地合并到单级和两级检测器中,不需要额外的网络层,在推理期间不需要额外的计算成本。在cityperson和Caltech数据集上进行的广泛实验表明,经过模拟损失训练的检测器对小规模行人检测非常有效,并分别在cityperson和Caltech上取得了最好的结果。

https://cse.buffalo.edu/~jsyuan/papers/2020/SML.pdf

成为VIP会员查看完整内容
0
7

医学视觉问答(Medical visual question answer, Med-VQA)的目的是准确回答医学图像所呈现的临床问题。尽管该技术在医疗保健行业和服务领域有着巨大的潜力,但它仍处于起步阶段,远未得到实际应用。由于临床问题的多样性以及不同类型问题所需的视觉推理技能的差异,Med-VQA任务具有很高的挑战性。本文提出了一种新的Med-VQA的条件推理框架,旨在自动学习各种Med-VQA任务的有效推理技巧。特别地,我们开发了一个问题条件推理模块来指导多模态融合特征的重要性选择。针对封闭式和开放式的Med-VQA任务的不同性质,我们进一步提出了一种类型条件推理模块,分别针对两种类型的任务学习不同的推理技能。我们的条件推理框架可以很容易地应用到现有的Med-VQA系统中,从而提高性能。在实验中,我们在最近最先进的Med-VQA模型上建立我们的系统,并在VQA-RAD基准[23]上评估它。值得注意的是,我们的系统在预测封闭式和开放式问题的答案方面都取得了显著的提高,特别是对于开放式问题,其绝对准确率提高了10.8%。源代码可以从https://github.com/awenbocc/med-vqa下载。

http://www4.comp.polyu.edu.hk/~csxmwu/papers/MM-2020-Med-VQA.pdf

成为VIP会员查看完整内容
0
31

情感自动识别是一个活跃的研究课题,具有广泛的应用前景。由于人工标注成本高和标签不可避免的模糊性,情感识别数据集的发展在规模和质量上都受到了限制。因此,如何在有限的数据资源下建立有效的模型是关键挑战之一。之前的研究已经探索了不同的方法来应对这一挑战,包括数据增强、迁移学习和半监督学习等。然而,这些现有方法的缺点包括:训练不稳定、迁移过程中的性能损失大、或改进幅度小。

在本研究中,我们提出了一种基于跨模态分布匹配的半监督多模态情感识别模型,该模型在假设跨模态内部情绪状态在话语层面一致的前提下,利用大量的未标记数据来增强模型训练。

我们在两个基准数据集IEMOCAP和MELD上进行了广泛的实验来评估所提出的模型。实验结果表明,该半监督学习模型能够有效地利用未标记数据,并结合多种模态来提高情绪识别性能,在相同条件下优于其他先进的方法。与现有方法相比,该模型还利用了说话者和交互上下文等附加的辅助信息,从而达到了竞争能力。

成为VIP会员查看完整内容
0
31

食品与人类的行为、健康和文化等密切相关。来自社交网络、移动网络和物联网等泛在网络产生的食品大数据及人工智能尤其是深度学习技术的快速发展催生了新的交叉研究领域食品计算[Min2019-ACM CSUR]。作为食品计算的核心任务之一,食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支,因而具有重要的理论研究意义,并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景。本文在项目组前期食品识别(Food Recognition:[Jiang2020-IEEE TIP][Min2019-ACMMM])的研究基础上,提出了一个新的食品数据集ISIA Food-500。该数据集包含500个类别,大约40万张图像,在类别量和图片数据量方面都超过了现有的基准数据集。在此基础上我们提出了一个新的网络SGLANet联合学习食品图像的全局和局部视觉特征以进行食品识别,在ISIA Food-500和现有的基准数据集上进行了实验分析与验证。

成为VIP会员查看完整内容
0
22

在观看视频时,视觉事件的发生往往伴随着声音事件,如唇动的声音,乐器演奏的音乐。视听事件之间存在着一种潜在的相关性,通过解决视听同步的代理任务,可以将其作为自监督信息来训练神经网络。在本文中,我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示,并进一步使下游任务受益。具体而言,我们探讨了三个不同的共注意模块,以关注与声音相关的区分视觉区域,并介绍它们之间的相互作用。实验表明,与现有方法相比,我们的模型在参数较少的情况下,取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性,我们将预训练的模型应用于两个下游任务,即声源定位和动作识别。大量的实验表明,我们的模型可以提供与其他自监督方法竞争的结果,也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789

成为VIP会员查看完整内容
0
25

https://arxiv.org/abs/2008.04031

对于有足够标记样本的基类,小样本分类的目标是在只有少量标记样本的情况下识别新类的未标记样本。现有的方法大多只关注新类的标记样本和未标记样本之间的关系,没有充分利用基类内部的信息。在本文中,我们为研究小样本分类问题做了两个贡献。首先,我们提出了一个简单而有效的基线,通过传统的监督学习的方式在基类上训练,可以取得与目前水平相当的结果。其次,在基线的基础上,我们提出了一个协作的双路径分类度量,它利用基类和新类之间的相关性来进一步提高分类的准确性。在两个广泛使用的基准上的实验表明,该方法是一种简单有效的分类方法,在小样本分类领域开创了一种新局面。

成为VIP会员查看完整内容
0
25

检索与自然语言查询相关的视频内容对有效处理互联网规模的数据集起着至关重要的作用。大多数现有的字幕-视频检索方法都没有充分利用视频中的跨模态线索。此外,他们聚合每帧的视觉特征与有限的或没有时间信息。在本文中,我们提出了一种多模态Transformer联合编码视频中不同的模态,使每一个模态关注其他模态。transformer架构还被用于对时态信息进行编码和建模。在自然语言方面,我们研究了联合优化嵌入在多模态转换器中的语言的最佳实践。这个新的框架允许我们建立最先进的视频检索结果在三个数据集。更多详情请访问http://thoth.inrialpes.fr/research/MMT。

成为VIP会员查看完整内容
0
69

我们提出UniViLM:一个用于多模态理解和生成的统一视频和语言预训练模型。最近,基于BERT的NLP和图像语言任务预训练技术取得了成功,受此启发,VideoBERT和CBT被提出将BERT模型用于视频和语言预训练,并使用叙事性教学视频。不同于他们的工作只训练理解任务,我们提出了一个统一的视频语言理解和生成任务的预训练模型。我们的模型由4个组件组成,包括两个单模态编码器、一个交叉编码器和一个带Transformer主干的译码器。我们首先对我们的模型进行预训练,以学习视频和语言在大型教学视频数据集上的通用表示。然后,我们在两个多模态任务上对模型进行微调,包括理解任务(基于文本的视频检索)和生成任务(多模态视频字幕)。我们的大量实验表明,我们的方法可以提高理解和生成任务的性能,并取得了最先进的结果。

成为VIP会员查看完整内容
0
88
小贴士
相关资讯
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
14+阅读 · 2020年3月24日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
42+阅读 · 2019年11月9日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
18+阅读 · 2019年8月30日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
25+阅读 · 2019年1月14日
ICCV | 深度三维残差神经网络:视频理解新突破
微软研究院AI头条
8+阅读 · 2017年10月27日
相关论文
Graph Transformer for Graph-to-Sequence Learning
Deng Cai,Wai Lam
4+阅读 · 2019年11月30日
Question Generation by Transformers
Kettip Kriangchaivech,Artit Wangperawong
3+阅读 · 2019年9月14日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
5+阅读 · 2019年7月11日
SlowFast Networks for Video Recognition
Christoph Feichtenhofer,Haoqi Fan,Jitendra Malik,Kaiming He
4+阅读 · 2019年4月18日
Star-Transformer
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Yunfan Shao,Xiangyang Xue,Zheng Zhang
3+阅读 · 2019年2月28日
The Evolved Transformer
David R. So,Chen Liang,Quoc V. Le
5+阅读 · 2019年1月30日
Exploring Visual Relationship for Image Captioning
Ting Yao,Yingwei Pan,Yehao Li,Tao Mei
14+阅读 · 2018年9月19日
Xin Wang,Yuan-Fang Wang,William Yang Wang
5+阅读 · 2018年4月15日
Luowei Zhou,Yingbo Zhou,Jason J. Corso,Richard Socher,Caiming Xiong
13+阅读 · 2018年4月3日
Xiang Long,Chuang Gan,Gerard de Melo,Jiajun Wu,Xiao Liu,Shilei Wen
4+阅读 · 2017年11月27日
Top
微信扫码咨询专知VIP会员