【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习 - 专知

会员服务 ·

0

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

2020 年 8 月 14 日 专知

在观看视频时，视觉事件的发生往往伴随着声音事件，如唇动的声音，乐器演奏的音乐。视听事件之间存在着一种潜在的相关性，通过解决视听同步的代理任务，可以将其作为自监督信息来训练神经网络。在本文中，我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示，并进一步使下游任务受益。具体而言，我们探讨了三个不同的共注意模块，以关注与声音相关的区分视觉区域，并介绍它们之间的相互作用。实验表明，与现有方法相比，我们的模型在参数较少的情况下，取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性，我们将预训练的模型应用于两个下游任务，即声源定位和动作识别。大量的实验表明，我们的模型可以提供与其他自监督方法竞争的结果，也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SAVRL” 可以获取《【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习》专知下载链接索引

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

0

相关内容

ACM Multimedia

ACM 国际多媒体大会（英文名称：ACM Multimedia，简称：ACM MM）是多媒体领域的顶级国际会议，每年举办一次。

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

专知会员服务

43+阅读 · 2020年6月16日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

62+阅读 · 2020年5月25日

【CVPR2020】视频符号语言识别中跨领域知识的传递, Transferring Cross-domain Knowledge for Video Sign Language Recognition

【CVPR2020】视频符号语言识别中跨领域知识的传递, Transferring Cross-domain Knowledge for Video Sign Language Recognition

专知会员服务

9+阅读 · 2020年4月17日

AAAI2020最新「迁移表示学习最新进展」247页PPT，宾夕法尼亚大学

AAAI2020最新「迁移表示学习最新进展」247页PPT，宾夕法尼亚大学

专知会员服务

112+阅读 · 2020年2月11日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

专知

66+阅读 · 2019年11月27日

【南洋理工大学】注意力神经网络，Attention Neural Networks，78页ppt

【南洋理工大学】注意力神经网络，Attention Neural Networks，78页ppt

专知

21+阅读 · 2019年11月9日

【ACM MM2019现场】多媒体的AutoML与元学习，清华大学朱文武教授等

【ACM MM2019现场】多媒体的AutoML与元学习，清华大学朱文武教授等

专知

8+阅读 · 2019年10月21日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

Cohort State-Transition Models in R: A Tutorial

Arxiv

0+阅读 · 2020年10月14日

DotSCN: Group Re-identification via Domain-Transferred Single and Couple Representation Learning

Arxiv

0+阅读 · 2020年10月13日

Attention Driven Fusion for Multi-Modal Emotion Recognition

Arxiv

0+阅读 · 2020年10月10日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Relation-aware Graph Attention Network for Visual Question Answering

Arxiv

4+阅读 · 2019年3月29日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

VIP会员

相关主题

ACM Multimedia 2020

注意力网络

相关VIP内容

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

【CVPR2020-Tutorial】视觉的图网络结构表示学习，Google Chen Sun

专知会员服务

43+阅读 · 2020年6月16日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

62+阅读 · 2020年5月25日

【CVPR2020】视频符号语言识别中跨领域知识的传递, Transferring Cross-domain Knowledge for Video Sign Language Recognition

【CVPR2020】视频符号语言识别中跨领域知识的传递, Transferring Cross-domain Knowledge for Video Sign Language Recognition

专知会员服务

9+阅读 · 2020年4月17日

AAAI2020最新「迁移表示学习最新进展」247页PPT，宾夕法尼亚大学

AAAI2020最新「迁移表示学习最新进展」247页PPT，宾夕法尼亚大学

专知会员服务

112+阅读 · 2020年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

EMNLP 2025 | RTQA：递归思想求解复杂的时间知识图谱问答

欧盟防务准备路线图：目标、冲突与2030之路（附“2030年防务准备路线图”原文）

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

相关资讯

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

专知

66+阅读 · 2019年11月27日

【南洋理工大学】注意力神经网络，Attention Neural Networks，78页ppt

【南洋理工大学】注意力神经网络，Attention Neural Networks，78页ppt

专知

21+阅读 · 2019年11月9日

【ACM MM2019现场】多媒体的AutoML与元学习，清华大学朱文武教授等

【ACM MM2019现场】多媒体的AutoML与元学习，清华大学朱文武教授等

专知

8+阅读 · 2019年10月21日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

相关论文

Cohort State-Transition Models in R: A Tutorial

Arxiv

0+阅读 · 2020年10月14日

DotSCN: Group Re-identification via Domain-Transferred Single and Couple Representation Learning

Arxiv

0+阅读 · 2020年10月13日

Attention Driven Fusion for Multi-Modal Emotion Recognition

Arxiv

0+阅读 · 2020年10月10日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Relation-aware Graph Attention Network for Visual Question Answering

Arxiv

4+阅读 · 2019年3月29日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

大家都在搜

大型语言模型

朱克爱德华兹家族

国防科技创新

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员