【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化 - 专知VIP

会员服务 ·

5

自监督学习 · ECCV 2020 · 视频结构化 ·

2020 年 8 月 11 日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此，我们介绍了一个模型，它使用注意力来定位和分组声源，以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离，(b)定位和跟踪说话人，(c)纠正不正确的视听数据，和(d)主动说话人检测的有效性。利用我们的表示法，这些任务完全可以通过训练未标记的视频来解决，而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者，包括卡通和木偶，来展示我们方法的普遍性。我们的模型显著优于其他自监督方法，并获得与使用监督人脸检测方法竞争的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

https://arxiv.org/abs/2008.04237

成为VIP会员查看完整内容

20

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AI科技评论

8+阅读 · 2020年1月12日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

AI科技评论

4+阅读 · 2018年7月5日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Multi-Stage Self-Supervised Learning for Graph Convolutional Networks

Arxiv

7+阅读 · 2019年2月28日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

End-to-End Video Captioning with Multitask Reinforcement Learning

Arxiv

5+阅读 · 2018年3月21日

Zero-Shot Detection

Arxiv

7+阅读 · 2018年3月19日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

VIP会员

相关主题

自监督学习

视频结构化

相关VIP内容

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AI科技评论

8+阅读 · 2020年1月12日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

AI科技评论

4+阅读 · 2018年7月5日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

相关论文

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Multi-Stage Self-Supervised Learning for Graph Convolutional Networks

Arxiv

7+阅读 · 2019年2月28日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

End-to-End Video Captioning with Multitask Reinforcement Learning

Arxiv

5+阅读 · 2018年3月21日

Zero-Shot Detection

Arxiv

7+阅读 · 2018年3月19日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

微信扫码咨询专知VIP会员