处理视听表达方式承认缺失模式的培训战略 (Training Strategies to Handle Missing Modalities for Audio-Visual Expression Recognition) - 专知论文

会员服务 ·

0

模态 · Performer · Better · 泛化理论 · MoDELS ·

2020 年 11 月 30 日

Training Strategies to Handle Missing Modalities for Audio-Visual Expression Recognition

翻译：处理视听表达方式承认缺失模式的培训战略

Srinivas Parthasarathy,Shiva Sundaram

from arxiv, ICMI 2020 workshop on "MODELING SOCIO-EMOTIONAL AND COGNITIVE PROCESSES FROM MULTIMODAL DATA IN THE WILD"

Automatic audio-visual expression recognition can play an important role in communication services such as tele-health, VOIP calls and human-machine interaction. Accuracy of audio-visual expression recognition could benefit from the interplay between the two modalities. However, most audio-visual expression recognition systems, trained in ideal conditions, fail to generalize in real world scenarios where either the audio or visual modality could be missing due to a number of reasons such as limited bandwidth, interactors' orientation, caller initiated muting. This paper studies the performance of a state-of-the art transformer when one of the modalities is missing. We conduct ablation studies to evaluate the model in the absence of either modality. Further, we propose a strategy to randomly ablate visual inputs during training at the clip or frame level to mimic real world scenarios. Results conducted on in-the-wild data, indicate significant generalization in proposed models trained on missing cues, with gains up to 17% for frame level ablations, showing that these training strategies cope better with the loss of input modalities.

翻译：自动视听表达的识别可以在远程保健、VOIP电话和人机互动等通信服务方面发挥重要作用。视听表达的准确性可以从两种模式之间的相互作用中受益。然而,大多数在理想条件下受过培训的视听表达识别系统无法在现实世界情景中一概而论,在现实世界情景中,由于带宽有限、互动者定向、调频器启动变异等诸多原因,视听表达模式可能缺失。本文研究了在缺少一种模式时最先进的变异器的性能。我们进行了对比研究,以便在没有两种模式的情况下对模型进行评估。此外,我们提出了一项战略,在剪辑或框架层面的培训中随机减少视觉投入,以模拟真实世界情景。在虚拟数据上取得的成果表明,对缺失信号所培训的拟议模型有显著的概括性,在框架级别上可达17%,表明这些培训战略更好地应对投入模式的丧失。

0

相关内容

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

专知会员服务

23+阅读 · 2019年10月30日

【课程】纽约大学 DS-GA 1003 Machine Learning

【课程】纽约大学 DS-GA 1003 Machine Learning

专知会员服务

46+阅读 · 2019年10月29日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

已删除

将门创投

4+阅读 · 2019年4月1日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Attentional Multi-layer Feature Fusion Convolution Network for Audio-visual Speech Enhancement

Arxiv

0+阅读 · 2021年1月15日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Arxiv

3+阅读 · 2019年4月9日

OMNIA Faster R-CNN: Detection in the wild through dataset merging and soft distillation

OMNIA Faster R-CNN: Detection in the wild through dataset merging and soft distillation

Arxiv

6+阅读 · 2018年12月6日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Visual Object Tracking: The Initialisation Problem

Arxiv

9+阅读 · 2018年5月22日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

Good Features to Correlate for Visual Tracking

Arxiv

10+阅读 · 2018年3月10日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

VIP会员

文章信息

相关主题

相关VIP内容

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

专知会员服务

23+阅读 · 2019年10月30日

【课程】纽约大学 DS-GA 1003 Machine Learning

【课程】纽约大学 DS-GA 1003 Machine Learning

专知会员服务

46+阅读 · 2019年10月29日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

已删除

将门创投

4+阅读 · 2019年4月1日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

相关论文

Attentional Multi-layer Feature Fusion Convolution Network for Audio-visual Speech Enhancement

Arxiv

0+阅读 · 2021年1月15日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Arxiv

3+阅读 · 2019年4月9日

OMNIA Faster R-CNN: Detection in the wild through dataset merging and soft distillation

OMNIA Faster R-CNN: Detection in the wild through dataset merging and soft distillation

Arxiv

6+阅读 · 2018年12月6日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Visual Object Tracking: The Initialisation Problem

Arxiv

9+阅读 · 2018年5月22日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

Good Features to Correlate for Visual Tracking

Arxiv

10+阅读 · 2018年3月10日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

微信扫码咨询专知VIP会员