Developing machine learning algorithms to understand person-to-person engagement can result in natural user experiences for communal devices such as Amazon Alexa. Among other cues such as voice activity and gaze, a person's audio-visual expression that includes tone of the voice and facial expression serves as an implicit signal of engagement between parties in a dialog. This study investigates deep-learning algorithms for audio-visual detection of user's expression. We first implement an audio-visual baseline model with recurrent layers that shows competitive results compared to current state of the art. Next, we propose the transformer architecture with encoder layers that better integrate audio-visual features for expressions tracking. Performance on the Aff-Wild2 database shows that the proposed methods perform better than baseline architecture with recurrent layers with absolute gains approximately 2% for arousal and valence descriptors. Further, multimodal architectures show significant improvements over models trained on single modalities with gains of up to 3.6%. Ablation studies show the significance of the visual modality for the expression detection on the Aff-Wild2 database.


翻译:开发机器学习算法,以了解人与人之间的接触,可以产生亚马逊亚历山德拉等公共装置的自然用户经验。 在声音活动和凝视等其他提示中,一个人的视听表达方式,包括声音和面部表达的音调,可以作为各方在对话中接触的隐含信号。本研究调查了用于对用户表达方式进行视听检测的深学习算法。我们首先采用了一个具有经常性层次的视听基线模型,该层次显示与目前艺术状态相比具有竞争性的结果。接下来,我们建议采用具有编码层的变压器结构,将视听特征更好地结合到语音跟踪中。 Aff-Wild2 数据库的绩效显示,拟议方法的运行优于基线结构,经常层的运行绝对收益约为2%。此外,多式结构显示对单一模式培训模型的重大改进,其收益高达3.6%。对比研究显示Aff-Wild2数据库的语音检测视觉模式的重要性。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
7+阅读 · 2019年10月15日
计算机视觉领域顶会CVPR 2018 接受论文列表
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
6+阅读 · 2019年7月11日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
A Compact Embedding for Facial Expression Similarity
VIP会员
相关资讯
已删除
将门创投
7+阅读 · 2019年10月15日
计算机视觉领域顶会CVPR 2018 接受论文列表
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员