In this paper, we consider the task of spotting spoken keywords in silent video sequences -- also known as visual keyword spotting. To this end, we investigate Transformer-based models that ingest two streams, a visual encoding of the video and a phonetic encoding of the keyword, and output the temporal location of the keyword if present. Our contributions are as follows: (1) We propose a novel architecture, the Transpotter, that uses full cross-modal attention between the visual and phonetic streams; (2) We show through extensive evaluations that our model outperforms the prior state-of-the-art visual keyword spotting and lip reading methods on the challenging LRW, LRS2, LRS3 datasets by a large margin; (3) We demonstrate the ability of our model to spot words under the extreme conditions of isolated mouthings in sign language videos.


翻译:在本文中,我们考虑在静默视频序列中定位口语关键词的任务,也称为视觉关键词识别。为此,我们调查了以变换器为基础的模型,这些模型吸收了两种流,即视频的视觉编码和关键词的语音编码,如果存在的话,则输出关键词的时间位置。我们的贡献如下:(1) 我们提出了一个新颖的结构,即跨式插播器,在视觉流和语音流之间使用完全的跨式关注;(2) 我们通过广泛评估显示,我们的模型在具有挑战性的LRW、LRS2、LRS3数据集方面,超过了先前最先进的视觉关键词识别和唇读方法;(3) 我们展示了我们的模型能够在手语视频中孤立的语语极端条件下识别字句的能力。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
专知会员服务
123+阅读 · 2020年9月8日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
撩一发深度文本分类之RNN via Attention
AINLP
7+阅读 · 2019年1月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
4+阅读 · 2019年8月7日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
VIP会员
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
撩一发深度文本分类之RNN via Attention
AINLP
7+阅读 · 2019年1月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员