Video captioning is an essential technology to understand scenes and describe events in natural language. To apply it to real-time monitoring, a system needs not only to describe events accurately but also to produce the captions as soon as possible. Low-latency captioning is needed to realize such functionality, but this research area for online video captioning has not been pursued yet. This paper proposes a novel approach to optimize each caption's output timing based on a trade-off between latency and caption quality. An audio-visual Trans-former is trained to generate ground-truth captions using only a small portion of all video frames, and to mimic outputs of a pre-trained Transformer to which all the frames are given. A CNN-based timing detector is also trained to detect a proper output timing, where the captions generated by the two Trans-formers become sufficiently close to each other. With the jointly trained Transformer and timing detector, a caption can be generated in the early stages of an event-triggered video clip, as soon as an event happens or when it can be forecasted. Experiments with the ActivityNet Captions dataset show that our approach achieves 94% of the caption quality of the upper bound given by the pre-trained Transformer using the entire video clips, using only 28% of frames from the beginning.


翻译:视频字幕是理解场景和描述自然语言事件的必要技术。 要将其应用到实时监控, 系统不仅需要准确描述事件, 还需要尽快生成字幕。 实现此功能需要低时空字幕, 但在线视频字幕的研究领域尚未开发。 本文提出了一个新颖的方法, 优化每个字幕的输出时间, 其依据是延缓和字幕质量之间的权衡。 视听导导导师接受培训, 以便仅使用所有视频框架的一小部分来生成地面真话字幕, 并模拟所有框架都配有的预先训练的变换器的输出。 以CNN为基础的定时器也受过培训, 以探测适当的输出时间, 使两个变换导器生成的字幕彼此足够接近。 联合培训的变换器和定时探测器可以在事件触发视频剪辑的早期阶段生成一个字幕, 只要事件发生或能够预测, 并且模拟所有图像框架都提供给了预先训练过的变换器输出器的输出输出输出输出输出输出。 以CNN的定时器为基础的定时器检测器也用来探测出正确的输出一个适当的输出时间, 。 将显示整个变换图框的初始格式, 。 将显示我们整个变换图的缩图的缩图的缩图的缩图 。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
已删除
将门创投
7+阅读 · 2018年4月25日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年4月4日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
已删除
将门创投
7+阅读 · 2018年4月25日
相关论文
Top
微信扫码咨询专知VIP会员