【泡泡一分钟】时间镶嵌：一种统一的视频分析方法（ICCV2017-11）

会员服务 ·

【泡泡一分钟】时间镶嵌：一种统一的视频分析方法（ICCV2017-11）

2018 年 4 月 25 日 泡泡机器人SLAM 泡泡一分钟

每天一分钟，带你读遍机器人顶级会议文章

标题：Temporal Tessellation: A Unified Approach for Video Analysis

作者：Dotan Kaufman, Gil Levi, Tal Hassner, and Lior Wolf

来源：ICCV 2017 ( IEEE International Conference on Computer Vision )

播音员：丸子

编译：林旭滨 周平

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

受语义转移技术在2D图像分析中成功应用的启发，我们提出了一种通用的视频理解方法。我们的方法将一个视频视为一个1D的的视频片段（clip）序列，每一个片段都关联一个语义信息。这些语义信息的性质（自然语义标题还是其它标签）取决于着手解决的任务。对于一个测试视频，首先其自身的视频片段会与已知语义信息的参考视频片段形成关联，随后参考片段的语义信息会被转移到测试片段上，于此完成一个测试视频的处理。本文探讨了两种配对方法，两种方法旨在确保(a)参考片段与测试片段的相似性以及(b)在综合起来之后，所选参考片段语义信息是前后一致的并且能维持时间相干性。

Fig. 1 对于给定视频序列（顶部），我们寻找最相近的带有语义信息的参考视频片段（clip）。我们的方法不仅确保给测试的视频片段寻找最匹配的语义信息（从5个选项中匹配最合适该片段的语义信息），并且保留了时间相关性（绿色路径）。蓝色部分是Ground truth。

我们用本文所提方法在LSMDC'16基准上进行视频标记实验，在SumMe和TVSum基准上进行视频摘要实验，在Thumos 2014基准上进行时序动作检测实验，以及在Greatest Hits基准上进行音频预测实验。上述5个基准中，我们的方法在4个基准里面表现均超越了现有最高水平，更重要的是，这是目前所知的唯一一个能同时在如此多样化的任务中均得到成功应用的方法。

Abstract

We present a general approach to video understanding, inspired by semantic transfer techniques that have been successfully used for 2D image analysis. Our method considers a video to be a 1D sequence of clips, each one associated with its own semantics. The nature of these semantics – natural language captions or other labels – depends on the task at hand. A test video is processed by forming correspondences between its clips and the clips of reference videos with known semantics, following which, reference semantics can be transferred to the test video. We describe two matching methods, both designed to ensure that (a) reference clips appear similar to test clips and (b), taken together, the semantics of the selected reference clips is consistent and maintains temporal coherence. We use our method for video captioning on the LSMDC’16 benchmark, video summarization on the SumMe and TVSum benchmarks, Temporal Action Detection on the Thumos2014 benchmark, and sound prediction on the Greatest Hits benchmark. Our method not only surpasses the state of the art, in four out of five benchmarks, but importantly, it is the only single method we know of that was successfully applied to such a diverse range of tasks.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

百度网盘链接: https://pan.baidu.com/s/1IMT6mhVYKvJCDfo5EfnGTQ

密码: wcac

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多

相关内容

ICCV

关注 598

ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会，由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。ICCV会议时间通常在四到五天，相关领域的专家将会展示最新的研究成果。

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日