Text-based video segmentation is a challenging task that segments out the natural language referred objects in videos. It essentially requires semantic comprehension and fine-grained video understanding. Existing methods introduce language representation into segmentation models in a bottom-up manner, which merely conducts vision-language interaction within local receptive fields of ConvNets. We argue that such interaction is not fulfilled since the model can barely construct region-level relationships given partial observations, which is contrary to the description logic of natural language/referring expressions. In fact, people usually describe a target object using relations with other objects, which may not be easily understood without seeing the whole video. To address the issue, we introduce a novel top-down approach by imitating how we human segment an object with the language guidance. We first figure out all candidate objects in videos and then choose the refereed one by parsing relations among those high-level objects. Three kinds of object-level relations are investigated for precise relationship understanding, i.e., positional relation, text-guided semantic relation, and temporal relation. Extensive experiments on A2D Sentences and J-HMDB Sentences show our method outperforms state-of-the-art methods by a large margin. Qualitative results also show our results are more explainable.


翻译:以文字为基础的视频分割是一项具有挑战性的任务,在视频中分割自然语言指定的对象。 它基本上需要语义理解和精细的视频理解。 现有的方法将语言代表引入自下而上的方式将语言代表引入分割模式, 仅能进行ConvNets当地可接受域内的视觉语言互动。 我们争辩说, 这种互动没有实现, 因为根据部分观察, 模型无法构建区域层面的关系, 这与自然语言/ 引用表达表达方式的描述逻辑相悖。 事实上, 人们通常使用与其他对象的关系描述目标对象, 不看整个视频可能不容易理解这些对象。 为了解决这个问题, 我们引入了一种新的自上而下的方法, 模仿我们如何使用语言指导的人类分割对象。 我们首先在视频中找出所有候选对象, 然后通过区分这些高层次对象之间的关系来选择被引用的对象。 三种目标层面的关系被调查为精确的关系理解, 即定位关系、 文本引导的语义关系, 以及时间关系。 在 A2D 句和 J- HMDB 句中进行广泛的实验, 也用大比例法展示我们的结果。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
已删除
将门创投
7+阅读 · 2018年4月18日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
0+阅读 · 2021年5月10日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
已删除
将门创投
7+阅读 · 2018年4月18日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员