The video captioning task is to describe the video contents with natural language by the machine. Many methods have been proposed for solving this task. A large dataset called MSR Video to Text (MSR-VTT) is often used as the benckmark dataset for testing the performance of the methods. However, we found that the human annotations, i.e., the descriptions of video contents in the dataset are quite noisy, e.g., there are many duplicate captions and many captions contain grammatical problems. These problems may pose difficulties to video captioning models for learning. We cleaned the MSR-VTT annotations by removing these problems, then tested several typical video captioning models on the cleaned dataset. Experimental results showed that data cleaning boosted the performances of the models measured by popular quantitative metrics. We recruited subjects to evaluate the results of a model trained on the original and cleaned datasets. The human behavior experiment demonstrated that trained on the cleaned dataset, the model generated captions that were more coherent and more relevant to contents of the video clips. The cleaned dataset is publicly available.


翻译:视频字幕的任务是用机器的自然语言描述视频内容。 已经提出了许多方法来完成这项任务。 一个称为 MSR Video to Text (MSR-VTTT) 的大型数据集经常被用作测试方法性能的Benckmark 数据集。 然而,我们发现, 人类注释, 即数据集中视频内容的描述非常吵闹, 例如, 有很多重复的字幕, 许多字幕含有语法问题。 这些问题可能会给视频字幕模型的学习造成困难。 我们通过消除这些问题清理了 MSR- VTT 说明, 然后在清理的数据集中测试了几个典型的视频字幕模型。 实验结果表明, 数据清理提高了以流行量化指标测量的模型的性能。 我们聘用了一些对象来评价在原始和清洁数据集上培训过的模型的结果。 人类行为实验证明, 清洁数据集的培训, 模型生成的字幕与视频剪辑的内容更加一致, 更加相关。 清洁的数据集可以公开查阅 。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
20+阅读 · 2020年6月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员