Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles derived from video descriptions to mask out certain phrases, to introduce VidQAP which poses VidQA as a fill-in-the-phrase task. To enable evaluation of answer phrases, we compute the relative improvement of the predicted answer compared to an empty string. To reduce the influence of language bias in VidQA datasets, we retrieve a video having a different answer for the same question. To facilitate research, we construct ActivityNet-SRL-QA and Charades-SRL-QA and benchmark them by extending three vision-language models. We further perform extensive analysis and ablative studies to guide future work.


翻译:视频问答( VidQA) 评估指标限于单字回答或从一组固定的短语中选择一个短语。 这些参数限制了 VidQA 模型的应用设想。 在这项工作中, 我们利用视频描述中产生的语义作用来掩盖某些短语, 引入VidQAP, 将 VidQA 作为一种填充式任务。 为了能够对回答的短语进行评估, 我们计算出预测答案相对于空字符串的相对改进。 为了减少 VidQA 数据集中语言偏见的影响, 我们取回一个对同一问题有不同答案的视频。 为了便利研究, 我们构建了活动网- SRL- QA 和 Charaades-SRL- QA, 并通过扩展三个愿景语言模型来设定它们的基准。 我们进一步进行了广泛的分析和模拟研究, 以指导未来的工作 。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员