Video question answering has recently received a lot of attention from multimodal video researchers. Most video question answering datasets are usually in the form of multiple-choice. But, the model for the multiple-choice task does not infer the answer. Rather it compares the answer candidates for picking the correct answer. Furthermore, it makes it difficult to extend to other tasks. In this paper, we challenge the existing multiple-choice video question answering by changing it to open-ended video question answering. To tackle open-ended question answering, we use the pretrained GPT2 model. The model is fine-tuned with video inputs and subtitles. An ablation study is performed by changing the existing DramaQA dataset to an open-ended question answering, and it shows that performance can be improved using video metadata.


翻译:视频解答最近引起了多式视频视频研究人员的极大关注。 大部分视频解答数据集通常以多种选择的形式出现。 但是, 多重选择任务模式并不推导答案。 它比较了选择正确答案的答案对象。 此外, 它使得很难扩大到其他任务。 在本文中, 我们质疑现有的多选项视频解答问题, 将它改为开放式视频解答。 要回答开放式问题, 我们使用预先培训的 GPT2 模式。 该模式使用视频输入和字幕进行微调。 通过将现有的 DramaQA 数据集改为开放式问题解答, 并显示使用视频元数据可以改进业绩 。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
论文浅尝 | CFO: Conditional Focused Neural Question Answering
开放知识图谱
6+阅读 · 2017年12月15日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
3+阅读 · 2018年11月29日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员