在本文中,我们调查了一个称为叙事动作评估(NAE)的新问题。NAE旨在生成评估动作执行的专业评论。与传统任务如基于分数的动作质量评估和涉及表面句子的视频字幕不同,NAE侧重于创建自然语言中的详细叙述。这些叙述提供了对动作的复杂描述以及客观评估。NAE是一个更具挑战性的任务,因为它既需要叙述的灵活性,又需要评估的严谨性。一个现有的可能解决方案是使用多任务学习,其中叙述语言和评估信息分别预测。然而,这种方法会因任务之间的变化和语言信息与评估信息之间的模态差异而导致各自任务的性能降低。为了解决这个问题,我们提出了一个基于提示的多模态交互框架。该框架利用一对transformers促进不同信息模态之间的交互。它还使用提示将分数回归任务转化为视频文本匹配任务,从而实现任务的互动性。为了支持该领域的进一步研究,我们重新注释了MTL-AQA和FineGym数据集,提供了高质量和全面的动作叙述。此外,我们为NAE建立了基准。广泛的实验结果证明我们的方法优于单独学习方法和简单的多任务学习方法。数据和代码已发布在此处。

成为VIP会员查看完整内容
20

相关内容

【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
37+阅读 · 2021年9月15日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
39+阅读 · 2020年6月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
37+阅读 · 2021年9月15日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
39+阅读 · 2020年6月22日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
微信扫码咨询专知VIP会员