电影叙述简介：一个用于故事理解的视频-语言数据集 (Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding) - 专知论文

会员服务 ·

0

电影 · 视频 · 数据集 · 多模 · 视频摘要 ·

2023 年 4 月 5 日

Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding

翻译：电影叙述简介：一个用于故事理解的视频-语言数据集

Yidan Sun,Qin Chao,Yangfeng Ji,Boyang Li

from arxiv, 25 pages, 17 figures

Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SyMoN), containing 5,193 video summaries of popular movies and TV series with a total length of 869 hours. SyMoN captures naturalistic storytelling videos made by human creators and intended for a human audience. As a prototypical and naturalistic story dataset, SyMoN features high coverage of multimodal story events and abundant mental-state descriptions. Its use of storytelling techniques cause cross-domain semantic gaps that provide appropriate challenges to existing models. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data and long-term memory in story understanding. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding.

翻译：尽管AI的进展近年来有所提高，故事理解仍然是一个开放且未经调查的问题。我们收集、预处理和公开发布了一个视频-语言故事数据集 SyMoN，其中包含5,193个受欢迎电影和电视剧的视频摘要，总长度为869小时。SyMoN捕捉了人类创作者制作并面向人类观众的自然叙述视频。作为一个原型和自然叙述数据集，SyMoN具有高覆盖的多模态故事事件和丰富的心理状态描述。它使用的叙事技巧导致跨域语义差距，为现有模型提供了适当的挑战。我们在电影摘要视频上建立了视频-文本检索和零样本对齐的基准测试，展示了在故事理解中领域内数据和长期记忆的重要性。我们希望通过SyMoN为多模态故事理解的进展奠定基础。

0

相关内容

电影是一种视听媒介，利用胶卷、录像带或数位媒体将影像和声音捕捉，再加上后期的编辑工作而成。

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

「Github」多模态机器学习文章阅读列表

「Github」多模态机器学习文章阅读列表

专知

123+阅读 · 2019年8月15日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

C1型尼曼-匹克氏症轴突发育异常的病理机制

国家自然科学基金

0+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

β-arrestins通过ER stress/Puma调控门脉高压性胃病的机制

国家自然科学基金

0+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

大数据环境下的社会媒体理解与检索

国家自然科学基金

1+阅读 · 2012年12月31日

用于视障者视觉辅助的物体3D空间信息视觉-听觉转换理论

国家自然科学基金

0+阅读 · 2012年12月31日

Puma诱导的凋亡在门脉高压性胃病中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Exploring Chain-of-Thought Style Prompting for Text-to-SQL

Arxiv

0+阅读 · 2023年5月23日

Album Storytelling with Iterative Story-aware Captioning and Large Language Models

Arxiv

0+阅读 · 2023年5月22日

Scaling laws for language encoding models in fMRI

Arxiv

0+阅读 · 2023年5月22日

Chain-of-thought prompting for responding to in-depth dialogue questions with LLM

Arxiv

0+阅读 · 2023年5月19日

Post Hoc Explanations of Language Models Can Improve Language Models

Arxiv

0+阅读 · 2023年5月19日

Generating coherent comic with rich story using ChatGPT and Stable Diffusion

Arxiv

0+阅读 · 2023年5月19日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

VIP会员

文章信息

相关主题

相关VIP内容

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军五大转型方向

一种Agent自主性风险评估框架 | 最新文献

实时无人机指令处理：一种面向无人机系统的大语言模型方法

基于动态知识图谱的人工智能代理自主研究周期 | 文献

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

「Github」多模态机器学习文章阅读列表

「Github」多模态机器学习文章阅读列表

专知

123+阅读 · 2019年8月15日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

相关论文

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Exploring Chain-of-Thought Style Prompting for Text-to-SQL

Arxiv

0+阅读 · 2023年5月23日

Album Storytelling with Iterative Story-aware Captioning and Large Language Models

Arxiv

0+阅读 · 2023年5月22日

Scaling laws for language encoding models in fMRI

Arxiv

0+阅读 · 2023年5月22日

Chain-of-thought prompting for responding to in-depth dialogue questions with LLM

Arxiv

0+阅读 · 2023年5月19日

Post Hoc Explanations of Language Models Can Improve Language Models

Arxiv

0+阅读 · 2023年5月19日

Generating coherent comic with rich story using ChatGPT and Stable Diffusion

Arxiv

0+阅读 · 2023年5月19日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

相关基金

基于多维度文本特征的社区问答答案质量评估研究

国家自然科学基金

0+阅读 · 2013年12月31日

C1型尼曼-匹克氏症轴突发育异常的病理机制

国家自然科学基金

0+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

β-arrestins通过ER stress/Puma调控门脉高压性胃病的机制

国家自然科学基金

0+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

大数据环境下的社会媒体理解与检索

国家自然科学基金

1+阅读 · 2012年12月31日

用于视障者视觉辅助的物体3D空间信息视觉-听觉转换理论

国家自然科学基金

0+阅读 · 2012年12月31日

Puma诱导的凋亡在门脉高压性胃病中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员