电影叙事摘要：一个用于故事理解的视频-语言数据集 (Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding) - 专知论文

会员服务 ·

0

电影 · 视频 · 数据集 · 模态 · 多模 ·

2023 年 4 月 3 日

Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding

翻译：电影叙事摘要：一个用于故事理解的视频-语言数据集

Yidan Sun,Qin Chao,Yangfeng Ji,Boyang Li

from arxiv, 25 pages, 17 figures

Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SYMON), containing 5,193 video summaries of popular movies and TV series. SYMON captures naturalistic story-telling videos for human audience made by human creators. As a prototypical and naturalistic story dataset, SYMON features high coverage of multimodal story events, abundant mental-state descriptions, and large semantic gaps between the visual and the textual modalities. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data in story understanding. With SYMON, we hope to lay the groundwork for progress in multimodal story understanding.

翻译：尽管人工智能(Project name in English)，故事理解仍然是一个开放和尚未研究的问题。我们收集、预处理和公开发布了一个视频-语言故事数据集(Synopses of Movie Narratives (SYMON))，包括5,193个受欢迎的电影和电视剧的视频摘要。SYMON捕捉了人类创作者制作的面向人类观众的自然主义叙事视频。作为一个原型和自然主义故事数据集，SYMON具有高覆盖的多模态故事事件、丰富的心理状态描述以及视觉和文本模态之间的大量语义差距。我们在电影概述视频上建立了视频-文本检索和零-shot对齐的基准，展示了领域内数据在故事理解中的重要性。通过SYMON，我们希望为多模态故事理解的进展奠定基础。

0

相关内容

电影是一种视听媒介，利用胶卷、录像带或数位媒体将影像和声音捕捉，再加上后期的编辑工作而成。

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

「Github」多模态机器学习文章阅读列表

「Github」多模态机器学习文章阅读列表

专知

124+阅读 · 2019年8月15日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

Sema4D在肥胖诱导的脂肪炎症和胰岛素抵抗中的作用和机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向RGB-D视频的人体动作识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于Ontology的藏文语料库检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

图像语义自动文本描述技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

用于视障者视觉辅助的物体3D空间信息视觉-听觉转换理论

国家自然科学基金

0+阅读 · 2012年12月31日

利用小鼠模型研究lrrc10与desmin在心肌肥大发生中的协同调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

多媒体问答中的若干关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于时变数据理解的交互式虚拟角色运动控制方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语言模型的通用实体检索建模及框架实现研究

国家自然科学基金

7+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

Arxiv

0+阅读 · 2023年5月22日

Album Storytelling with Iterative Story-aware Captioning and Large Language Models

Arxiv

0+阅读 · 2023年5月22日

Scaling laws for language encoding models in fMRI

Arxiv

0+阅读 · 2023年5月22日

Chain-of-thought prompting for responding to in-depth dialogue questions with LLM

Arxiv

0+阅读 · 2023年5月19日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

Arxiv

14+阅读 · 2022年1月20日

Semantic Models for the First-stage Retrieval: A Comprehensive Review

Arxiv

20+阅读 · 2021年9月17日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

「Github」多模态机器学习文章阅读列表

「Github」多模态机器学习文章阅读列表

专知

124+阅读 · 2019年8月15日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

Arxiv

0+阅读 · 2023年5月22日

Album Storytelling with Iterative Story-aware Captioning and Large Language Models

Arxiv

0+阅读 · 2023年5月22日

Scaling laws for language encoding models in fMRI

Arxiv

0+阅读 · 2023年5月22日

Chain-of-thought prompting for responding to in-depth dialogue questions with LLM

Arxiv

0+阅读 · 2023年5月19日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

Arxiv

14+阅读 · 2022年1月20日

Semantic Models for the First-stage Retrieval: A Comprehensive Review

Arxiv

20+阅读 · 2021年9月17日

相关基金

Sema4D在肥胖诱导的脂肪炎症和胰岛素抵抗中的作用和机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向RGB-D视频的人体动作识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于Ontology的藏文语料库检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

图像语义自动文本描述技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

用于视障者视觉辅助的物体3D空间信息视觉-听觉转换理论

国家自然科学基金

0+阅读 · 2012年12月31日

利用小鼠模型研究lrrc10与desmin在心肌肥大发生中的协同调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

多媒体问答中的若干关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于时变数据理解的交互式虚拟角色运动控制方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语言模型的通用实体检索建模及框架实现研究

国家自然科学基金

7+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员