视频聊天字幕生成器: 迈向丰富的时空描述 (Video ChatCaptioner: Towards the Enriched Spatiotemporal Descriptions) - 专知论文

会员服务 ·

0

视频 · 视频描述 · 生成器 · 时空信息 · 动态场景 ·

2023 年 4 月 9 日

Video ChatCaptioner: Towards the Enriched Spatiotemporal Descriptions

翻译：视频聊天字幕生成器: 迈向丰富的时空描述

Jun Chen,Deyao Zhu,Kilichbek Haydarov,Xiang Li,Mohamed Elhoseiny

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner

翻译：视频字幕生成旨在使用自然语言传达视频中的动态场景，促进我们对环境中时空信息的理解。虽然近年来已经有了一些进展，但生成详细且丰富的视频描述仍然是一个重大挑战。在这项工作中，我们介绍了 Video ChatCaptioner, 一种创新的方法，用于创建更全面的时空视频描述。我们的方法采用 ChatGPT 模型作为控制器，专门设计用于选择帧以提出基于视频内容的问题。随后，我们利用了一种强大的算法来回答这些视觉问题。这种问答框架能够有效地揭示复杂的视频细节，并显示出增强视频内容的潜力。在多个交谈回合后，ChatGPT 能够基于之前的对话总结出丰富的视频内容。我们定性地证明了我们的 Video ChatCaptioner 能够生成包含更多视频细节的字幕。代码公开在 https://github.com/Vision-CAIR/ChatCaptioner

0

相关内容

视频

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

专知会员服务

44+阅读 · 2021年7月9日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

还在修改博士论文？这份《博士论文写作技巧》为你指南

还在修改博士论文？这份《博士论文写作技巧》为你指南

专知会员服务

165+阅读 · 2020年6月9日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

泡泡机器人SLAM

12+阅读 · 2019年2月12日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

离心力场中的稠密相气固两相流动与传热研究及其介观分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于3D/2D内在约束的复杂形状描述及抽象特征研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于光子自旋角动量模式的光控真延时技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

高温颗粒流绕流换热管束的流动与传热特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

高温超声速磁流体发电的近电极热电磁流动机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向中文指称概念的知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

抑癌基因PDCD4调控miR-184和miR-374a抑制鼻咽癌生长及促进凋亡

国家自然科学基金

0+阅读 · 2012年12月31日

Musclin基因在骨骼肌表达的转录调控机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

大面积分散电弧等离子体发生器中传热与流动的实验和数值模拟研究

国家自然科学基金

0+阅读 · 2008年12月31日

AutoDRIVE: A Comprehensive, Flexible and Integrated Digital Twin Ecosystem for Enhancing Autonomous Driving Research and Education

Arxiv

0+阅读 · 2023年5月26日

Failure Detection for Motion Prediction of Autonomous Driving: An Uncertainty Perspective

Arxiv

0+阅读 · 2023年5月25日

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Short and Straight: Geodesics on Differentiable Manifolds

Arxiv

0+阅读 · 2023年5月24日

Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions

Arxiv

0+阅读 · 2023年5月24日

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Arxiv

0+阅读 · 2023年5月24日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Directions for Explainable Knowledge-Enabled Systems

Directions for Explainable Knowledge-Enabled Systems

Arxiv

26+阅读 · 2020年3月17日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

文章信息

相关主题

相关VIP内容

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

专知会员服务

44+阅读 · 2021年7月9日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

还在修改博士论文？这份《博士论文写作技巧》为你指南

还在修改博士论文？这份《博士论文写作技巧》为你指南

专知会员服务

165+阅读 · 2020年6月9日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

小规模训练指南：打造世界级大语言模型的关键方法

无人机编队飞行：复杂环境中作战的策略、挑战与应用

大模型APP，AI时代第一个爆款

从数据中心视角出发的高效大语言模型训练综述

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

泡泡机器人SLAM

12+阅读 · 2019年2月12日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

相关论文

AutoDRIVE: A Comprehensive, Flexible and Integrated Digital Twin Ecosystem for Enhancing Autonomous Driving Research and Education

Arxiv

0+阅读 · 2023年5月26日

Failure Detection for Motion Prediction of Autonomous Driving: An Uncertainty Perspective

Arxiv

0+阅读 · 2023年5月25日

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Short and Straight: Geodesics on Differentiable Manifolds

Arxiv

0+阅读 · 2023年5月24日

Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions

Arxiv

0+阅读 · 2023年5月24日

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Arxiv

0+阅读 · 2023年5月24日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Directions for Explainable Knowledge-Enabled Systems

Directions for Explainable Knowledge-Enabled Systems

Arxiv

26+阅读 · 2020年3月17日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

相关基金

离心力场中的稠密相气固两相流动与传热研究及其介观分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于3D/2D内在约束的复杂形状描述及抽象特征研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于光子自旋角动量模式的光控真延时技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

高温颗粒流绕流换热管束的流动与传热特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

高温超声速磁流体发电的近电极热电磁流动机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向中文指称概念的知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

抑癌基因PDCD4调控miR-184和miR-374a抑制鼻咽癌生长及促进凋亡

国家自然科学基金

0+阅读 · 2012年12月31日

Musclin基因在骨骼肌表达的转录调控机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

大面积分散电弧等离子体发生器中传热与流动的实验和数值模拟研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员