尽管人工智能已经取得了令人瞩目的成就,但其正向通用人工智能的道路上前进。由OpenAI开发的Sora具备分钟级的世界模拟能力,可被视为这一发展路径上的一个里程碑。然而,尽管取得了显著成功,Sora仍然面临着需要解决的各种障碍。在本综述中,我们从Sora在文本生成视频方面的视角出发,进行文献的全面回顾,试图回答一个问题:我们能从Sora中看到什么。具体来说,在介绍了基本的通用算法之后,我们从三个相互垂直的维度对文献进行了分类:进化生成器、卓越追求和现实全景。随后,对广泛使用的数据集和评估指标进行了详细整理。最后但同样重要的是,我们识别了该领域的若干挑战和开放性问题,并提出了未来研究和发展的潜在方向。本综述中的文本生成视频研究的完整列表可在以下链接找到:

https://github.com/soraw-ai/Awesome-Text-to-Video-Generation

近年来,AI生成内容(AIGC)领域的快速进展标志着实现通用人工智能(AGI)迈出了关键的一步,特别是在OpenAI于2023年初推出其大型语言模型(LLM)GPT-4之后。AIGC引起了学术界和工业界的极大关注,其中包括基于LLM的对话代理ChatGPT [1],以及文本生成图像(T2I)模型如DALL·E [2]、Midjourney [3]和Stable Diffusion [4]。这些成就显著影响了文本生成视频(T2V)领域,并在OpenAI的Sora [5]中展示了非凡的能力,如图1所示。 正如[5]中所阐明的那样,Sora被设计为一个复杂的世界模拟器,能够根据文本指令生成现实且富有想象力的场景。其卓越的扩展能力使其能够高效地从互联网规模的数据中学习,这得益于DiT模型 [6]的集成,该模型取代了传统的U-Net架构 [7]。这一战略性整合使Sora与GenTron [8]、W.A.L.T [9]和Latte [10]等类似的进展相一致,增强了其生成能力。Sora独特地具备生成高质量的分钟级视频的能力,这是现有T2V研究尚未实现的 [11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]。它还在生成高分辨率和无缝质量的视频方面表现出色,与现有T2V方法的进展相媲美 [27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。虽然Sora在生成复杂物体方面显著提升,超越了以往的研究 [36]、[37]、[38]、[39],但在确保这些物体之间的连贯运动方面仍面临挑战。尽管如此,必须承认Sora在呈现具有复杂细节的场景(包括主体和背景)方面的卓越能力,超越了以往专注于复杂场景 [24]、[40]、[41]、[42] 和合理布局生成的研究 [42]、[44]、[45]。 据我们所知,有两篇与我们研究相关的综述:[46]和[47]。[46]涵盖了从视频生成到编辑的广泛主题,提供了一个总体概述,但只关注了有限的基于扩散的文本生成视频(T2V)技术。同时,[47]对Sora进行了详细的技术分析,提供了相关技术的初步综述,但在T2V领域缺乏深度和广度。为此,我们的工作旨在填补这一空白,通过提供对T2V方法、基准数据集、相关挑战和未解决问题的详尽回顾,以及未来研究方向的前瞻性,贡献一个更为细致和全面的视角。 贡献:在本综述中,我们通过对OpenAI的Sora的深入研究,对文本生成视频(T2V)领域进行了全面的回顾。我们系统地追踪并总结了最新的文献,提炼了Sora的核心元素。本文还阐明了基础概念,包括在该领域至关重要的生成模型和算法。我们深入探讨了所调查文献的具体内容,从所使用的算法和模型到用于生成高质量视频的技术。此外,本综述还对T2V数据集和相关评估指标进行了广泛的调查。重要的是,我们揭示了T2V研究中的当前挑战和未解决的问题,并根据我们的见解提出了未来的发展方向。 章节结构:本文的结构如下:第二部分提供了基础概述,包括T2V生成的目标以及支撑这项技术的核心模型和算法。第三部分主要基于我们对Sora的观察,提供了所有相关领域的广泛概述。第四部分进行了详细分析,强调了T2V研究中的挑战和未解决的问题,特别关注从Sora中获得的见解。第五部分专门用于概述未来的研究方向,这些方向是基于我们对现有研究的分析和Sora的关键方面所确定的。本文在第六部分总结了我们的结论,综合了从全面回顾中得出的见解和影响。

随着文本生成图像技术的重大突破,人类开始探索更具挑战性的文本生成视频领域,该领域能够传达和封装更丰富的视觉信息。尽管近年来这一领域的研究进展较为缓慢,但Sora的推出极大地重燃了希望,标志着一个重要的转折点,为该领域注入了新的活力。

因此,在本节中,我们将从Sora尤其是T2V生成领域中获得的关键见解系统地分类为三个主要类别,并对每个类别进行详细回顾:进化生成器(见第3.1节)、卓越追求(见第3.2节)、现实全景(见第3.3节)以及数据集和评估指标(见第3.4节)。全面的结构如图3所示。

结论 基于对Sora的分解,本综述对当前文本生成视频(T2V)工作进行了全面回顾。具体来说,我们从生成模型演变的角度组织了文献,涵盖了基于GAN/VAE、自回归和扩散的框架。此外,我们深入审查了文献,基于优秀视频应具备的三种关键品质:延长的持续时间、卓越的分辨率和无缝的质量。此外,鉴于Sora被称为真实世界模拟器,我们展示了一个包含动态运动、复杂场景、多物体和合理布局的现实全景。此外,常用的视频生成数据集和评估指标根据其来源和应用领域进行了分类。最后,我们识别了一些T2V领域剩余的挑战和问题,并提出了未来发展的潜在方向。

成为VIP会员查看完整内容
35

相关内容

Sora是OpenAI发布的一个AI模型,可以从文本指令中创建现实和想象的视频。OpenAI发布首个文本生成视频模型Sora,在生成视频长度(60秒)和内容上表现突出,为AIGC发展过程中的一大里程碑事件,
视觉语言导航:大模型时代的综述
专知会员服务
45+阅读 · 7月10日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
38+阅读 · 5月9日
来自互联网视频的通用机器人学习:综述
专知会员服务
26+阅读 · 5月4日
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
18+阅读 · 2022年5月16日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员