Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破 - 专知VIP

会员服务 ·

29

Sora · 视频生成模型 ·

2024 年 2 月 23 日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

OpenAI发布了最新文生视频大模型SORA，可以生成1分钟长视频，效果显著，在生成的视频细节，内容一致性和指令遵循能力独树一帜　　2月16日，OpenAI首次对外公布了SORA文生视频模型，SORA模型可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。相比较而言，Runway Gen2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。OpenAI目前已经邀请了一支专业的创意人士测试，用于反馈其在专业环境中的实用性。　　SORA模型在训练中将不同类型视觉素材统一为时空Latent Patch，采用Diffusion-transformer结构并大规模训练，再次展现“暴力美学” 　　从technical report窥探技术路径，OpenAI在文生视频领域再次展现“暴力美学”，SORA在模型结构上使用了Diffusion Transformer结构，采用了大规模的训练，在数据上将图片和视频统一压缩转换为时空Latent Patches并作为transformer输入，而这一步也使得模型能够在不同分辨率、持续时间和宽高比的视频/图像数据上进行训练，同时为了提高模型的理解能力，SORA使用了DALL-E3模型中的re-captioning技术，训练了一个caption模型为视频数据生成文字字幕。　　SORA模型已具备了一定的涌现能力，虽然也存在“幻觉问题”，但我们认为文生视频的GPT-3时刻已来　　SORA模型现在可用于视频生成，图片生成，视频编辑、视频链接和视频前后拓展等，我们认为未来有望重塑影视/动画/自媒体等诸多视频生产行业，同时SORA还展现出了一定的涌现能力，使其能够从物理世界模拟人、动物和环境的某些方面，包括3D连续，物体持续和long-range的连贯性，我们预计未来SORA也会逐步进化，如同GPT3到4一样有更强的能力，或许文生视频的GPT-3时刻已经到来。　

成为VIP会员查看完整内容

53

相关内容

Sora

Sora是OpenAI发布的一个AI模型，可以从文本指令中创建现实和想象的视频。OpenAI发布首个文本生成视频模型Sora，在生成视频长度（60秒）和内容上表现突出，为AIGC发展过程中的一大里程碑事件，

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

160+阅读 · 2024年2月26日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

65+阅读 · 2024年2月20日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

高分辨率单极化SAR图像慢动船只散射特性稳健高层表征研究

国家自然科学基金

1+阅读 · 2015年12月31日

p-n型有机发光材料的绿色合成及其高效率白光OLED器件

国家自然科学基金

0+阅读 · 2014年12月31日

极化增强的AlGaN日盲雪崩光电探测器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

VIP会员

相关主题

视频生成模型

相关VIP内容

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

160+阅读 · 2024年2月26日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

65+阅读 · 2024年2月20日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

相关基金

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

高分辨率单极化SAR图像慢动船只散射特性稳健高层表征研究

国家自然科学基金

1+阅读 · 2015年12月31日

p-n型有机发光材料的绿色合成及其高效率白光OLED器件

国家自然科学基金

0+阅读 · 2014年12月31日

极化增强的AlGaN日盲雪崩光电探测器研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员