近期,OpenAI的Sora的横空出世再一次引发市场对AIGC的关注,文生视频领域取得重大突破,效果远超预期。我们将围绕Sora的核心优势、技术特点、行业影响、未来趋势等方面进行阐述。 相较于此前的文生视频模型,Sora取得哪些突破? 近期,OpenAI发布了文生视频模型Sora,可以用文字指令生成长达1分钟的高清视频。相较于此前市场上的同类模型,如Runway、Pika等,Sora的生成效果有大幅提升,远超预期: 首先,视频长度方面,Sora可以生成长达60秒的视频,长度远远大于其他AI视频模型的几秒钟长度。 其次,Sora在视频内容质量稳定性方面有大幅的提升,镜头多角度切换,视频中的主角和背景能够保持高度一致性和稳定性。 此外,Sora还展示了其对物理世界部分规律的理解,这也是一重大突破,甚至能够实现一定程度的物理交互。 Sora的核心优势和技术特点体现在哪些方面? Sora的技术优势在于“Patches”和深度语言理解。Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构。Sora模型的技术优势和特点主要在于: 视觉数据Patches化:相较于大语音模型把所有的文本、符号、代码都抽象为Tokens,Sora则把视频抽象为Patches(补片),是一种具备高度扩展性且适用于视频和图片生成式模型训练的有效表示; 视频压缩网络(Video compression network):将原始视频进行压缩,从而降低视觉数据维度,用于训练并生成视频; 时空补片技术(Spacetime latent patches):给定一个压缩的输入视频,模型提取一系列时空补片(patches),用于对不同分辨率、时长和长宽比的视频和图像进行训练; 扩展Transformer视频生成:Sora是一个扩散Transformer模型,通过输入噪声patches训练来预测除噪的原始patches。OpenAI在这项研究中发现,扩散型Transformer同样能在视频模型领域中完成高效扩展; 视频多样化:相较于一些模型使用标准尺寸视频用于训练或生成,Sora能够处理不同分辨率、时长、宽高比的视频,在采样灵活性、改进框架和构图方面有显著优势; 语言理解:基于GPT模型的深度语言理解,能够更加准确地理解提示词所表达的真实需求; 图生视频、视频生视频:除了文生视频外,Sora也能够通过输入图像和视频用于生成视频,能够实现静态图片动态化、视频向前和向后拓展、视频编辑等能力。 Sora模型对哪些行业影响更大? Sora最直接的影响主要是对视频行业造成冲击,这将对于广告业、电影预告片、短视频行业以及游戏带来颠覆。Sora大大降低了视频制作的门槛和成本。 对于国内AI创业公司的影响:和ChatGPT一样,我们认为Sora的出现也会吸引国内玩家追随,但由于文生视频模型的训练难度和成本更大,准入门槛也进一步提高。 Sora影响最大的将是短视频行业,未来或将极大地提升内容供给及创作质量,尤其是流量热点驱动的内容,或将进入“全民创作”时代。同时,文生视频技术或将为当下热门的短剧市场带来变数,短剧重心有望回归高质量剧本创作。 长视频由于对内容质量等专业化要求较高,AI生成视频在精准度、可编辑性等方面仍需进一步打磨,高额的成本也或是短期应用落地阻碍,但长期来看其未来发展空间足够广阔。 对于游戏行业,Sora模型有助于进一步提高开发效率。文生视频能力可降低游戏CG和PV制作成本,可用于丰富游戏剧情和故事情节,提升玩家代入感。 视频相较于文字而言,对于算力的需求将会是几何式的增长。我们认为算力限制可能是影响文生视频类应用开放使用的重要因素。 2024年AIGC行业有哪些趋势? 多模态模型或在2024年迎来爆发。此前大模型在各个领域的应用,主要集中在文生文、文生图之上,而在文生视频领域却进步缓慢。此次文生视频模型Sora的发布,将给长短视频,游戏和广告行业带来颠覆性创新。随着文生图、图片对话技术的成熟,文生视频已成为多模态大模型下一步发展的重点。大模型领域的竞争将进一步白热化,多模态大模型将成为生成式AI的重点发展方向,并有望推动本轮AI行情进一步扩散。 除了在计算机视觉、自然语言处理等特定领域模型的发展,多模态大模型的进一步交叉融合或将成为未来重要的应用方向。未来人与机器之间的交互方式将更加丰富,或通过文字、视觉、语音等多维度沟通,进而提升效率。AI所创造的虚拟世界与现实世界的边界逐渐模糊,逐渐向AGI方向迈进。