Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer - 专知VIP

会员服务 ·

18

Sora · DiT(Diffusion Transformer) · Scalable Interpolant Transformers (SiT) · 视频生成模型 ·

2024 年 2 月 21 日

Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

转载机器之心****编辑：杜伟好的研究不会被埋没，只会历久弥新。

虽然已经发布近一周时间，OpenAI 视频生成大模型 Sora 的影响仍在继续！

其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。

论文地址：https://arxiv.org/pdf/2212.09748v2.pdf * GitHub 地址：https://github.com/facebookresearch/DiT

这两天，DiT 论文和 GitHub 项目的热度水涨船高，重新收获大量关注。

论文出现在 PapersWithCode 的 Trending Research 榜单上，星标数量已近 2700；还登上了 GitHub Trending 榜单，星标数量每日数百增长，Star 总量已超 3000。

来源：https://paperswithcode.com/

来源：https://github.com/facebookresearch/DiT

这篇论文最早的版本是 2022 年 12 月，2023 年 3 月更新了第二版。当时，扩散模型在图像生成方面取得了惊人的成果，几乎所有这些模型都使用卷积 U-Net 作为主干。

因此，论文的目的是探究扩散模型中架构选择的意义，并为未来的生成模型研究提供经验基线。该研究表明，U-Net 归纳偏置对扩散模型的性能不是至关重要的，并且可以很容易地用标准设计（如 transformer）取代。

具体来说，研究者提出了一种基于 transformer 架构的新型扩散模型 DiT，并训练了潜在扩散模型，用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

研究者尝试了四种因模型深度和宽度而异的配置：DiT-S、DiT-B、DiT-L 和 DiT-XL。

他们发现，通过增加 Transformer 深度 / 宽度或增加输入 token 数量，具有较高 Gflops 的 DiT 始终具有较低的 FID。

除了良好的可扩展性之外，DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型，在后者上实现了 2.27 的 FID SOTA 数据。

质量、速度、灵活性更好的 SiT

此外，DiT 还在今年 1 月迎来了升级！谢赛宁及团队推出了 SiT（Scalable Interpolant Transformer，可扩展插值 Tranformer），相同的骨干实现了更好的质量、速度和灵活性。

谢赛宁表示，SiT 超越了标准扩散并通过插值来探索更广阔的设计空间。

该论文标题为《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

论文地址：https://arxiv.org/pdf/2401.08740.pdf * GitHub 地址：https://github.com/willisma/SiT

简单来讲，SiT 将灵活的插值框架集成到了 DiT 中，从而能够对图像生成中的动态传输进行细微的探索。SiT 在 ImageNet 256 的 FID 为 2.06，将基于插值的模型推向了新的高度。

论文一作、纽约大学本科生 Nanye Ma 对这篇论文进行了解读。本文认为，随机插值为扩散和流提供了统一的框架。但又注意到，基于 DDPM（去噪扩散概率模型）的 DiT 与较新的基于插值的模型之间存在性能差异。因此，研究者想要探究性能提升的来源是什么？

他们通过设计空间中的一系列正交步骤，逐渐地从 DiT 模型过渡到 SiT 模型来解答这一问题。同时仔细评估了每个远离扩散模型的举措对性能的影响。

研究者发现，插值和采样器对性能的影响最大。当将插值（即分布路径）从方差保留切换到线性以及将采样器从确定性切换到随机性时，他们观察到了巨大的改进。

对于随机采样，研究者表明扩散系数不需要在训练和采样之间绑定，在推理时间方面可以有很多选择。同时确定性和随机采样器在不同的计算预算下各有其优势。

最后，研究者将 SiT 描述为连续、速度可预测、线性可调度和 SDE 采样的模型。与扩散模型一样，SiT 可以实现性能提升，并且优于 DiT。

更多关于 DiT 和 SiT 的内容请参阅原始论文。

成为VIP会员查看完整内容

40

相关内容

Sora

Sora是OpenAI发布的一个AI模型，可以从文本指令中创建现实和想象的视频。OpenAI发布首个文本生成视频模型Sora，在生成视频长度（60秒）和内容上表现突出，为AIGC发展过程中的一大里程碑事件，

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？附中英文报告

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？附中英文报告

专知会员服务

53+阅读 · 2024年3月7日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

自主机器智能！图灵奖得主Yann LeCun指明下一代AI方向

自主机器智能！图灵奖得主Yann LeCun指明下一代AI方向

专知会员服务

54+阅读 · 2022年6月29日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

「合并」样本和标签? IBM 为多标签小样本图像分类带来新进展！| CVPR 2019

「合并」样本和标签? IBM 为多标签小样本图像分类带来新进展！| CVPR 2019

AI科技评论

13+阅读 · 2019年7月21日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

14+阅读 · 2018年4月2日

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

ONSET图像数据统计重建关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频ZnO/IDT/SiO2/金刚石SAW乳腺癌抗原免疫传感器研究

国家自然科学基金

1+阅读 · 2015年12月31日

制造物联背景下面向多行为特性的企业RFID技术采纳行为研究

国家自然科学基金

0+阅读 · 2014年12月31日

Ghrelin整合调控神经血管单元网络抑制脑缺血再灌注损伤并促进神经修复

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

VIP会员

相关主题

DiT(Diffusion Transformer)

Scalable Interpolant Transformers (SiT)

视频生成模型

相关VIP内容

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？附中英文报告

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？附中英文报告

专知会员服务

53+阅读 · 2024年3月7日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

自主机器智能！图灵奖得主Yann LeCun指明下一代AI方向

自主机器智能！图灵奖得主Yann LeCun指明下一代AI方向

专知会员服务

54+阅读 · 2022年6月29日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

「合并」样本和标签? IBM 为多标签小样本图像分类带来新进展！| CVPR 2019

「合并」样本和标签? IBM 为多标签小样本图像分类带来新进展！| CVPR 2019

AI科技评论

13+阅读 · 2019年7月21日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

14+阅读 · 2018年4月2日

相关基金

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

ONSET图像数据统计重建关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频ZnO/IDT/SiO2/金刚石SAW乳腺癌抗原免疫传感器研究

国家自然科学基金

1+阅读 · 2015年12月31日

制造物联背景下面向多行为特性的企业RFID技术采纳行为研究

国家自然科学基金

0+阅读 · 2014年12月31日

Ghrelin整合调控神经血管单元网络抑制脑缺血再灌注损伤并促进神经修复

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员