1、底层模型技术框架梳理

  文生图和文生视频的底层技术框架较为相似,主要包括GAN、自回归和扩散模型三大路径,其中扩散模型(Diffusionmodel)为当前主流生成模型,多个指标对比下综合占优,能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像:①图像质量:扩散模型>自回归模型>GAN模型。FID值(FréchetInceptionDistancescore)是用于评估模型生成的图像质量的指标,是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小,可以认为图像质量在一定程度上越优。从不同模型的FID得分来看,扩散模型平均数较小,反应图像质量较高。②参数量:自回归模型>扩散模型>GAN模型。GAN的参数量一般在千万级别,整体较为轻巧,扩散模型的参数量在十亿级别,自回归模型在十亿到百亿级不等。③生成速度(由快到慢):GAN模型>扩散模型>自回归模型。生成速度与参数量级为负相关关系。④训练成本:自回归>扩散模型>GAN模型。由于参数量级较小,GAN模型训练成本小且开源模型多,仍具备一定优势。而自回归模型参数量级较大,整体训练成本更高。在单张A100GPU下,120亿参数的DALL-E需要18万小时,200亿参数的Parti更是需要超过100万小时,扩散模型参数量在十亿级别,整体训练成本较为适中。

 2、商业化模式及成本拆分

  文生图商业化模型:当前主要的商业化方式包括基于GPU时间/生成次数/API接口调用/个性化定价等方式。根据我们调研,以Midjourney为例,单张图片生成成本约0.03~0.04美金,单张收入约0.05美金,毛利率约30%~40%,净利率约20%。

  文生图领域整体创业门槛低于大语言模型:①模型层看:图像生成领域已有生成质量较高的开源预训练模型StableDiffusion,且SD具有较为丰富的开发者生态,有许多插件供选择。创业公司可基于StableDiffusion基础版本进行进一步调优和个性化数据训练。②成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到了70B,文生图整体参数量级较小,成本远低于通用大模型。通过调研文生图初创公司,实际小团队利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX30\40系列、IBS3060(5000~1w/张)也可以启动。我们对文生图推理算力需求也进行了测算,以10亿级参数量的模型、在100万DAU的用户量级为例,若想控制单次推理延迟时间,需部署约143张A100,整体芯片算力需求低于大语言通用模型。

  文生图商业模式仍存疑问,长期竞争需要技术+产品+场景能力结合突破:①对于垂类AI应用:短期看头部应用通过技术/产品/成本/数据等优势突破,在C端率先开启变现,长期看针对垂类场景C端天花板相对明确,搭建工程化能力可技术输出到B端场景,探索更多变现可能。②对于现有应用叠加AI功能:短期通过AI功能引入提升产品体验和用户粘性;长期看基于现有高频场景,用户壁垒更强、不易流失,用户ARPU和付费率有望提升。

  3、文生图代表模型及应用

  从模型和应用看,海外OpenAI、谷歌、微软、Meta、Midjourney、StabilityAI都推出了各自的文生图模型,国内百度、美图、万兴科技、新国都等均推出各自AI应用。从生成效果看Midjourney、Adobe和StableDiffusion综合较优,OpenAI最新升级DALL-E3模型将与ChatGPT集成,多模态交互能力持续提升,有望带来新的场景突破。  

成为VIP会员查看完整内容
91

相关内容

人工智能生成内容
【ETHZ博士论文】学习理解图结构:从分类到生成,273页pdf
专知会员服务
45+阅读 · 2023年12月10日
华为盘古大模型:让AI重塑千行百业,37页ppt
专知会员服务
121+阅读 · 2023年10月31日
【2022新书】Python数学逻辑,285页pdf
专知会员服务
67+阅读 · 2022年11月24日
【经典书】计算机视觉中的结构化学习与预测,178页pdf
专知会员服务
46+阅读 · 2022年11月7日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
专知会员服务
28+阅读 · 2021年6月25日
【USTC】对话推荐系统的进展和挑战:综述论文,30页pdf
专知会员服务
20+阅读 · 2021年1月27日
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
【新书册】贝叶斯神经网络,41页pdf
专知
25+阅读 · 2020年6月3日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
322+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
14+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ETHZ博士论文】学习理解图结构:从分类到生成,273页pdf
专知会员服务
45+阅读 · 2023年12月10日
华为盘古大模型:让AI重塑千行百业,37页ppt
专知会员服务
121+阅读 · 2023年10月31日
【2022新书】Python数学逻辑,285页pdf
专知会员服务
67+阅读 · 2022年11月24日
【经典书】计算机视觉中的结构化学习与预测,178页pdf
专知会员服务
46+阅读 · 2022年11月7日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
专知会员服务
28+阅读 · 2021年6月25日
【USTC】对话推荐系统的进展和挑战:综述论文,30页pdf
专知会员服务
20+阅读 · 2021年1月27日
相关资讯
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
【新书册】贝叶斯神经网络,41页pdf
专知
25+阅读 · 2020年6月3日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员