入选顶会CVPR，火山引擎虚拟换装技术大突破 - 专知

会员服务 ·

0

入选顶会CVPR，火山引擎虚拟换装技术大突破

2022 年 4 月 19 日 量子位

近日，2022 IEEE 国际计算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition，简称 CVPR）公布论文收录结果。据 CVPR 官网显示，共收到全球范围内 8186 篇有效投稿，其中火山引擎论文《Dressing in the Wild by Watching Dance Videos》（《基于跳舞视频的通用虚拟换装》）成功入选。

CVPR 已是计算机视觉和模式识别领域的全球顶级学术会议。根据谷歌学术公布的2021年最新学术期刊和会议影响力排名，CVPR在所有学术刊物中，影响力仅次于 Nature、NEJM 和 Science。

此次被收录的最新研究成果涵盖了计算机视觉的各项前沿工作。火山引擎被收录的论文提出了 wFlow （flow in-the-wild）技术方案，首次解决真实用户场景下的虚拟换装问题。该方案通过 2D 和 3D 信息的结合，可以兼容图片中复杂的人体姿势，背景和服装类型，包括宽松不贴身服装（如连衣裙），同时保持换装结果图片的高清晰度和真实性。

另外，此方案通过一种自监督训练的方式，通过公开可用的人物跳舞视频（经脱敏处理）作为训练数据来实现虚拟换装神经网络模型的训练，避开了难以获得换装结果图作为直接监督的难题。论文中火山引擎构建的 dance50k 数据集后续也将公开供学术界使用。

基于跳舞视频的通用虚拟换装

在娱乐和电商领域，虚拟换装问题有着比较好的落地前景。虚拟换装，简单来说就是在没有实际的人物和衣服的情况下，直接通过算法将参考图片上的衣服，迁移到另一个用户图片中的人身上，从而生成真实的试穿图片。

由于缺乏对人体潜在的 3D 信息感知能力及相应的多样化姿态-衣服数据集，学术界此前很难处理好实际真实用户场景下的数据，只能在一些固定分布的数据集上有相对好的效果。现有的虚拟换装工作局限于简单人体姿势及贴身衣物，极大地限制了其在真实场景下的应用能力。

在 2020 年上半年，火山引擎开始对虚拟换装技术做长线规划并开始长期投入，首次将 2D 像素流与 3D 顶点流相结合形成更为通用的外观流预测模块（命名为 wFlow），在解决宽松衣服变形的同时提升对复杂人体姿势的适应力。

具体来说，2D 像素流负责构建衣物图片与人体分割图之间的纹理映射关系，其对图片层面的空间结构特征敏感但无法复现潜在 3D 人体的刚性变换，通过进一步引入基于 SMPL 人体 3D 模型的顶点流，通用复合外观流 wFlow 相较现有工作的单一外观流具备更强的三维感知力，同时不丢失了对目标衣服完整 2D 空间结构的保留能力，下图展示了 wFlow 与其他 SOTA 虚拟试穿方法的对比结果。

相较现有工作需要大量人工采集成对衣服-人物数据集进行模型训练，火山引擎通过在跳舞视频上直接进行跨帧自监督训练并对复杂例子进行在线环式优化，实验证明 wFlow 相较现有的单一像素或者顶点外观流方法在真实世界图片上泛化性更高。

可以说，wFlow (flow in-the-wild)技术方案，相比现有方案有更好的视角效果和客观图像质量评估指标，有效提升了虚拟换装的普适性。

论文中，火山引擎新提出的大规模视频数据 Dance50k 相较现有被广泛使用的 DeepFashion 数据集在衣服种类及图片数量上均有大幅提升（见下图）。

同时，火山引擎决定将构建的大规模人物视频数据集共享给学术界使用，以期促进虚拟换装及其他以人为中心的图像生成研究。

未来，AI 技术将越来越多地应用于贯穿 B 端商家与 C 端消费者的整条业务链路，例如在短视频和电商领域：

为短视频特效道具提供技术基础，实现一键换装的短视频特效。用户可以穿着各式各样的服装进行短视频创作，激发创作欲望，丰富后置摄像头的视频创作生态；
帮助电商环境下，用户服装选购实现线上试衣，甚至帮助商家生成高质量模特服装展示图，节省成本。

除此之外，火山引擎自研了头部、耳部、足部、手部、腕部、颈部、身体等业内最全面的端上实时人体 3D 感知能力，支持 10 余类商品的实时试穿试戴，提供全平台统一的虚拟试穿试戴解决方案。

疫情当前，线上消费场景需求更多元，AR 虚拟体验成为促进体验式消费升级的重要一环。对于用户来说，能够直接在线上进行商品试用，有助于提升用户的线上消费体验，从而促进商品的购买转化；对于品牌方来说，提供线上的商品及品牌特效互动的能力，这对于品牌推广及购买转化率，都有重要的意义。

借助落地的 wFlow 技术方案，火山引擎开放技术，拥抱合作，希望帮助更多行业用户打造新的营销玩法，实现业务增长。

*本文系量子位获授权刊载，观点仅为作者所有。

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

2

相关内容

学术会议，包括国内外相关会议

【CVPR2022】多机器人协同主动建图算法

【CVPR2022】多机器人协同主动建图算法

专知会员服务

49+阅读 · 2022年4月3日

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知会员服务

10+阅读 · 2022年3月24日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【SIGGRAPH 2021】仅输入单张图片，就能“看”出物体材质

专知会员服务

11+阅读 · 2021年8月11日

近期必读的5篇顶会CVPR 2021【领域自适应（DA）】相关论文和代码

专知会员服务

41+阅读 · 2021年4月30日

CVPR 二十年，影响力最大的 10 篇论文！

专知会员服务

48+阅读 · 2021年4月18日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

CVPR 2020 最佳论文与最佳学生论文！

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

专知会员服务

45+阅读 · 2020年4月10日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

CVPR 2022 | 高质量捕捉人物动作，网易互娱AI Lab提出高效视频动捕技术

CVPR 2022 | 高质量捕捉人物动作，网易互娱AI Lab提出高效视频动捕技术

机器之心

0+阅读 · 2022年4月17日

网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收！

网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收！

CVer

0+阅读 · 2022年4月15日

虚幻引擎5正式版发布：古墓丽影&巫师新作采用、新一代实时渲染

虚幻引擎5正式版发布：古墓丽影&巫师新作采用、新一代实时渲染

机器之心

0+阅读 · 2022年4月6日

2022，火山引擎的云上第一“子”，为何是视频？

2022，火山引擎的云上第一“子”，为何是视频？

CSDN

0+阅读 · 2022年3月1日

8 月北京开幕，游戏 AI 顶会 IEEE CoG 2022 征稿

8 月北京开幕，游戏 AI 顶会 IEEE CoG 2022 征稿

机器之心

0+阅读 · 2022年2月11日

VALSE 论文速览第47期：PASTA-GAN：基于衣服块指引和空间自适应生成网络的非配对虚拟换装算法

VALSE 论文速览第47期：PASTA-GAN：基于衣服块指引和空间自适应生成网络的非配对虚拟换装算法

VALSE

1+阅读 · 2022年2月5日

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

机器之心

1+阅读 · 2022年1月6日

【速览】ICCV 2021 | 从2D到3D的虚拟试穿模型

【速览】ICCV 2021 | 从2D到3D的虚拟试穿模型

中国图象图形学学会CSIG

1+阅读 · 2021年10月22日

竞赛推荐|爱奇艺多模态人物识别挑战赛报名启动！

竞赛推荐|爱奇艺多模态人物识别挑战赛报名启动！

极市平台

10+阅读 · 2019年3月8日

CVPR 2018，盘点我心中的创意 TOP10

CVPR 2018，盘点我心中的创意 TOP10

机器学习算法与Python学习

13+阅读 · 2018年7月22日

面向视频侦查的行人重识别关键技术研究

国家自然科学基金

3+阅读 · 2013年12月31日

面向高清显示的图像增强技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于弱监督学习和深度信息的目标跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

语义驱动的个性化虚拟人重建技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向增强现实的虚拟化身行为建模关键技术研究

国家自然科学基金

6+阅读 · 2011年12月31日

高动态室内无线环境中渐进式自适应定位方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于密集图像/视频采样的三维重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于流程模块化的虚拟单元制造研究

国家自然科学基金

0+阅读 · 2009年12月31日

AVR虚拟人几何与运动重建的研究

国家自然科学基金

3+阅读 · 2008年12月31日

Real Robot Challenge: A Robotics Competition in the Cloud

Real Robot Challenge: A Robotics Competition in the Cloud

Arxiv

0+阅读 · 2022年6月10日

How Well Do My Results Generalize Now? The External Validity of Online Privacy and Security Surveys

Arxiv

0+阅读 · 2022年6月9日

Outsider Oversight: Designing a Third Party Audit Ecosystem for AI Governance

Arxiv

0+阅读 · 2022年6月9日

Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields

Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields

Arxiv

0+阅读 · 2022年6月9日

Hypernetwork-based Personalized Federated Learning for Multi-Institutional CT Imaging

Arxiv

0+阅读 · 2022年6月8日

Toward Certified Robustness Against Real-World Distribution Shifts

Arxiv

0+阅读 · 2022年6月8日

Unified Transformer Tracker for Object Tracking

Arxiv

0+阅读 · 2022年6月8日

Intra-agent speech permits zero-shot task acquisition

Arxiv

0+阅读 · 2022年6月7日

Fault-Aware Neural Code Rankers

Arxiv

0+阅读 · 2022年6月4日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

VIP会员

相关主题

计算机视觉

相关VIP内容

【CVPR2022】多机器人协同主动建图算法

【CVPR2022】多机器人协同主动建图算法

专知会员服务

49+阅读 · 2022年4月3日

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知会员服务

10+阅读 · 2022年3月24日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【SIGGRAPH 2021】仅输入单张图片，就能“看”出物体材质

专知会员服务

11+阅读 · 2021年8月11日

近期必读的5篇顶会CVPR 2021【领域自适应（DA）】相关论文和代码

专知会员服务

41+阅读 · 2021年4月30日

CVPR 二十年，影响力最大的 10 篇论文！

专知会员服务

48+阅读 · 2021年4月18日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

CVPR 2020 最佳论文与最佳学生论文！

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

专知会员服务

45+阅读 · 2020年4月10日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

CVPR 2022 | 高质量捕捉人物动作，网易互娱AI Lab提出高效视频动捕技术

CVPR 2022 | 高质量捕捉人物动作，网易互娱AI Lab提出高效视频动捕技术

机器之心

0+阅读 · 2022年4月17日

网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收！

网易互娱AI Lab视频动捕技术iCap被CVPR 2022接收！

CVer

0+阅读 · 2022年4月15日

虚幻引擎5正式版发布：古墓丽影&巫师新作采用、新一代实时渲染

虚幻引擎5正式版发布：古墓丽影&巫师新作采用、新一代实时渲染

机器之心

0+阅读 · 2022年4月6日

2022，火山引擎的云上第一“子”，为何是视频？

2022，火山引擎的云上第一“子”，为何是视频？

CSDN

0+阅读 · 2022年3月1日

8 月北京开幕，游戏 AI 顶会 IEEE CoG 2022 征稿

8 月北京开幕，游戏 AI 顶会 IEEE CoG 2022 征稿

机器之心

0+阅读 · 2022年2月11日

VALSE 论文速览第47期：PASTA-GAN：基于衣服块指引和空间自适应生成网络的非配对虚拟换装算法

VALSE 论文速览第47期：PASTA-GAN：基于衣服块指引和空间自适应生成网络的非配对虚拟换装算法

VALSE

1+阅读 · 2022年2月5日

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

机器之心

1+阅读 · 2022年1月6日

【速览】ICCV 2021 | 从2D到3D的虚拟试穿模型

【速览】ICCV 2021 | 从2D到3D的虚拟试穿模型

中国图象图形学学会CSIG

1+阅读 · 2021年10月22日

竞赛推荐|爱奇艺多模态人物识别挑战赛报名启动！

竞赛推荐|爱奇艺多模态人物识别挑战赛报名启动！

极市平台

10+阅读 · 2019年3月8日

CVPR 2018，盘点我心中的创意 TOP10

CVPR 2018，盘点我心中的创意 TOP10

机器学习算法与Python学习

13+阅读 · 2018年7月22日

相关基金

面向视频侦查的行人重识别关键技术研究

国家自然科学基金

3+阅读 · 2013年12月31日

面向高清显示的图像增强技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于弱监督学习和深度信息的目标跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

语义驱动的个性化虚拟人重建技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向增强现实的虚拟化身行为建模关键技术研究

国家自然科学基金

6+阅读 · 2011年12月31日

高动态室内无线环境中渐进式自适应定位方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于密集图像/视频采样的三维重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于流程模块化的虚拟单元制造研究

国家自然科学基金

0+阅读 · 2009年12月31日

AVR虚拟人几何与运动重建的研究

国家自然科学基金

3+阅读 · 2008年12月31日

相关论文

Real Robot Challenge: A Robotics Competition in the Cloud

Real Robot Challenge: A Robotics Competition in the Cloud

Arxiv

0+阅读 · 2022年6月10日

How Well Do My Results Generalize Now? The External Validity of Online Privacy and Security Surveys

Arxiv

0+阅读 · 2022年6月9日

Outsider Oversight: Designing a Third Party Audit Ecosystem for AI Governance

Arxiv

0+阅读 · 2022年6月9日

Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields

Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields

Arxiv

0+阅读 · 2022年6月9日

Hypernetwork-based Personalized Federated Learning for Multi-Institutional CT Imaging

Arxiv

0+阅读 · 2022年6月8日

Toward Certified Robustness Against Real-World Distribution Shifts

Arxiv

0+阅读 · 2022年6月8日

Unified Transformer Tracker for Object Tracking

Arxiv

0+阅读 · 2022年6月8日

Intra-agent speech permits zero-shot task acquisition

Arxiv

0+阅读 · 2022年6月7日

Fault-Aware Neural Code Rankers

Arxiv

0+阅读 · 2022年6月4日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员