Vox-E：文本引导的三维体素编辑 (Vox-E: Text-guided Voxel Editing of 3D Objects) - 专知论文

会员服务 ·

0

3D · 损失 · 正则化项 · 优化器 · 表示 ·

2023 年 3 月 21 日

Vox-E: Text-guided Voxel Editing of 3D Objects

翻译：Vox-E：文本引导的三维体素编辑

Etai Sella,Gal Fiebelman,Peter Hedman,Hadar Averbuch-Elor

from arxiv, Project webpage: https://tau-vailab.github.io/Vox-E/

Large scale text-guided diffusion models have garnered significant attention due to their ability to synthesize diverse images that convey complex visual concepts. This generative power has more recently been leveraged to perform text-to-3D synthesis. In this work, we present a technique that harnesses the power of latent diffusion models for editing existing 3D objects. Our method takes oriented 2D images of a 3D object as input and learns a grid-based volumetric representation of it. To guide the volumetric representation to conform to a target text prompt, we follow unconditional text-to-3D methods and optimize a Score Distillation Sampling (SDS) loss. However, we observe that combining this diffusion-guided loss with an image-based regularization loss that encourages the representation not to deviate too strongly from the input object is challenging, as it requires achieving two conflicting goals while viewing only structure-and-appearance coupled 2D projections. Thus, we introduce a novel volumetric regularization loss that operates directly in 3D space, utilizing the explicit nature of our 3D representation to enforce correlation between the global structure of the original and edited object. Furthermore, we present a technique that optimizes cross-attention volumetric grids to refine the spatial extent of the edits. Extensive experiments and comparisons demonstrate the effectiveness of our approach in creating a myriad of edits which cannot be achieved by prior works.

翻译：大规模的文本引导扩散模型因其合成能力而引起了广泛关注，这种合成能力可以传达复杂的视觉概念。最近，这种生成能力已经被利用来进行文本到三维合成。在这项工作中，我们提出了一种利用潜在扩散模型编辑现有三维对象的技术。我们的方法以定向的二维图像作为输入，并学习该对象的基于网格的体积表示。为了将该体积表示引导到符合目标文本提示的方向，我们遵循无条件的文本到三维方法，并优化一个叫做“得分蒸馏采样(SDS)”的损失函数。然而，我们观察到将这个扩散引导的损失函数与一个基于图像的正则化损失函数相结合是具有挑战性的，因为这需要通过仅查看结构和外观耦合的二维投影来实现两个相互冲突的目标。因此，我们引入了一种新颖的体积正则化损失函数，该损失函数直接在三维空间中操作，利用我们的三维表示的显式性质来强制原始和编辑后的对象的全局结构之间的相关性。此外，我们提出了一种优化交叉注意力的体积网格的技术，以改善编辑的空间范围。大量的实验和比较证明了我们的方法在创建一些先前的工作无法实现的编辑方面的有效性。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

用于分子Linker设计的等变3D条件扩散模型

用于分子Linker设计的等变3D条件扩散模型

专知会员服务

6+阅读 · 2022年10月24日

BIB | 3DGT-DDI：基于3D图和文本的DDI预测神经网络

BIB | 3DGT-DDI：基于3D图和文本的DDI预测神经网络

专知会员服务

9+阅读 · 2022年7月22日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

PaperWeekly

1+阅读 · 2022年11月13日

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

机器之心

2+阅读 · 2022年9月30日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

LncRNA介导肿瘤相关巨噬细胞促进乳腺癌转移分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像的室外场景光影分析与编辑

国家自然科学基金

0+阅读 · 2013年12月31日

X射线真彩色CT图像重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于对象分析的图像/视频内容编辑

国家自然科学基金

2+阅读 · 2012年12月31日

半弧传递图与半边传递图的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

以EGFR为识别靶位多靶点联合克服NSCLC EGFR TKIs耐药的基因干预研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于三维差时投影法的超分辨率车辆重建算法研究

国家自然科学基金

0+阅读 · 2010年12月31日

脂肪因子adiponutrin在肥胖、胰岛素抵抗和2型糖尿病发病机制中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

CLIP-Count: Towards Text-Guided Zero-Shot Object Counting

Arxiv

0+阅读 · 2023年5月12日

V2Meow: Meowing to the Visual Beat via Music Generation

Arxiv

0+阅读 · 2023年5月11日

Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

Arxiv

1+阅读 · 2023年5月10日

Text-guided High-definition Consistency Texture Model

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

VIP会员

文章信息

相关主题

相关VIP内容

用于分子Linker设计的等变3D条件扩散模型

用于分子Linker设计的等变3D条件扩散模型

专知会员服务

6+阅读 · 2022年10月24日

BIB | 3DGT-DDI：基于3D图和文本的DDI预测神经网络

BIB | 3DGT-DDI：基于3D图和文本的DDI预测神经网络

专知会员服务

9+阅读 · 2022年7月22日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

《商用大语言模型的升级风险管理：国家安全运用》

【伯克利博士论文】通过真实世界实践赋能机器人自主性

相关资讯

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

PaperWeekly

1+阅读 · 2022年11月13日

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

机器之心

2+阅读 · 2022年9月30日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

CLIP-Count: Towards Text-Guided Zero-Shot Object Counting

Arxiv

0+阅读 · 2023年5月12日

V2Meow: Meowing to the Visual Beat via Music Generation

Arxiv

0+阅读 · 2023年5月11日

Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

Arxiv

1+阅读 · 2023年5月10日

Text-guided High-definition Consistency Texture Model

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

相关基金

LncRNA介导肿瘤相关巨噬细胞促进乳腺癌转移分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像的室外场景光影分析与编辑

国家自然科学基金

0+阅读 · 2013年12月31日

X射线真彩色CT图像重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于对象分析的图像/视频内容编辑

国家自然科学基金

2+阅读 · 2012年12月31日

半弧传递图与半边传递图的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

以EGFR为识别靶位多靶点联合克服NSCLC EGFR TKIs耐药的基因干预研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于三维差时投影法的超分辨率车辆重建算法研究

国家自然科学基金

0+阅读 · 2010年12月31日

脂肪因子adiponutrin在肥胖、胰岛素抵抗和2型糖尿病发病机制中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员