2D扩散的离散度量与提示去偏差用于稳健文本生成3D模型 (Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation) - 专知论文

会员服务 ·

0

3D模型 · 偏差 · 文本生成 · 3D · 稳健 ·

2023 年 3 月 27 日

Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation

翻译：2D扩散的离散度量与提示去偏差用于稳健文本生成3D模型

Susung Hong,Donghoon Ahn,Seungryong Kim

The view inconsistency problem in score-distilling text-to-3D generation, also known as the Janus problem, arises from the intrinsic bias of 2D diffusion models, which leads to the unrealistic generation of 3D objects. In this work, we explore score-distilling text-to-3D generation and identify the main causes of the Janus problem. Based on these findings, we propose two approaches to debias the score-distillation frameworks for robust text-to-3D generation. Our first approach, called score debiasing, involves gradually increasing the truncation value for the score estimated by 2D diffusion models throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts utilizing a language model and adjusts the discrepancy between view prompts and object-space camera poses. Our experimental results show that our methods improve realism by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead.

翻译：视角不一致问题在呈现文本生成3D模型中变得越来越显著，又称为Janus问题，这是因为2D扩散模型固有的偏差导致生成的3D模型不真实。在这项工作中，我们探索了文本生成3D模型中得分提炼技术并确定了Janus问题的主要原因。基于这些发现，我们提出了两种方法来消除得分提炼框架的偏差，从而实现稳健的文本生成3D模型。我们的第一种方法，称为得分去偏差，涉及在优化过程中逐渐增加由2D扩散模型估算的得分截止值。我们的第二种方法，称为提示去偏差，使用语言模型识别用户提示和视图提示之间的冲突单词，并调整视图提示和物体空间摄像机姿势之间的误差。我们的实验结果表明，我们的方法通过显著减少伪影来提高真实性，并在不增加计算复杂度的情况下实现信念与3D模型一致。

0

相关内容

3D模型

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

专知会员服务

21+阅读 · 2023年5月17日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

手册《兵棋推演：工具、技术和程序》33页slides，Connections UK – Wargaming for Professionals

手册《兵棋推演：工具、技术和程序》33页slides，Connections UK – Wargaming for Professionals

专知会员服务

40+阅读 · 2022年10月10日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

86+阅读 · 2022年9月13日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

康奈尔大学「深度概率与生成模型」2021SP课程

专知会员服务

49+阅读 · 2021年4月24日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

2+阅读 · 2022年7月26日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

泡泡机器人SLAM

11+阅读 · 2018年12月17日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【泡泡一分钟】学习紧密的几何特征（ICCV2017-17）

【泡泡一分钟】学习紧密的几何特征（ICCV2017-17）

泡泡机器人SLAM

20+阅读 · 2018年5月8日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

部分相干涡旋光束的奇点演化及散射特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

飞秒强激光场分子库仑爆炸成像

国家自然科学基金

0+阅读 · 2014年12月31日

面向运动模糊的场景组织方法的研究

国家自然科学基金

0+阅读 · 2013年12月31日

量子隧穿和相干效应在强激光场原子分子电离中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

基于空间-分数谱域联合稀疏表示的SAR图像目标识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于高阶矩风险的非常规突发事件应急管理优化模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

利用多光子干涉对SU(N)矩阵进行矩阵计算的实验研究

国家自然科学基金

0+阅读 · 2013年12月31日

空间相依数据的统计推断及其应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

高浓度液滴群在射流场中碰撞凝并的动力学特性研究

国家自然科学基金

0+阅读 · 2012年12月31日

Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models

Arxiv

0+阅读 · 2023年5月17日

Satisfiability-Aided Language Models Using Declarative Prompting

Arxiv

0+阅读 · 2023年5月17日

Smaller Language Models are Better Black-box Machine-Generated Text Detectors

Arxiv

0+阅读 · 2023年5月17日

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Arxiv

0+阅读 · 2023年5月16日

Auto-Tuning High-Performance Programs Using Model Checking in Promela

Arxiv

0+阅读 · 2023年5月16日

Laughing Matters: Introducing Laughing-Face Generation using Diffusion Models

Arxiv

0+阅读 · 2023年5月15日

Generating symbolic music using diffusion models

Arxiv

0+阅读 · 2023年5月15日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Learning from Very Few Samples: A Survey

Arxiv

126+阅读 · 2020年9月6日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

【ICML2023】通过离散扩散建模实现高效和度引导的图生成

专知会员服务

21+阅读 · 2023年5月17日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

手册《兵棋推演：工具、技术和程序》33页slides，Connections UK – Wargaming for Professionals

手册《兵棋推演：工具、技术和程序》33页slides，Connections UK – Wargaming for Professionals

专知会员服务

40+阅读 · 2022年10月10日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

86+阅读 · 2022年9月13日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

康奈尔大学「深度概率与生成模型」2021SP课程

专知会员服务

49+阅读 · 2021年4月24日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

《美军使用大语言模型技术生成领域特定文档》2025最新379页

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

智能体化多模态大语言模型综述

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

2+阅读 · 2022年7月26日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

泡泡机器人SLAM

11+阅读 · 2018年12月17日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【泡泡一分钟】学习紧密的几何特征（ICCV2017-17）

【泡泡一分钟】学习紧密的几何特征（ICCV2017-17）

泡泡机器人SLAM

20+阅读 · 2018年5月8日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

相关论文

Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models

Arxiv

0+阅读 · 2023年5月17日

Satisfiability-Aided Language Models Using Declarative Prompting

Arxiv

0+阅读 · 2023年5月17日

Smaller Language Models are Better Black-box Machine-Generated Text Detectors

Arxiv

0+阅读 · 2023年5月17日

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Arxiv

0+阅读 · 2023年5月16日

Auto-Tuning High-Performance Programs Using Model Checking in Promela

Arxiv

0+阅读 · 2023年5月16日

Laughing Matters: Introducing Laughing-Face Generation using Diffusion Models

Arxiv

0+阅读 · 2023年5月15日

Generating symbolic music using diffusion models

Arxiv

0+阅读 · 2023年5月15日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Learning from Very Few Samples: A Survey

Arxiv

126+阅读 · 2020年9月6日

相关基金

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

部分相干涡旋光束的奇点演化及散射特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

飞秒强激光场分子库仑爆炸成像

国家自然科学基金

0+阅读 · 2014年12月31日

面向运动模糊的场景组织方法的研究

国家自然科学基金

0+阅读 · 2013年12月31日

量子隧穿和相干效应在强激光场原子分子电离中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

基于空间-分数谱域联合稀疏表示的SAR图像目标识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于高阶矩风险的非常规突发事件应急管理优化模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

利用多光子干涉对SU(N)矩阵进行矩阵计算的实验研究

国家自然科学基金

0+阅读 · 2013年12月31日

空间相依数据的统计推断及其应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

高浓度液滴群在射流场中碰撞凝并的动力学特性研究

国家自然科学基金

0+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员