Text-to-LiDAR generation can customize 3D data with rich structures and diverse scenes for downstream tasks. However, the scarcity of Text-LiDAR pairs often causes insufficient training priors, generating overly smooth 3D scenes. Moreover, low-quality text descriptions may degrade generation quality and controllability. In this paper, we propose a Text-to-LiDAR Diffusion Model for scene generation, named T2LDM, with a Self-Conditioned Representation Guidance (SCRG). Specifically, SCRG, by aligning to the real representations, provides the soft supervision with reconstruction details for the Denoising Network (DN) in training, while decoupled in inference. In this way, T2LDM can perceive rich geometric structures from data distribution, generating detailed objects in scenes. Meanwhile, we construct a content-composable Text-LiDAR benchmark, T2nuScenes, along with a controllability metric. Based on this, we analyze the effects of different text prompts for LiDAR generation quality and controllability, providing practical prompt paradigms and insights. Furthermore, a directional position prior is designed to mitigate street distortion, further improving scene fidelity. Additionally, by learning a conditional encoder via frozen DN, T2LDM can support multiple conditional tasks, including Sparse-to-Dense, Dense-to-Sparse, and Semantic-to-LiDAR generation. Extensive experiments in unconditional and conditional generation demonstrate that T2LDM outperforms existing methods, achieving state-of-the-art scene generation.


翻译:文本到激光雷达生成能够为下游任务定制具有丰富结构和多样化场景的三维数据。然而,文本-激光雷达对的稀缺性常常导致训练先验不足,生成过于平滑的三维场景。此外,低质量的文本描述可能会降低生成质量和可控性。本文提出了一种用于场景生成的文本到激光雷达扩散模型,命名为T2LDM,并引入了自条件表示引导机制。具体而言,SCRG通过对齐真实表示,在训练阶段为去噪网络提供包含重建细节的软监督,而在推理阶段则解耦。通过这种方式,T2LDM能够从数据分布中感知丰富的几何结构,生成场景中的细节化物体。同时,我们构建了一个内容可组合的文本-激光雷达基准数据集T2nuScenes,以及一个可控性度量指标。基于此,我们分析了不同文本提示对激光雷达生成质量和可控性的影响,提供了实用的提示范式和见解。此外,设计了一种方向位置先验来减轻街道畸变,进一步提升了场景保真度。另外,通过利用冻结的去噪网络学习条件编码器,T2LDM能够支持多种条件生成任务,包括稀疏到稠密、稠密到稀疏以及语义到激光雷达的生成。在无条件生成和条件生成上的大量实验表明,T2LDM优于现有方法,实现了最先进的场景生成效果。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员