In this work, we develop intuitive controls for editing the style of 3D objects. Our framework, Text2Mesh, stylizes a 3D mesh by predicting color and local geometric details which conform to a target text prompt. We consider a disentangled representation of a 3D object using a fixed mesh input (content) coupled with a learned neural network, which we term neural style field network. In order to modify style, we obtain a similarity score between a text prompt (describing style) and a stylized mesh by harnessing the representational power of CLIP. Text2Mesh requires neither a pre-trained generative model nor a specialized 3D mesh dataset. It can handle low-quality meshes (non-manifold, boundaries, etc.) with arbitrary genus, and does not require UV parameterization. We demonstrate the ability of our technique to synthesize a myriad of styles over a wide variety of 3D meshes.
翻译:在这项工作中,我们开发了用于编辑 3D 对象样式的直观控制。 我们的框架, Text2Mesh, 通过预测符合目标文本提示的颜色和本地几何细节, 将 3D 网格同步化 。 我们考虑使用固定网格输入( 内容) 和一个有学识的神经网络, 使用固定网格输入( 内容) 来分解一个 3D 对象的表达式。 为了修改样式, 我们通过利用 CLIP 的表达式能力, 获得了文本提示( 描述式) 和星格化网的相似性评分。 Text2Mesh 既不需要事先训练的基因化模型, 也不需要专门的 3D 网格数据集。 它可以使用任意的外形处理低质量的 meshes( 非mantifrip、 边界等), 不需要 UV 参数化。 我们展示了我们技术在3D 色谱中合成多种样式的能力 。