【ETHZ博士论文】从视觉和语言中学习数字人，248页pdf

数字人类的研究在计算机视觉、计算机图形学和机器学习等研究领域中引起了广泛关注。这一日益增长的兴趣源于理解人类自我及数字人类在各种应用中的关键作用，包括增强现实/虚拟现实（AR/VR）中的虚拟存在、数字时尚、娱乐、机器人学和医疗健康等领域。然而，数字人类在跨学科应用中的广泛使用面临两大挑战：（1）捕捉的难度，因为现有方法依赖于复杂的系统，这些系统既耗时、劳动密集，又成本高昂；（2）理解的缺乏，即使在创建了数字人类之后，仍然存在对其三维表示的理解缺口，且将其与更广泛的世界知识整合的能力有限，从而限制了其有效利用。克服这些挑战对于释放数字人类在跨学科研究和实际应用中的潜力至关重要。为了解决这些挑战，本论文结合了计算机视觉、计算机图形学和机器学习的研究成果，开发了可扩展的数字人类捕捉和建模方法。这些方法包括使用图像、视频和文本描述等易获取的数据捕捉面部、身体、手部、头发和服装。更重要的是，我们不仅仅局限于捕捉，而是将研究范式转向理解和推理，借助大语言模型（LLMs）。例如，我们开发了第一个基础模型，它不仅能够从单张图像中捕捉三维人体姿势，还能够通过整合世界知识推理一个人在三维空间中的潜在下一步动作。本论文统一了从视觉和语言数据中捕捉和理解数字人类的过程——正如人类通过观察和解读世界的视觉和语言信息来理解世界一样。我们的研究首先开发了一个框架，用于从“野外”图像中捕捉详细的三维面部。该框架能够从单张图像中生成高度逼真且可动画化的三维面部，且无需配对的三维监督训练，在形状重建方面达到了最先进的精度。它有效地解耦了身份和表情细节，从而允许以不同表情动画化估计的面部。人类不仅仅是面部，我们接着开发了PIXIE，一种能够从单张图像估算具有逼真面部细节的可动画化全身三维虚拟人方法。通过引入注意力机制，PIXIE超越了之前的方法，精度更高，并能够创建表现力丰富、高质量的三维人类。除了人类身体外，我们还提出了SCARF和DELTA方法，用于从单目视频中捕捉分离的身体、服装、面部和头发，采用混合表示方法。由于服装和头发具有复杂的拓扑结构，使用像神经辐射场（NeRFs）这样的隐式表示方法来建模更为合适，而人类身体则更适合用网格（mesh）表示。SCARF通过将基于网格的人体与NeRFs服装和头发进行整合，结合了两者的优势。为了直接从单目视频中进行学习，我们引入了基于网格的体积渲染技术，使得可以直接从二维图像数据优化模型，而不需要三维监督。得益于解耦的建模方式，捕捉到的虚拟人服装可以迁移到任意体型上，这使其在虚拟试穿等应用中具有特别的价值。基于SCARF的混合表示，我们提出了TECA，它利用文本生成图像模型来创建逼真且可编辑的三维虚拟人。TECA比现有方法生成更为真实的虚拟人，并且允许进行编辑，得益于其组合设计。例如，用户可以输入“一个瘦女人，留着脏辫”这样的描述，生成带有纹理的三维头部网格和用于头发的NeRF模型。它还支持在虚拟人之间转移基于NeRF的发型、围巾和其他配件。尽管这些方法使捕捉人类变得更加可行，但更广泛的应用仍然需要理解人类行为的背景。传统的姿势估计方法通常通过裁剪图像来孤立主体，这限制了它们对完整场景的理解和推理能力。为了解决这个问题，我们开发了ChatPose，这是第一个用于理解和推理三维人体姿势的模型。ChatPose利用多模态的大语言模型（LLM），通过微调一个投影层将嵌入解码为三维姿势参数，进一步通过SMPL人体模型解码为三维人体网格。通过同时在文本到三维姿势和图像到三维姿势数据上进行微调，ChatPose首次展示了大语言模型能够直接推理三维人体姿势。这一能力使得ChatPose能够描述人类行为，生成三维姿势，并推理潜在的下一步动作，将感知与推理相结合。我们相信，本论文在扩大数字人类捕捉规模和推进三维人类理解方面的贡献，有潜力塑造未来以人为中心的研究，并推动其在各个领域的广泛应用。

成为VIP会员查看完整内容

相关内容

博士论文

关注 104

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】构建自适应性强的通用机器人，248页pdf

专知会员服务

36+阅读 · 6月10日

【CMU博士论文】生成式人工智能用于关键数字孪生体，246页pdf

专知会员服务

53+阅读 · 6月9日

【UIUC博士论文】迈向可信的大型语言模型，312页pdf

专知会员服务

38+阅读 · 6月8日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

67+阅读 · 1月13日