打破虚实界限，还原一个真实的立体世界有多难？

会员服务 ·

打破虚实界限，还原一个真实的立体世界有多难？

2022 年 7 月 25 日 36氪

一个人人皆是创造者的时代即将到来。

1958年，阿尔弗雷德·希区柯克的电影《VERTIGO》上映，人们发现，在一只眼睛的特写镜头中，有个螺旋动画正围绕着瞳孔缓缓放大，而即便是这样简单的“特效”，却在当时引起了人们疯狂的讨论。

在进入千禧年后，那些令人惊叹的“特效”在动画电影、在游戏中变得随处可见。而近几年，随着VR、AR的热潮爆发，各种沉浸式视觉体验更是层出不穷。

当人们将目光投向计算机图形学（Computer Graphics），才陡然发觉，从视频、游戏到数字孪生、虚拟人等，计算机图形学早已一步步渗透，在诸多领域创造出“视觉盛宴”——以先进技术还原真实的三维世界。

而实际上，除了底层技术的进步，开发者和技术服务商围绕三维世界的产品创新和应用研究似乎也从未停止。

从二维平面到三维立体，“新世界”的图景逐渐展开

计算机图形学走过半个世纪，以电影为起点，延伸到游戏，直至今天逐渐渗透至与人们日常生活息息相关的各个角落，可以说，世界上任何二维平面内容，几乎都能以立体的形式呈现。

其中相当重要的应用实践便是数字孪生。通过将现实世界的物理要素在虚拟世界中等比例复刻，从而构建出新的数字世界。这方面的技术成果正被广泛应用于三维GIS、智慧城市、智慧园区等领域。在今年6月，国内最大的GIS软件厂商超图，便与华为HMS Core联合推出了高保真三维GIS插件，可以将普通的GIS数据转化为更丰富的三维视觉, 其所具备的全球级别数据影像加载能力，能够将城市建筑以及街景数据动态加载呈现，实现更高清、更具真实感的场景体验和视觉效果。

虚拟人的发展也在近些年备受关注。相较于数字孪生等场景来说，虚拟人与大众生活更密切相关，它的应用也帮助了图形技术走进大众视野。伴随技术的进步，虚拟人的视觉效果越来越好，也变得越来越难辨认。2021计算机图形学顶会SIGGRAPH中，英伟达CEO黄仁勋进行了1小时48分钟的演讲，其中穿插了14秒的虚拟人“黄仁勋”。不少观众感叹画面中出现的虚拟人“黄仁勋”跟真人十分相似，几乎做到了以假乱真的效果。

图形技术不仅是在上述领域“开花结果”，在更多场景其实都已悄无声息展现：在直播、短视频内容中，AYAYI、洛天依等虚拟人逐渐走向“3D模型+实时动作捕捉”模式；在医学领域，医学扫描的一系列图像可以做成三维结构，医生可以放大目标器官，从各个角度观察细节；艺术展也能搬到线上，构建一个虚拟画廊，潮玩鼻祖KAWS便与游戏《堡垒之夜》合作，将线下展览搬到游戏中，进行虚拟再现。似乎，人类数字世界的新图景，正在缓缓展开。

但不可忽视的现实是，至少到目前为止，“三维世界”的真实还原和广泛应用比想象起来要复杂。

比如，在元宇宙概念下各大品牌纷纷构建自己的虚拟人，一个非常基础的虚拟人往往也需要数月的时间周期以及巨额的投入成本，但即便如此也很难做到完全拟人的效果。

同时，在构建三维世界的过程中，需要提前采集和处理大量的三维数据，这对算法和算力也提出了更高的要求。

尽管技术应用阻碍重重，但科技企业仍努力在图形图像领域积累前沿技术，寻找解决方案。

以计算机图形学视角，看三维世界的技术支撑

计算机图形学专家Edward Angel曾提及，“4000 多年前，古巴比伦人在石块上绘制建筑物的平面图；2000 多年前，古希腊人用图形表达建筑思想……”而在今天，开发者们正通过图形技术构建新世界，在虚拟的空间中创造具备真实感的生物、物品、建筑乃至城市等所有现实世界中存在的事物。

当我们回到具体的技术层面，站在底层的视角来看时，你会发现图形打造三维世界是一个复杂的体系，完成“建模-渲染-交互”这一漫长的链条，可能也仅仅只是拥有了搭建三维世界的基础能力而已。

那么，我们如何理解“建模-渲染-交互”这个链条呢？首先，通过在真实世界中获取三维信息，在计算机中形成模型，比如将人脸的2D画面生成3D模型，便是一个基础建模的过程，而后还要通过骨骼绑定等技术来驱动模型，实现表情、动作等动态效果。其次，将材质、光影等复杂的细节通过渲染进行模拟和呈现。另外，交互则是模拟不同三维对象之间的相互反应和作用。

工欲善其事必先利其器，对于单个开发者来说，想要给用户打造全场景的沉浸式体验，独立开发所有的技术，实在是过于困难，如果能够站在巨人的肩膀上，善用外部的工具或相关技术，往往可以起到事半功倍的作用。在这方面，一些科技企业也对外开放了构建三维世界的能力，华为移动核心服务HMS Core就是其中之一。

相信各位或多或少都看到过各式各样的虚拟人，它们大多数不仅能够与观众打招呼，还能够进行真人化的跳舞等多样性互动，这背后就与3D建模还有渲染技术的进步密不可分。实际上，HMS Core早早面向开发者推出了简单易用的3D建模服务，通过集成这项服务，就可以让用户无需依赖特殊硬件（RGBD\LiDAR等），使用普通手机拍摄物体即可进行自动建模。

如果是人体模型，要想驱动它们，还得赋予模型骨骼，这决定了模型后续的肢体动作的自然度和流畅性。通过HMS Core 3D建模服务，可以实现二足人形物体自动骨骼绑定，提升模型趣味性，降低普通用户3D动画创作门槛。

而实际上，想要实现逼真的视觉效果，不仅仅要关注模型本身，人物周围的光影，以及受环境影响而变化的肤色纹理等细节也都不容忽视。基于这种对真实场景的高品质还原需求，HMS Core 3D Engine可以针对多种场景提供渲染服务，实现千万级面片数模型的高效处理，帮助开发者打造超写实视觉体验。当开发者希望还原逼真的光影效果，3D Engine所具有的实时全局光照、动态多光源以及多种后处理能力就能发挥很好的作用。

三维世界的实现，不单纯只是视觉呈现，用户如何与之交互，亦是开发者的重要考量。如果将一个极具真实感的3D人形摆在用户面前，用户可能会下意识地希望与对方互动并获得反馈。也就是说，只有拥有交互体验后，3D模型才能变得“鲜活”起来。HMS Core AR Engine通过整合核心算法为开发者提供了一系列的AR能力，助力应用融合虚拟世界与现实世界。AR Engine的运动跟踪能力主要通过终端设备摄像头标识特征点，并跟踪这些特征点的移动变化，来不断跟踪终端设备位置和姿态。这种“跟踪”不仅仅是对人体和人脸的识别跟踪，还包括了运动跟踪、环境跟踪。运动跟踪能根据人体的移动而变化，比如在手部动作时，AR Engine可以精确到根据手部的21个骨骼点进行交互控制。而环境跟踪则能制造交互时的“氛围感”，通过跟踪光照信息，检测水平、垂直平台及其边界，识别和跟踪3D物体的位置和姿态等。

基于实现这些精细效果的的底层技术，开发者们可以为用户提供更丰富的交互体验。B站会员购就基于HMS Core AR Engine能力推出了AR塔罗牌功能，用户扫描特定卡牌图案就可体验AR特效并与之互动。据B站会员购的统计数据，此类具备AR特效的商品销量更佳，AR活动参与率是普通游戏参与率的2倍左右，整体帮助了会员购平台收入提升。

我们可以看到，在图形技术的基础上，通过接入像HMS Core这样的技术服务商提供的开放能力，开发者可以实现应用的高效开发，将精力放在应用体验的创新，不断探索并生产3D数字内容，丰富应用场景。

成都酷咔是一家擅长IP产品打造的游戏开发团队，与华为在VR内容方面有非常紧密的合作。在高效便捷地集成HMS Core VR Engine后，成都酷咔团队表示，无论从硬件还是软件、交互还是画面效果上，HMS Core都能够帮助开发团队更加专注于内容创新。

技术虽然动人心魄，但不可否认的是，三维内容的高效生产与商业应用依然面临着许多挑战。

三维世界质与效的挑战，下一代技术应用何解？

在过去的数年时间里，元宇宙、NFT、数字人等五花八门的概念一次又一次掀起热浪，我们可能无法定论它们是真正的未来趋势还是当下的一场炒作，但这片浪潮确实正推动着各项图形技术快速向前。而每场革命的开始，往往以各项分支技术的探索、创新为起点，以最终商业的应用、行业的赋能为终点。

纵观这些革命性进程的历史，你会发现，技术开拓和商业应用之间，一直存在着某种鸿沟。技术探索中的“鹦鹉学舌”很容易，但想要“改写规则”却很难。这是因为，从技术认知、到标准化解决方案、再到规模化应用的过程中，都存在着对质量、效率和成本的无尽追求。

换句话说，在二维世界跃迁至三维时，由于制作工序、流程的增多，对开发人员的技能、效率都提出了更高的要求，整体制作成本也会因此而升高不少。

质与效的缺口越大，图形技术服务商的机会也越多。这也是为何科技企业都在不断关注三维内容创作流程，并根据不同需求提供更为简单、高效、易用的开发工具。基于图形领域的技术沉淀，华为正通过HMS Core将图形技术对外开放，包括3D Engine、3D建模服务、AR Engine等一系列的产品。与此同时，这些产品本身也在不断丰富其能力边界。

底层技术平台存在的价值不仅仅是便利了开发者的工具开发，也同样提升了用户的内容创作体验。3D内容社交应用GoAct，便将自己定位为“人人都能用的3D扫描创作应用”，通过集成HMS Core 3D建模服务，用户仅需拍摄照片上传云端，即可实现高精度3D模型的快速自动生成，以更低门槛的方式让一般用户进行3D创作。

看向更深处，这些工具的诞生和应用，也是因为支撑三维内容创作的底层技术在不断发展，甚至跨越到新的阶段。我们有充分的理由相信，在不远的将来，下一代图形技术将变得越来越轻松，一个人人皆是创造者的时代即将到来。