研究背景构建类人化具身智能体是机器人、虚拟现实和沉浸式技术领域的重要目标。尽管并非所有AI系统都需要模仿人类,但具有类人特征的智能体在远程呈现、辅助机器人和沉浸式游戏等特定应用中具有显著优势。类人外观增强了虚拟环境中的社交存在感和参与度,类人运动使机器人能够直接从人类演示中学习并在为人类设计的空间中使用人类工具高效操作,而类人推理则提高了可解释性和决策能力。然而,实现这些能力面临着重大的技术挑战。研究内容与方法本论文从外观、运动和推理三个关键方向探索类人化具身智能体的构建:类人外观:研究重点在于创建数字环境中与人类相似的具身智能体。提出了一种基于逆向物理和逆向渲染的新框架,从视频数据中重建逼真、可动画化的数字人类。该方法通过基于物理的模拟器和渲染器,保留了细粒度的视觉细节,同时捕捉衣物的物理动态,实现了逼真的服装运动和对新动作的鲁棒泛化。类人运动:研究提出了HumanPlus系统,通过"影子学习"将人类运动迁移到人形机器人上,使机器人能够直接从人类演示中学习复杂技能。通过这种方式收集的演示数据进一步促进了自主技能的现实世界模仿学习。类人推理:研究探索了通过基础模型和思维链推理开发更通用策略的方法,以模拟类人推理并提升性能。提出将中间视觉预测作为视觉-语言-动作模型中的"视觉思维链",使智能体在多样化任务中实现更高性能。研究贡献本论文的主要贡献包括:提出了一种基于逆向物理和逆向渲染的数字人类重建框架,实现了逼真的外观和动态衣物模拟。开发了HumanPlus系统,通过影子学习实现人类运动到机器人的高效迁移,推动了机器人技能学习的实际应用。引入了视觉思维链的概念,通过中间视觉预测提升了智能体在复杂任务中的推理能力和性能。