**摘要:**具身智能体指能够根据指令完成某种或多种任务并且具备与物理环境交互能力的智能实体。其在服务机器人、智能教育、辅助医疗等领域具有巨大的潜在应用,是实现通用机器人的重要途径之一。随着多模态大模型的发展,具身智能体具备了更强的语言理解、推理判断和环境感知能力,极大地推动了该领域的发展。近年来,具身智能体领域涌现出许多优秀的研究工作,但缺乏系统的调查评述。为了帮助研究者更全面地了解这一领域,对具身智能体的研究进行了深入调研与展望。首先,介绍了多模态大模型,其次回顾了常用数据集和用于构建具身智能体的物理载体。然后,回顾了具身智能体的3个关键研究方向:具身大模型、高级任务规划和低级动作控制。最后,总结了具身智能体领域面临的挑战和存在的局限性,并展望了未来的发展方向。该综述为研究者提供了有价值的参考,旨在促进具身智能体领域的进一步发展与创新。 **关键词:**具身智能体,多模态大模型,机器人,视觉语言模型,具身智能