人工智能(AI)涵盖了跨越各种模态的知识获取和现实世界的基础。作为一个多学科研究领域,多模态大型语言模型(MLLMs)最近在学术界和工业界引起了越来越多的关注,显示出通过MLLMs实现人类水平AI的前所未有的趋势。这些大型模型通过集成和建模多种信息模态(包括语言、视觉、听觉和感官数据),为理解、推理和规划提供了有效的工具。本教程旨在全面综述MLLMs领域的前沿研究,重点关注四个关键领域:MLLM架构设计、指令学习、多模态推理和MLLMs的效率。我们将探讨技术进步,总结主要挑战,并讨论未来研究的潜在方向。