多模态大模型教程 | MLLM Tutorial @ ACM MM 2024 - 专知VIP

会员服务 ·

21

多模态大模型 · 大模型 ·

2024 年 10 月 25 日

多模态大模型教程 | MLLM Tutorial @ ACM MM 2024

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

教程网页：https://mllm2024.github.io/ACM-MM2024/

时间：墨尔本时间 2024年10月28日星期一，上午9点到中午12:30。对应北京时间 2024年10月28日星期一，上午6点到9:30

线下现场位置：Meeting Room 210, at Melbourne Convention and Exhibition Centre

线上参会Zoom：https://is.gd/Yv1hfr (ID: 857 2752 4712, Passcode: 951113)

近年来，随着大语言模型（LLMs）的出现（如OpenAI的ChatGPT系列，Meta的LLAMA系列，以及Flan-T5、Vicuna和Alpaca等等），全世界目睹了人工智能（AI）前所未有的智能能力。这些LLMs在理解语言方面展示了卓越的能力，预示着实现真正的通用人工智能（AGI）的日期不远。但实际上，我们人类生活在一个包含视觉、听觉、感觉等多种信息模态共存的世界里。这赋予了研究LLMs多模态感知和理解能力的必要性，以更快更好地实现与人类类似水平的AI，即AGI。这催生了多模态大语言模型（MLLMs）研究话题和热点。MLLMs通过启用多感官学习，使多模态以及多任务能力相辅相成。研究人员在文本LLMs前后增设了额外的编码器和解码器以接收其他模态的输入甚至生成，推动了如BLIP-2、Flamingo、MiniGPT-4、LLaVA、Emu、NExT-GPT、Gemini、Qwen、Qwen-VL, GPT-4v, PixelLM, Mini-Gemini, InternLM-XComposer2, Vitron, Unified-IO 2等等一系列MLLMs的火热发展。通过相关的survey可以看到，从2023年到2024年，各种新颖的MLLMs喷涌而出，揭示了多模态大语言模型研究研发热潮以及其重要性。

本教程系列已经成功在COLING 2024 (https://mllm2024.github.io/COLING2024/)、CVPR 2024（https://mllm2024.github.io/CVPR2024/）成功举办过，并且受到了大量的关注。本轮教程将会延续前面系列的成功，在ACM MM 2024（澳大利亚墨尔本）继续开展。我们将深入探讨MLLMs的最新进展，旨在面向各类相关研究群体，尤其是初学者们提供一个全面的、深入的MLLM的介绍，以帮助构建更强大、更高效、更接近人类智能水平的MLLMs和系统。

欢迎社区所有科研工作者参与教程（现场或者线上）。访问教程网页获取所有的教程slides、视频。本教程团队来自于新加坡国立大学、字节跳动、xAI、马里兰大学、上海交大、南洋理工大学、上海人工智能实验室以及 Skywork AI的多名资深学者、教授等，其都在多模态学习、MLLM方向上具备丰富的研究经验，有诸如LLAVA、NExT-GPT、SPHINX、Meta-Transformer、ImageBind-LLM、MMIU、MMT-Bench、Multimodal CoT的作者。

整个教程的内容将包括6个关键内容：

每位学者将会负责每一部分的教程讲解，最后所有学者将会组成一个penal，进行开放式的探讨，关于如何实现更加强大的面向AGI的多模态大模型：

时间安排表如下：

成为VIP会员查看完整内容

37

相关内容

多模态大模型

多模态大模型

【AAAI 2022】IBM Research《对抗性机器学习AdvML》最新教程（附slides与video）

【AAAI 2022】IBM Research《对抗性机器学习AdvML》最新教程（附slides与video）

专知会员服务

39+阅读 · 2022年3月18日

【脑机接口教程】BCI所需的主要组件和步骤，安全和伦理问题，以及该领域未来的发展概述，“Intro to Brain Computer Interface”

【脑机接口教程】BCI所需的主要组件和步骤，安全和伦理问题，以及该领域未来的发展概述，“Intro to Brain Computer Interface”

专知会员服务

30+阅读 · 2022年2月14日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

UC伯克利最新深度学习课程上线，强化学习大牛Sergey Levine授课（B站可看）

专知会员服务

33+阅读 · 2021年3月21日

哥伦比亚大学最新《机器学习》课程，Fall-B 2020 (Machine Learning)

专知会员服务

39+阅读 · 2020年11月3日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【新书】用Python六步掌握机器学习，第二版，469页pdf，使用Python进行预测数据分析的实用实现指南Mastering Machine Learning with Python in Six Steps, 2nd Edition A Practical Implementation Guide to Predictive Data Analytics Using Python

【新书】用Python六步掌握机器学习，第二版，469页pdf，使用Python进行预测数据分析的实用实现指南Mastering Machine Learning with Python in Six Steps, 2nd Edition A Practical Implementation Guide to Predictive Data Analytics Using Python

专知会员服务

88+阅读 · 2020年2月2日

华盛顿大学Yejin Choi「常识知识图谱在计算机视觉中的应用」附86页PPT及论文下载

华盛顿大学Yejin Choi「常识知识图谱在计算机视觉中的应用」附86页PPT及论文下载

专知会员服务

92+阅读 · 2020年1月8日

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

专知会员服务

156+阅读 · 2019年12月20日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

LightGCN推荐模型代码解读

LightGCN推荐模型代码解读

机器学习与推荐算法

23+阅读 · 2021年12月23日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

11+阅读 · 2020年7月16日

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

专知

10+阅读 · 2020年3月28日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知

17+阅读 · 2019年12月13日

2019最新-UC Berkeley-《深度学习入门课程》分享

2019最新-UC Berkeley-《深度学习入门课程》分享

深度学习与NLP

13+阅读 · 2019年3月1日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

第9弹：从零开始学习CNN架构 | 2017 CS231n

第9弹：从零开始学习CNN架构 | 2017 CS231n

AI研习社

21+阅读 · 2018年1月4日

【课程】斯坦福大学NLP大牛Dan和Chirs《自然语言处理》课件（附下载）

【课程】斯坦福大学NLP大牛Dan和Chirs《自然语言处理》课件（附下载）

专知

20+阅读 · 2017年12月2日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

极市平台

14+阅读 · 2017年8月2日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

1+阅读 · 2017年12月31日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

ONSET图像数据统计重建关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

华北克拉通破坏学术交流活动（第五阶段）

国家自然科学基金

5+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于GIS “胡焕庸线”以西人口增量空间分布与环境承载力研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心的移动自组织社交网络缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Trojan Cleansing with Neural Collapse

Arxiv

0+阅读 · 2024年11月19日

Federated Incremental Named Entity Recognition

Arxiv

0+阅读 · 2024年11月18日

Catalog of General Ethical Requirements for AI Certification

Arxiv

0+阅读 · 2024年11月15日

Towards a Fairer Non-negative Matrix Factorization

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

47+阅读 · 2023年3月22日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

Sequential Recommendation with Graph Neural Networks

Arxiv

15+阅读 · 2021年6月27日

Neural Architecture Search without Training

Neural Architecture Search without Training

Arxiv

10+阅读 · 2021年6月11日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员

相关主题

多模态大模型

相关VIP内容

【AAAI 2022】IBM Research《对抗性机器学习AdvML》最新教程（附slides与video）

【AAAI 2022】IBM Research《对抗性机器学习AdvML》最新教程（附slides与video）

专知会员服务

39+阅读 · 2022年3月18日

【脑机接口教程】BCI所需的主要组件和步骤，安全和伦理问题，以及该领域未来的发展概述，“Intro to Brain Computer Interface”

【脑机接口教程】BCI所需的主要组件和步骤，安全和伦理问题，以及该领域未来的发展概述，“Intro to Brain Computer Interface”

专知会员服务

30+阅读 · 2022年2月14日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

UC伯克利最新深度学习课程上线，强化学习大牛Sergey Levine授课（B站可看）

专知会员服务

33+阅读 · 2021年3月21日

哥伦比亚大学最新《机器学习》课程，Fall-B 2020 (Machine Learning)

专知会员服务

39+阅读 · 2020年11月3日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【新书】用Python六步掌握机器学习，第二版，469页pdf，使用Python进行预测数据分析的实用实现指南Mastering Machine Learning with Python in Six Steps, 2nd Edition A Practical Implementation Guide to Predictive Data Analytics Using Python

【新书】用Python六步掌握机器学习，第二版，469页pdf，使用Python进行预测数据分析的实用实现指南Mastering Machine Learning with Python in Six Steps, 2nd Edition A Practical Implementation Guide to Predictive Data Analytics Using Python

专知会员服务

88+阅读 · 2020年2月2日

华盛顿大学Yejin Choi「常识知识图谱在计算机视觉中的应用」附86页PPT及论文下载

华盛顿大学Yejin Choi「常识知识图谱在计算机视觉中的应用」附86页PPT及论文下载

专知会员服务

92+阅读 · 2020年1月8日

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

专知会员服务

156+阅读 · 2019年12月20日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2025】MixerMDM：可学习的人体运动扩散模型组合

【MIT博士论文】通过神经物理构建世界模型

AI教育的落地深度研究：复盘、对比和商业化

大规模推理模型的高效推理：综述

相关资讯

LightGCN推荐模型代码解读

LightGCN推荐模型代码解读

机器学习与推荐算法

23+阅读 · 2021年12月23日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

11+阅读 · 2020年7月16日

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

专知

10+阅读 · 2020年3月28日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知

17+阅读 · 2019年12月13日

2019最新-UC Berkeley-《深度学习入门课程》分享

2019最新-UC Berkeley-《深度学习入门课程》分享

深度学习与NLP

13+阅读 · 2019年3月1日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

第9弹：从零开始学习CNN架构 | 2017 CS231n

第9弹：从零开始学习CNN架构 | 2017 CS231n

AI研习社

21+阅读 · 2018年1月4日

【课程】斯坦福大学NLP大牛Dan和Chirs《自然语言处理》课件（附下载）

【课程】斯坦福大学NLP大牛Dan和Chirs《自然语言处理》课件（附下载）

专知

20+阅读 · 2017年12月2日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

极市平台

14+阅读 · 2017年8月2日

相关基金

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

1+阅读 · 2017年12月31日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

ONSET图像数据统计重建关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

华北克拉通破坏学术交流活动（第五阶段）

国家自然科学基金

5+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于GIS “胡焕庸线”以西人口增量空间分布与环境承载力研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心的移动自组织社交网络缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Trojan Cleansing with Neural Collapse

Arxiv

0+阅读 · 2024年11月19日

Federated Incremental Named Entity Recognition

Arxiv

0+阅读 · 2024年11月18日

Catalog of General Ethical Requirements for AI Certification

Arxiv

0+阅读 · 2024年11月15日

Towards a Fairer Non-negative Matrix Factorization

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

47+阅读 · 2023年3月22日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

Sequential Recommendation with Graph Neural Networks

Arxiv

15+阅读 · 2021年6月27日

Neural Architecture Search without Training

Neural Architecture Search without Training

Arxiv

10+阅读 · 2021年6月11日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

微信扫码咨询专知VIP会员