【CVPR2025教程】大规模多模态模型的评估：挑战与方法 - 专知VIP

会员服务 ·

5

CVPR 2025 · 多模态模型 · 大型多模态模型 ·

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大规模多模态模型（LMMs）的迅速发展，人们对其安全性与潜在风险的关注也日益增加。这些担忧主要源于我们对其能力与局限性的认知尚不充分。在本次教程中，我们旨在填补这一空白，提供对 LMM 评估的全面概览。首先，我们从“评估什么”、“在哪里评估”以及“如何评估”这三个维度出发，梳理 LMM 评估的最新进展。接着，我们提出当前 LMM 评估中面临的若干关键挑战，例如数据污染和固定复杂度问题，并介绍应对这些挑战的方法。此外，我们还将探讨包括可信度、鲁棒性与公平性在内的关键评估指标，并评估 LMM 在自然科学与社会科学等多种下游任务中的表现。最后，我们总结了一些广泛使用的评估代码库与基准测试工具，以支持相关研究工作。我们希望本教程能推动学术界与工业界持续关注 LMM 的安全性、责任性与准确性，共同促进多模态人工智能的健康发展。

https://ucsb-mlsec.github.io/cvpr2025-tutorial-Evaluating-Large-Multi-modal-Models-Challenges-and-Methods/

成为VIP会员查看完整内容

5

相关内容

CVPR 2025

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

专知会员服务

18+阅读 · 3月2日

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知会员服务

45+阅读 · 2月27日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【ECCV2024教程】关于解耦与组合性的新兴趋势

【ECCV2024教程】关于解耦与组合性的新兴趋势

专知会员服务

21+阅读 · 2024年10月17日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

14+阅读 · 2022年2月16日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

51+阅读 · 2019年7月23日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

【干货】基于协同过滤的推荐系统实战（附完整代码）

【干货】基于协同过滤的推荐系统实战（附完整代码）

专知

76+阅读 · 2018年4月5日

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

专知

11+阅读 · 2018年2月26日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

我国马铃薯生产区域专业化研究——基于空间布局的视角

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

144+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

169+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

83+阅读 · 2023年3月21日

VIP会员

相关主题

多模态模型

大型多模态模型

相关VIP内容

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

专知会员服务

18+阅读 · 3月2日

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知会员服务

45+阅读 · 2月27日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【ECCV2024教程】关于解耦与组合性的新兴趋势

【ECCV2024教程】关于解耦与组合性的新兴趋势

专知会员服务

21+阅读 · 2024年10月17日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】扩散模型的二重性

医学图像分割中的通用模型：与任务特定方法的综述与性能比较

刚刚，CVPR 2025奖项出炉：牛津&Meta博士生王建元获最佳论文，谢赛宁摘年轻研究者奖

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

14+阅读 · 2022年2月16日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

51+阅读 · 2019年7月23日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

【干货】基于协同过滤的推荐系统实战（附完整代码）

【干货】基于协同过滤的推荐系统实战（附完整代码）

专知

76+阅读 · 2018年4月5日

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

专知

11+阅读 · 2018年2月26日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

我国马铃薯生产区域专业化研究——基于空间布局的视角

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

144+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

169+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

83+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员