【NTU博士论文】视觉神经模型的资源高效学习，155页pdf - 专知VIP

会员服务 ·

17

新加坡南洋理工大学 · 神经模型 · 视觉语言模型 ·

2024 年 5 月 18 日

【NTU博士论文】视觉神经模型的资源高效学习，155页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人类智能的标志是能够通过应用从先前任务中学习到的相关知识来处理新任务。因此，人类在适应过程中只需要少量的新任务示例。相比之下，深度学习模型在实现这种卓越的泛化能力方面仍然落后于人类，特别是在数据有限的新任务中。这种学习方式被称为资源高效学习。在本论文中，我们探讨了面向具有视觉能力的深度学习模型的资源高效问题的公式化。我们首先研究了应用于长尾图像分类的纯视觉神经模型。在长尾图像分类中，尾类的训练样本数量稀少，而头类样本则丰富。训练分布的不平衡使得学习良好的尾类表示变得困难。我们提出了插值中心对比学习（ICCL）方法，通过利用丰富的头类样本来促进尾类表示的学习。我们在头类和尾类之间创建插值样本，并使用新的插值中心对比损失来优化表示。我们在多个长尾评估数据集上展示了ICCL的有效性。

接下来，我们将研究扩展到涉及图像和文本模态的视觉语言模型（VLMs）。我们调查了零样本视觉问答（VQA），该方法限制VLMs访问任何VQA训练样本。我们设计了一个模块化框架PnP-VQA，该框架执行零样本VQA并且不需要训练。我们利用自然语言和网络可解释性技术作为接口，结合多个预训练模型。具体来说，我们首先通过关注相关的图像区域生成多个问题引导的描述，然后将这些描述作为上下文输入到预训练语言模型中以回答问题。我们的问题引导描述能够捕捉详细的视觉属性并包含答案词，从而帮助问答模型获得正确答案。我们的PnP-VQA在多个VQA基准测试中实现了最先进的结果。

我们最后研究了视觉语言模型（VLMs）的零样本评估。至关重要的是，VLMs在零样本设置下的测试任务性能应反映其真实的泛化能力，这样我们才能对VLMs进行公平比较并跟踪其进展。当测试任务与VLM的训练任务高度相似时，该VLM的性能可能会高于那些没有这种相似性的其他VLMs。因此，我们进行了迁移学习实验，以研究训练任务和测试任务之间的相似性，这是在评估VLMs时通常未考虑的。此外，我们通过利用迁移性能上的因子分析，直接从数据中发现潜在的视觉语言技能。我们证明了因子分析是一种有效的数据驱动方法，可以识别出合理但令人惊讶的视觉语言技能。此外，我们通过提出一个新的基准测试OLIVE，解决了缺乏关注野外VLM评估的视觉语言基准的问题。OLIVE模拟了用户在实际、现实场景中对VLMs的多样化查询。

https://dr.ntu.edu.sg/handle/10356/174637

成为VIP会员查看完整内容

25

相关内容

新加坡南洋理工大学

新加坡南洋理工大学

新加坡南洋理工大学（南洋理工大学新加坡分校）是一所研究型公立大学，拥有工程、商业、科学、人文、艺术、社会科学、教育和医学的33000名本科生和研究生。

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

42+阅读 · 2024年6月7日

【博士论文】生成模型中的可控性与不确定性，214页pdf

【博士论文】生成模型中的可控性与不确定性，214页pdf

专知会员服务

46+阅读 · 2024年3月14日

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

25+阅读 · 2024年2月18日

【MIT博士论文】人工智能系统的组合泛化，194页pdf

【MIT博士论文】人工智能系统的组合泛化，194页pdf

专知会员服务

58+阅读 · 2023年11月15日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

55+阅读 · 2023年11月11日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

55+阅读 · 2023年11月10日

【CMU博士论文】原则性机器学习用于对社会有重大影响的决策制定, 136页pdf

【CMU博士论文】原则性机器学习用于对社会有重大影响的决策制定, 136页pdf

专知会员服务

28+阅读 · 2023年6月7日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

17+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

新加坡南洋理工大学

视觉语言模型

相关VIP内容

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

42+阅读 · 2024年6月7日

【博士论文】生成模型中的可控性与不确定性，214页pdf

【博士论文】生成模型中的可控性与不确定性，214页pdf

专知会员服务

46+阅读 · 2024年3月14日

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

25+阅读 · 2024年2月18日

【MIT博士论文】人工智能系统的组合泛化，194页pdf

【MIT博士论文】人工智能系统的组合泛化，194页pdf

专知会员服务

58+阅读 · 2023年11月15日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

55+阅读 · 2023年11月11日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

55+阅读 · 2023年11月10日

【CMU博士论文】原则性机器学习用于对社会有重大影响的决策制定, 136页pdf

【CMU博士论文】原则性机器学习用于对社会有重大影响的决策制定, 136页pdf

专知会员服务

28+阅读 · 2023年6月7日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《面向无人机集群的避障动态传感器覆盖算法》最新38页

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

17+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

相关基金

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员