【KAUST博士论文】高效视觉语言基础模型学习，197页pdf - 专知VIP

会员服务 ·

21

博士论文 · 视觉语言学习 · 基础模型 ·

2024 年 1 月 1 日

【KAUST博士论文】高效视觉语言基础模型学习，197页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉-语言模型的迅速扩展需要大量资源，包括计算和数据。越来越多的人对高效训练这些模型并将它们用于各种下游任务产生了兴趣。本论文提出了几项旨在提高视觉-语言模型训练中的学习和数据效率的贡献，并阐明了如何在下游任务中利用它们。论文围绕三个关键领域展开：

学习高效的视觉-语言基础模型：本节讨论了VisualGPT，这是一个数据高效的图像描述模型，探讨了如何有效地将预训练的语言模型整合到视觉-语言模型中。它还涵盖了MiniGPT-4，旨在将先进的大型语言模型技术应用于视觉-语言模型，从而增强它们的能力。此外，还介绍了MiniGPT-v2，它使大型语言模型能够作为一个通用界面，统一多种视觉-语言任务。
学习高效的视觉-语言模型，用于开放和长尾感知任务：这部分包括ZeroSeg，它研究了如何高效地将从CLIP视觉编码器中学到的视觉-语言概念转移到开放词汇的语义分割中，而无需像素级监督。它还研究了RelTransformer，通过利用局部、全局和增强的记忆层次的视觉上下文来识别长尾视觉关系。
在开发更高效的视频-语言理解模型中的数据贡献：本节介绍了一个大规模的视频数据集，重点是复合性地识别动物及其行为。对这些模型进行广泛的评估，与常见基准相比显示出显著的进步。这些发现对于视觉-语言模型中高效学习的持续发展有所贡献。这些洞见和方法论旨在加速实际应用，并为未来在视觉-语言领域的研究奠定基础。

成为VIP会员查看完整内容

36

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月8日

【MIT博士论文】投资管理中的数据科学，372页pdf

【MIT博士论文】投资管理中的数据科学，372页pdf

专知会员服务

45+阅读 · 2023年11月25日

【MIT博士论文】垂直领域生成式模型，107页pdf

【MIT博士论文】垂直领域生成式模型，107页pdf

专知会员服务

68+阅读 · 2023年11月13日

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

专知会员服务

42+阅读 · 2023年11月12日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

55+阅读 · 2023年11月10日

【MIT博士论文】数据驱动的动态决策:算法、结构和复杂性分析，404页pdf

【MIT博士论文】数据驱动的动态决策:算法、结构和复杂性分析，404页pdf

专知会员服务

70+阅读 · 2023年9月22日

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

专知会员服务

48+阅读 · 2023年9月11日

【MIT博士论文】多模态：模型、算法与应用，196页pdf

【MIT博士论文】多模态：模型、算法与应用，196页pdf

专知会员服务

114+阅读 · 2023年8月17日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

专知会员服务

21+阅读 · 2022年12月22日

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

专知

1+阅读 · 2023年4月8日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

28+阅读 · 2022年11月25日

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

45+阅读 · 2022年11月5日

【干货书】机器学习线性代数与优化，507页pdf

【干货书】机器学习线性代数与优化，507页pdf

专知

22+阅读 · 2022年7月28日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络社会的工作流关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多变量形态学分水岭理论及其在多通道图像处理中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

视觉语言学习

相关VIP内容

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月8日

【MIT博士论文】投资管理中的数据科学，372页pdf

【MIT博士论文】投资管理中的数据科学，372页pdf

专知会员服务

45+阅读 · 2023年11月25日

【MIT博士论文】垂直领域生成式模型，107页pdf

【MIT博士论文】垂直领域生成式模型，107页pdf

专知会员服务

68+阅读 · 2023年11月13日

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

专知会员服务

42+阅读 · 2023年11月12日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

55+阅读 · 2023年11月10日

【MIT博士论文】数据驱动的动态决策:算法、结构和复杂性分析，404页pdf

【MIT博士论文】数据驱动的动态决策:算法、结构和复杂性分析，404页pdf

专知会员服务

70+阅读 · 2023年9月22日

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

专知会员服务

48+阅读 · 2023年9月11日

【MIT博士论文】多模态：模型、算法与应用，196页pdf

【MIT博士论文】多模态：模型、算法与应用，196页pdf

专知会员服务

114+阅读 · 2023年8月17日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

【DTU博士论文】面向自然语言处理的深度潜变量模型，232页pdf

专知会员服务

21+阅读 · 2022年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】面向企业的图学习扩展：生产级图学习与推理，485页pdf

AI智能体编程：技术、挑战与机遇综述

【国家标准】数据安全技术数据安全风险评估方法

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

相关资讯

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

【牛津大学博士论文】深度学习在基于结构的药物发现中的应用，362页pdf

专知

1+阅读 · 2023年4月8日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

28+阅读 · 2022年11月25日

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

45+阅读 · 2022年11月5日

【干货书】机器学习线性代数与优化，507页pdf

【干货书】机器学习线性代数与优化，507页pdf

专知

22+阅读 · 2022年7月28日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

相关基金

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络社会的工作流关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多变量形态学分水岭理论及其在多通道图像处理中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员