【MIT博士论文】多模态模型学习语言，138页pdf - 专知VIP

会员服务 ·

25

麻省理工学院 (MIT) · 多模态模型 · 语言模型 · 博士论文 ·

2022 年 12 月 23 日

【MIT博士论文】多模态模型学习语言，138页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

儿童和机器的语言习得是了不起的。然而，虽然儿童通过听相对少量的语言以及与人和周围环境的互动来学习，但神经语言模型需要更多的数据和监督，难以泛化到新领域，绝大多数情况下只能从文本中学习。本文探讨了关于儿童语言习得的知识——特别是儿童接受语言信息的规模和类型，他们如何使用反馈，以及他们如何以超出他们接触到的语言输入的系统方式进行概括——如何应用于多模态语言模型。本文的重点是:(1)基于视觉，用较少的数据训练弱监督语言模型;(2)探索模型在多模态域的泛化能力。第一种方法使用字幕视频训练语义解析器，将自然语言映射到逻辑形式，在没有解析树或任何其他注释的情况下进行学习。第二种方法从简单的观察视频转向使用机器人模拟器和世界状态来验证生成的逻辑形式的更动态的设置。这些方法专注于评估弱监督，训练和推理数据相对相似;探索了评估，其中推理数据与训练数据有很大不同，需要系统的泛化。一种方法测试了预训练和一种新的解码策略在网格世界中导航的作用;推理命令和动作序列在系统方面与训练不同。最后一种方法测试了当输入图像或文本中的人口统计特征与其学习到的社会偏见不同时，预训练的多模态transformer模型的泛化程度。

成为VIP会员查看完整内容

58

相关内容

麻省理工学院 (MIT)

麻省理工学院 (MIT)

麻省理工学院（Massachusetts Institute of Technology，MIT）是美国一所研究型私立大学，位于马萨诸塞州（麻省）的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉，该校的工程系曾连续七届获得美国工科研究生课程冠军，其中以电子工程专业名气最响，紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

62+阅读 · 2022年11月27日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

75+阅读 · 2022年9月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知

1+阅读 · 2022年11月27日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

专知

9+阅读 · 2022年9月25日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

面孔知觉学习的神经机制

国家自然科学基金

0+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

利用多模态脑成像技术研究形状学习的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

故事可视化技术在三维场景构建中的应用研究

国家自然科学基金

1+阅读 · 2008年12月31日

Learning Visual Representations via Language-Guided Sampling

Arxiv

0+阅读 · 2023年2月23日

Active Prompting with Chain-of-Thought for Large Language Models

Arxiv

0+阅读 · 2023年2月23日

Variational Disentanglement for Domain Generalization

Arxiv

1+阅读 · 2023年2月23日

Tracking Objects and Activities with Attention for Temporal Sentence Grounding

Tracking Objects and Activities with Attention for Temporal Sentence Grounding

Arxiv

0+阅读 · 2023年2月21日

Causal Social Explanations for Stochastic Sequential Multi-Agent Decision-Making

Arxiv

0+阅读 · 2023年2月21日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

已删除

Arxiv

32+阅读 · 2020年3月23日

VIP会员

相关主题

麻省理工学院 (MIT)

多模态模型

相关VIP内容

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

62+阅读 · 2022年11月27日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

75+阅读 · 2022年9月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知

1+阅读 · 2022年11月27日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知

1+阅读 · 2022年9月29日

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

专知

9+阅读 · 2022年9月25日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

面孔知觉学习的神经机制

国家自然科学基金

0+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

利用多模态脑成像技术研究形状学习的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

故事可视化技术在三维场景构建中的应用研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Learning Visual Representations via Language-Guided Sampling

Arxiv

0+阅读 · 2023年2月23日

Active Prompting with Chain-of-Thought for Large Language Models

Arxiv

0+阅读 · 2023年2月23日

Variational Disentanglement for Domain Generalization

Arxiv

1+阅读 · 2023年2月23日

Tracking Objects and Activities with Attention for Temporal Sentence Grounding

Tracking Objects and Activities with Attention for Temporal Sentence Grounding

Arxiv

0+阅读 · 2023年2月21日

Causal Social Explanations for Stochastic Sequential Multi-Agent Decision-Making

Arxiv

0+阅读 · 2023年2月21日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

已删除

Arxiv

32+阅读 · 2020年3月23日

微信扫码咨询专知VIP会员