人类具有从原始感官输入(如视频和音频)中学习强大感知能力的非凡能力,并且几乎不需要监督。尽管在建模高层次认知功能(如语言理解与生成)方面取得了巨大的近期进展,但我们目前最先进的计算机视觉模型在学习感知和表征物理世界的效率和性能方面,远远落后于人类水平。它们通常需要大量的训练数据,并且这些数据需要昂贵的手工标注,任务特定的架构,以及即便在模型参数和训练数据规模增大的情况下,性能提升也非常有限。在本论文中,我们研究了如何从原始未标注的视频数据构建可扩展的通用感知系统的问题。核心思想是训练一个大规模的世界模型,基于视觉数据。预训练的世界模型根据当前状态和额外干预预测可能的未来世界状态。我们进一步展示了,可以利用预测器生成的预测结果,以零-shot(零样本)方式提取广泛的视觉结构——如关键点、光流、分割和深度信息。 本论文分为三部分,我们在其中探索了无需手工标注的新范式,用于训练可扩展的通用感知系统。第一部分,我们提出了通过利用视频中的运动作为自监督信号来学习结构化场景表示的新方法。第二部分,概述了一个用于在视频数据上预训练大规模世界模型的通用框架,这反过来使得通过统一架构和任务接口能够零-shot地提取不同的视觉结构。第三部分,进一步通过解决不确定性管理的关键挑战,提升了世界模型的性能。

成为VIP会员查看完整内容
19

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】协作多机器人学习算法
专知会员服务
0+阅读 · 今天15:20
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
23+阅读 · 2024年11月27日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
25+阅读 · 2024年11月24日
【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
28+阅读 · 2024年8月23日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
15+阅读 · 2019年1月24日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
417+阅读 · 2023年3月31日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员