近年来在深度学习模型方面的进步在各种计算机视觉任务中展现了令人印象深刻的能力,这促进了这些模型在现实世界视觉系统中的整合,例如智能设备。这种整合提出了新的挑战,因为模型需要满足复杂的现实世界要求。本论文致力于构建实用的深度学习模型,我们专注于视觉系统中的两个主要挑战:数据效率和可变性。我们通过提供一个通用模型适应框架来解决这些问题,该框架扩展了模型的实用能力。

在论文的第一部分,我们探索了用于高效表示的模型适应方法。我们展示了不同类型的高效数据表示的好处,包括来自视频编解码器的压缩视频模态、低比特特征以及稀疏化的帧和文本。通过使用这种高效表示,系统复杂性如数据存储、处理和计算可以大大减少。我们系统地研究了各种方法来提取、学习和利用这些表示,提出了新方法来适应机器学习模型。提出的方法包括一种具有粗到细蒸馏训练策略的压缩域视频识别模型、一种针对低比特视频和语言理解的任务特定特征压缩框架,以及一种用于稀疏化人类可解释视频输入的可学习标记稀疏化方法。我们展示了在各种应用中以更实用和高效的方式表示视觉数据的新视角。

论文的第二部分关注开放环境挑战,我们探索了模型适应新的、未见过的类别和领域。我们检查了当前识别模型中的实际限制,并引入了各种方法来增强模型在处理开放识别场景中的能力。这包括一个用于管理新类别和异常值的负面设想框架,以及一个用于处理未见过的领域数据的多域转换方法。我们的研究显示了朝向模型在真实世界应用中通过多样化数据环境导航的能力的有希望的轨迹。

https://academiccommons.columbia.edu/doi/10.7916/hz0n-pa15

成为VIP会员查看完整内容
25

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
35+阅读 · 2024年1月1日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
67+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
41+阅读 · 2023年11月12日
【MIT博士论文】多模态:模型、算法与应用,196页pdf
专知会员服务
114+阅读 · 2023年8月17日
【2022新书】深度学习归一化技术,117页pdf
专知
24+阅读 · 2022年11月25日
【干货书】优化算法,232页pdf
专知
26+阅读 · 2022年9月8日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
418+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员