【CVPR2022】以人为中心感知的多模态预训练 - 专知

会员服务 ·

0

【CVPR2022】以人为中心感知的多模态预训练

2022 年 3 月 28 日 专知

以人为中心的感知在视觉和图形学中起着至关重要的作用。但是他们的数据注释非常昂贵。因此，希望有一个通用的预训练模型，作为数据高效的下游任务转移的基础。为此，我们提出了以人为中心的多模态对比学习框架HCMoCo，该框架利用人类数据的多模态特性(如RGB、深度、2D关键点)来进行有效的表示学习。该目标面临两个主要挑战: 多模态数据的密集预训练，稀疏人类先验的有效利用。为了解决这一问题，我们设计了一种新型的密集样本内对比学习和稀疏结构感知对比学习目标，通过层次化学习具有连续和有序特征分布和结构感知语义一致性的模态不变潜空间。HCMoCo通过组合异构数据集为不同的模态提供预训练，这允许有效地使用现有的特定于任务的人类数据。在四个不同模式的下游任务上的大量实验证明了HCMoCo的有效性，特别是在数据效率设置下(DensePose Estimation和Human Parsing提高了7.16%和12%)。此外，通过探索跨模态监督和缺失模态推理，我们证明了HCMoCo的多功能性，验证了它在跨模态联想和推理方面的强大能力。

https://www.zhuanzhi.ai/paper/3e8a73c1d485a5e417b1e659558792c0

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“HMCO” 就可以获取《【CVPR2022】以人为中心感知的多模态预训练》专知下载链接

请扫码加入专知人工智能群（长按二维码），或者加专知小助手微信（zhuanzhi02），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG、论文等）交流~

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

专知会员服务

20+阅读 · 2022年4月4日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2022】带噪声标签的少样本学习

【CVPR2022】带噪声标签的少样本学习

专知

1+阅读 · 2022年4月15日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

专知

0+阅读 · 2022年4月4日

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

专知

1+阅读 · 2022年3月30日

【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

专知

0+阅读 · 2022年3月22日

【CVPR2022】自动驾驶中的伪双目三维目标检测

【CVPR2022】自动驾驶中的伪双目三维目标检测

专知

2+阅读 · 2022年3月19日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

多用户协作移动业务云的构建与资源优化技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能车驾驶脑认知技术、平台与转化研究

国家自然科学基金

3+阅读 · 2013年12月31日

无人车越野环境感知关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于环境感知的应急响应知识需求研究

国家自然科学基金

5+阅读 · 2008年12月31日

Semi-Supervised Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Arxiv

0+阅读 · 2022年4月19日

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Anomaly Detection in Autonomous Driving: A Survey

Arxiv

0+阅读 · 2022年4月17日

3D Compositional Zero-shot Learning with DeCompositional Consensus

3D Compositional Zero-shot Learning with DeCompositional Consensus

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

An alternative approach for distributed parameter estimation under Gaussian settings

Arxiv

0+阅读 · 2022年4月14日

Your "Labrador" is My "Dog": Fine-Grained, or Not

Arxiv

27+阅读 · 2021年2月17日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

多模态预训练

相关VIP内容

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

专知会员服务

20+阅读 · 2022年4月4日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【CVPR2022】带噪声标签的少样本学习

【CVPR2022】带噪声标签的少样本学习

专知

1+阅读 · 2022年4月15日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

【CVPR2022】LAKe-Net:通过定位对齐关键点实现拓扑感知点云完成

专知

0+阅读 · 2022年4月4日

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

专知

1+阅读 · 2022年3月30日

【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

专知

0+阅读 · 2022年3月22日

【CVPR2022】自动驾驶中的伪双目三维目标检测

【CVPR2022】自动驾驶中的伪双目三维目标检测

专知

2+阅读 · 2022年3月19日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

相关基金

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

多用户协作移动业务云的构建与资源优化技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能车驾驶脑认知技术、平台与转化研究

国家自然科学基金

3+阅读 · 2013年12月31日

无人车越野环境感知关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于环境感知的应急响应知识需求研究

国家自然科学基金

5+阅读 · 2008年12月31日

相关论文

Semi-Supervised Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Arxiv

0+阅读 · 2022年4月19日

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Anomaly Detection in Autonomous Driving: A Survey

Arxiv

0+阅读 · 2022年4月17日

3D Compositional Zero-shot Learning with DeCompositional Consensus

3D Compositional Zero-shot Learning with DeCompositional Consensus

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

An alternative approach for distributed parameter estimation under Gaussian settings

Arxiv

0+阅读 · 2022年4月14日

Your "Labrador" is My "Dog": Fine-Grained, or Not

Arxiv

27+阅读 · 2021年2月17日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

大家都在搜

大型语言模型

CMU博士论文

国防科技创新

软件无线电

再见，TD-SCDMA！

微信扫码咨询专知VIP会员