【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI - 专知VIP

会员服务 ·

26

多模态理解 · Meta AI · Data2vec · Omnivore · FLAVA ·

2022 年 3 月 20 日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在过去的几年里，Meta AI产生了一系列的研究项目，每个项目都解决了多模态感知的一个重要挑战从解决用于训练的公开可用数据的短缺(Hateful 的模因)，到为视觉、语音和文本创建单一算法(Data2vec)，到建立跨多个任务工作的基础模型(FLAVA)，到找到正确的模型参数(Omnivore)，以及其他许多。综合来看，它们代表了一个明显的趋势: 在不久的将来，对多模态的理解将对更智能的AI系统至关重要。

成为VIP会员查看完整内容

68

相关内容

多模态理解

多模态理解

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【TPAMI2022】深度步态识别研究进展，Deep Gait Recognition: A Survey

【TPAMI2022】深度步态识别研究进展，Deep Gait Recognition: A Survey

专知会员服务

28+阅读 · 2022年3月1日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

55+阅读 · 2019年11月28日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

85+阅读 · 2019年11月15日

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

新智元

1+阅读 · 2022年2月15日

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

机器之心

0+阅读 · 2022年1月21日

多模态AI崛起，2022年人工智能5大发展趋势

多模态AI崛起，2022年人工智能5大发展趋势

CSDN

2+阅读 · 2022年1月20日

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

机器之心

0+阅读 · 2021年12月21日

10亿参数，10亿张图！Facebook新AI模型SEER实现自监督学习，LeCun大赞最有前途

10亿参数，10亿张图！Facebook新AI模型SEER实现自监督学习，LeCun大赞最有前途

新智元

0+阅读 · 2021年3月5日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

26+阅读 · 2019年2月9日

Yann LeCun、吴恩达的新年AI预测：强调“少样本学习”，AI恐慌在减少

Yann LeCun、吴恩达的新年AI预测：强调“少样本学习”，AI恐慌在减少

大数据文摘

10+阅读 · 2019年1月3日

AI界的State of the Art都在这里了

AI界的State of the Art都在这里了

机器之心

12+阅读 · 2018年12月10日

基于结构光方法的全向视觉测量与控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

面向协作生成服务的社交搜索研究

国家自然科学基金

0+阅读 · 2013年12月31日

交互式图像搜索中的小样本学习问题研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

指挥空间协作交互任务认知模型与通道整合方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于多特征视觉和多源信息融合的焊道识别智能方法及鲁棒性研究

国家自然科学基金

0+阅读 · 2012年12月31日

关于AI-半环簇与 Conway半环簇的研究

国家自然科学基金

1+阅读 · 2012年12月31日

高压下高能材料碱金属叠氮化物的结构与性质研究

国家自然科学基金

0+阅读 · 2012年12月31日

关于图顶点划分的 Thomassen 猜想

国家自然科学基金

0+阅读 · 2011年12月31日

Efficient Architecture Search for Diverse Tasks

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Advances in adversarial attacks and defenses in computer vision: A survey

Arxiv

22+阅读 · 2021年9月2日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Recent Advances and Trends in Multimodal Deep Learning: A Review

Arxiv

57+阅读 · 2021年5月24日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Meta Learning for End-to-End Low-Resource Speech Recognition

Meta Learning for End-to-End Low-Resource Speech Recognition

Arxiv

20+阅读 · 2019年10月26日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

A Survey on Dialogue Systems: Recent Advances and New Frontiers

Arxiv

11+阅读 · 2018年1月11日

VIP会员

相关主题

多模态理解

相关VIP内容

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【TPAMI2022】深度步态识别研究进展，Deep Gait Recognition: A Survey

【TPAMI2022】深度步态识别研究进展，Deep Gait Recognition: A Survey

专知会员服务

28+阅读 · 2022年3月1日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

55+阅读 · 2019年11月28日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

85+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

新智元

1+阅读 · 2022年2月15日

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

机器之心

0+阅读 · 2022年1月21日

多模态AI崛起，2022年人工智能5大发展趋势

多模态AI崛起，2022年人工智能5大发展趋势

CSDN

2+阅读 · 2022年1月20日

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

机器之心

0+阅读 · 2021年12月21日

10亿参数，10亿张图！Facebook新AI模型SEER实现自监督学习，LeCun大赞最有前途

10亿参数，10亿张图！Facebook新AI模型SEER实现自监督学习，LeCun大赞最有前途

新智元

0+阅读 · 2021年3月5日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

26+阅读 · 2019年2月9日

Yann LeCun、吴恩达的新年AI预测：强调“少样本学习”，AI恐慌在减少

Yann LeCun、吴恩达的新年AI预测：强调“少样本学习”，AI恐慌在减少

大数据文摘

10+阅读 · 2019年1月3日

AI界的State of the Art都在这里了

AI界的State of the Art都在这里了

机器之心

12+阅读 · 2018年12月10日

相关基金

基于结构光方法的全向视觉测量与控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

面向协作生成服务的社交搜索研究

国家自然科学基金

0+阅读 · 2013年12月31日

交互式图像搜索中的小样本学习问题研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

指挥空间协作交互任务认知模型与通道整合方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于多特征视觉和多源信息融合的焊道识别智能方法及鲁棒性研究

国家自然科学基金

0+阅读 · 2012年12月31日

关于AI-半环簇与 Conway半环簇的研究

国家自然科学基金

1+阅读 · 2012年12月31日

高压下高能材料碱金属叠氮化物的结构与性质研究

国家自然科学基金

0+阅读 · 2012年12月31日

关于图顶点划分的 Thomassen 猜想

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Efficient Architecture Search for Diverse Tasks

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Advances in adversarial attacks and defenses in computer vision: A survey

Arxiv

22+阅读 · 2021年9月2日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Recent Advances and Trends in Multimodal Deep Learning: A Review

Arxiv

57+阅读 · 2021年5月24日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Meta Learning for End-to-End Low-Resource Speech Recognition

Meta Learning for End-to-End Low-Resource Speech Recognition

Arxiv

20+阅读 · 2019年10月26日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

A Survey on Dialogue Systems: Recent Advances and New Frontiers

Arxiv

11+阅读 · 2018年1月11日

微信扫码咨询专知VIP会员