Facebook开发者大会KeyNotes - 自监督学习减少99%标注、跨语种表示学习等 - 专知

会员服务 ·

0

Facebook开发者大会KeyNotes - 自监督学习减少99%标注、跨语种表示学习等

2019 年 5 月 3 日 专知

【导读】Facebook F8（开发者大会）刚在美国时间4月30日-5月1日于美国加利福尼亚州的圣何塞举行。第二天的大会介绍了Facebook中较为前沿的AI算法，如自监督学习、跨语种表示学习、图像理解、弱监督视频理解等。本文介绍F8中几个算法的亮点。

自监督学习

有监督学习依赖大量的人工标注，而弱监督学习可以将数据自身的一部分特性作为标签，通过预测这些标签来在没有人工标注的情况下预训练模型。例如，可以通过句子/图像的一部分，来预测句子/图像的剩余部分。由于不需要人工标注，我们可以基于大量的未标注数据来预训练模型：

预训练完成后，我们使用少量的标注数据，来Fine-tuning模型：

在某些任务上，自监督学习可以仅使用原先150分之1的训练数据：

也就是说，我们可以用更少的标注数据，来更好地理解内容：

跨语种表示学习

Facebook对于文本信息，可能会使用多个NLP模型来提取不同的信息。例如信息是否有害、是否销售帖等，然而全球有6000+个语种。为每个语种单独训练是非常庞大的工程。另外，一些小语种会面临缺乏大量语料的问题。Facebook的解决方案是将不同语种映射到同一个表示空间中，用统一空间中的表示，为每个任务训练唯一的模型来覆盖多语种的应用。

之前的算法已经可以将不同语种的词映射到统一的空间：

而今年，他们已经可以在句子级别上做这样的映射：

首先，用多层BiLSTM和Max-Pooling将句子映射成向量：

用统一的编码器和解码器进行多语种翻译任务。任务本身并不重要，重要的是通过该任务学习到的句子表示：

Facebook在93个语言、30个语系和22个文字系统上进行了上述训练：

用学到的句子表示，可以统一地为所有语种训练各种NLP任务：

更加全面的图像内容理解

历史算法：

新算法（PANOPTIC FPN）可以更加全面地理解图像，对比上面的结果可以看出，PANOPTIC FPN可以捕捉到背景中的树、天空、建筑等信息，从而更加全面地理解图像：

基于显著采样和弱监督学习的视频理解

在视频帧上进行显著采样：

利用视频的标签进行弱监督学习：

性能提升：

请关注专知公众号（点击上方蓝色专知关注）

后台回复“F8D2”就可以获取完整KeyNotes视频下载链接~

参考链接：

https://www.youtube.com/watch?v=j48PqBP-OA0

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎登录www.zhuanzhi.ai，注册登录专知，获取更多AI知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

请加专知小助手微信（扫一扫如下二维码添加），加入专知人工智能主题群，咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成！530+位同学在学习，现在报名，限时优惠！网易云课堂人工智能畅销榜首位！

点击“阅读原文”，了解报名专知《深度学习:算法到实战》课程

登录查看更多

7

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【AAAI2020图灵奖得主Yann Lecun最新演讲】自监督学习，44页ppt，了解后深度学习发展趋势

【AAAI2020图灵奖得主Yann Lecun最新演讲】自监督学习，44页ppt，了解后深度学习发展趋势

专知会员服务

179+阅读 · 2020年2月11日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

极市平台

5+阅读 · 2019年6月4日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

Yan Lecun 自监督学习：机器能像人一样学习吗？ 110页PPT+视频

Yan Lecun 自监督学习：机器能像人一样学习吗？ 110页PPT+视频

专知

29+阅读 · 2018年10月9日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Learning Visually Grounded Sentence Representations

Arxiv

5+阅读 · 2018年6月4日

Visual-textual Attention Driven Fine-grained Representation Learning

Arxiv

3+阅读 · 2018年4月26日

VIP会员

相关主题

自监督学习

相关VIP内容

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【AAAI2020图灵奖得主Yann Lecun最新演讲】自监督学习，44页ppt，了解后深度学习发展趋势

【AAAI2020图灵奖得主Yann Lecun最新演讲】自监督学习，44页ppt，了解后深度学习发展趋势

专知会员服务

179+阅读 · 2020年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

极市平台

5+阅读 · 2019年6月4日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

Yan Lecun 自监督学习：机器能像人一样学习吗？ 110页PPT+视频

Yan Lecun 自监督学习：机器能像人一样学习吗？ 110页PPT+视频

专知

29+阅读 · 2018年10月9日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

相关论文

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Learning Visually Grounded Sentence Representations

Arxiv

5+阅读 · 2018年6月4日

Visual-textual Attention Driven Fine-grained Representation Learning

Arxiv

3+阅读 · 2018年4月26日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员