最新《弱监督预训练语言模型微调》报告，52页ppt - 专知VIP

会员服务 ·

2

预训练模型 · 弱监督学习 · 微调 ·

2020 年 12 月 26 日

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

迁移学习从根本上改变了自然语言处理(NLP)的处理范式。许多最先进的模型首先在大型文本语料库上进行预先训练，然后在下游任务上进行微调。然而，当我们对下游任务的监督有限且薄弱时，由于预训练模型的复杂度极高，过度微调往往会导致微调后的模型对下游任务的训练数据进行过拟合，而不能泛化到看不到的数据。

为了解决这一问题，我们提出了一种新的方法来微调预先训练的模型，以获得更好的泛化性能。我们提出的方法采用了三个重要成分: (1)平滑诱导正则化，有效地管理了大量模型的复杂性; (2) Bregman近端点优化，它是信任域方法的一个实例，可以防止恶意更新;(3)自训练，可以逐步改进模型拟合，有效抑制误差传播。我们的实验表明，在有限或弱监督的情况下，该方法明显优于现有的NLP任务。

成为VIP会员查看完整内容

38

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

专知会员服务

65+阅读 · 2021年2月23日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

少即是多？非参数语言模型，68页ppt

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

NLP领域中的迁移学习现状

NLP领域中的迁移学习现状

AI科技评论

7+阅读 · 2019年9月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

DeepMind网红博士300页论文出炉：面向NLP的神经迁移学习（附下载）

DeepMind网红博士300页论文出炉：面向NLP的神经迁移学习（附下载）

新智元

10+阅读 · 2019年3月27日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

人工智能学家

5+阅读 · 2018年1月21日

CMU邢波教授：基于双向语言模型的生物医学命名实体识别，无标签数据提升NER效果

CMU邢波教授：基于双向语言模型的生物医学命名实体识别，无标签数据提升NER效果

专知

8+阅读 · 2017年12月16日

Big Self-Supervised Models are Strong Semi-Supervised Learners

Arxiv

6+阅读 · 2020年10月26日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Structural Deep Clustering Network

Arxiv

3+阅读 · 2020年2月5日

Text Level Graph Neural Network for Text Classification

Text Level Graph Neural Network for Text Classification

Arxiv

9+阅读 · 2019年10月8日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

Object Detection in Videos by High Quality Object Linking

Arxiv

4+阅读 · 2019年4月8日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

预训练模型

弱监督学习

相关VIP内容

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

专知会员服务

65+阅读 · 2021年2月23日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

少即是多？非参数语言模型，68页ppt

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

NLP领域中的迁移学习现状

NLP领域中的迁移学习现状

AI科技评论

7+阅读 · 2019年9月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

DeepMind网红博士300页论文出炉：面向NLP的神经迁移学习（附下载）

DeepMind网红博士300页论文出炉：面向NLP的神经迁移学习（附下载）

新智元

10+阅读 · 2019年3月27日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

人工智能学家

5+阅读 · 2018年1月21日

CMU邢波教授：基于双向语言模型的生物医学命名实体识别，无标签数据提升NER效果

CMU邢波教授：基于双向语言模型的生物医学命名实体识别，无标签数据提升NER效果

专知

8+阅读 · 2017年12月16日

相关论文

Big Self-Supervised Models are Strong Semi-Supervised Learners

Arxiv

6+阅读 · 2020年10月26日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Structural Deep Clustering Network

Arxiv

3+阅读 · 2020年2月5日

Text Level Graph Neural Network for Text Classification

Text Level Graph Neural Network for Text Classification

Arxiv

9+阅读 · 2019年10月8日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

Object Detection in Videos by High Quality Object Linking

Arxiv

4+阅读 · 2019年4月8日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

微信扫码咨询专知VIP会员