内容简介: 采用NLP预训练模型Bert的训练数据如果少的话,那么不足以训练复杂的网络;并且如果采用bert进行预训练则可以加快训练的速度;在运用预训练时,首先对参数进行初始化,找到一个好的初始点,那么对后续的优化将会产生巨大的影响。

说到利用深度学习来进行自然语言处理,必然绕不开的一个问题就是“Word Embedding”也 就是将词转换为计算机能够处理的向量,随之而来的人们也碰到到了一个根本性的问题,我们通常会面临这样的一个问题,同一个单词在不同语 境中的一词多义问题,研究人员对此也想到了对应的解决方案,例如在大语料上训练语境表示,从而得到不同的上下文情况的 不同向量表示。

Bert在模型层面上并没有新的突破,准确来说它更像是NLP领域 近期优秀模型的集大成者,Bert相比其他神经网络模型,同时具备了特征提取能力与语境表达能力,这是其他比如OPEN AI与ELMo所不能达到的。为了解决双向编码器循环过程中出现的间接“窥见”自己的问题,Bert采用了一个masked语言模型,将其他模型的思想恰到好处的融合起来了。

成为VIP会员查看完整内容
79

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈
人工智能头条
10+阅读 · 2018年10月25日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
相关资讯
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈
人工智能头条
10+阅读 · 2018年10月25日
相关论文
微信扫码咨询专知VIP会员