大型语言模型(LLM)于2019年首次亮相。OpenAI于2019年2月正式发布了GPT-2模型,Google则于2019年10月正式发布了BERT模型。 LLM最显著的特点是,它们可以摄取数TB的公开可用文本数据集,从这些数据中进行自监督学习,并成为在词与词、句与句、段与段连续性方面的专家。 我在本次讲座中的目标是突出LLM的一些重要方面,基于Transformers的神经网络架构,以及它们如何进行无监督学习等。 我将通过对BERT的解释来说明几个LLM的概念。这样做的主要原因是,我与BERT的关系几乎可以追溯到它诞生的那一年。而GPT模型最近才进入我的视野。