https://edoc.ub.uni-muenchen.de/28766/
迁移学习旨在将在特定领域中解决特定任务时所学到的知识分别迁移到其他任务或领域中。虽然这种范式早在2010年代初就被应用于计算机视觉领域,但大约五年后,它彻底改变了自然语言处理领域。本文论述了在应用和研究这类模型体系结构时必须考虑和注意的三个关键方面。这项工作的第一部分解决了预训练语言模型公平比较的定义的关键方面。与经典的机器学习相反,定义模型本质上是什么并不简单,因为模型不仅是架构,而且还包括完整的预训练过程(预训练文本语料库和大量的计算能力)。除此之外,模型大小也起着至关重要的作用,因为有时对于一些从业人员或设备来说,它可能会非常大,这就是为什么在比较最先进的(SOTA)模型时,也应该考虑它。第一篇有贡献的文章提高了对上述问题的认识,并在执行或评估模型比较时提出了潜在的规避措施。
在第二部分中,评估了几种最先进的架构在一组复杂任务上的有用性。对于贡献的第二篇文章,在将开放式问题的答案自动分类到一组预定义类别的任务上评估了模型的性能。这展示了社会科学家普遍面临的一个(极端)多标签分类任务。与此同时,还提供了用于机器学习目的的美国全国选举研究(ANES 2008)的完全可重复的数据准备。第三个贡献是将预训练模型应用于假新闻检测任务,特别关注模型微调时对超参数的敏感性。给出了不同冻结技术、批量大小和序列长度以及学习率调度的实验和网格搜索结果。第四和第五篇贡献文章展示了工业用例:前者是关于试图通过持续的语言模型预训练来合并来自外部语料库的特定领域知识,目的是使语言模型成为特定领域的一种知识库。训练过程中固定间隔的评估已经显示出部分有希望的结果。后一个项目旨在建立一个管道,严重依赖预训练(德语)语言模型,以衡量客户中心的概念。关于汽车保险的非结构化客户反馈根据所处理的方面和各自的调性进行分类,然后(视觉上)总结在一个雷达图中。第六个贡献,试图为缩小一个很大的研究差距做出贡献:预训练模型的特定语言评估。本文在(基于方面的)情感分析任务上评估了目前现有的德语和多语言预训练架构,使得最先进结果的大幅增加。
第三部分通过展示基准研究的实验结果来完善本文的范围。在第七篇也是最后一篇文章中,缩小版的语言模型在一组约束外部因素的任务上进行了基准测试,这些外部因素包括计算能力预算和预训练文本语料库的大小。