【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf - 专知VIP

会员服务 ·

28

大型语言模型 · 慕尼黑大学 · 大模型 · 博士论文 ·

2023 年 4 月 19 日

【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

https://edoc.ub.uni-muenchen.de/28766/

迁移学习旨在将在特定领域中解决特定任务时所学到的知识分别迁移到其他任务或领域中。虽然这种范式早在2010年代初就被应用于计算机视觉领域，但大约五年后，它彻底改变了自然语言处理领域。本文论述了在应用和研究这类模型体系结构时必须考虑和注意的三个关键方面。这项工作的第一部分解决了预训练语言模型公平比较的定义的关键方面。与经典的机器学习相反，定义模型本质上是什么并不简单，因为模型不仅是架构，而且还包括完整的预训练过程(预训练文本语料库和大量的计算能力)。除此之外，模型大小也起着至关重要的作用，因为有时对于一些从业人员或设备来说，它可能会非常大，这就是为什么在比较最先进的(SOTA)模型时，也应该考虑它。第一篇有贡献的文章提高了对上述问题的认识，并在执行或评估模型比较时提出了潜在的规避措施。

在第二部分中，评估了几种最先进的架构在一组复杂任务上的有用性。对于贡献的第二篇文章，在将开放式问题的答案自动分类到一组预定义类别的任务上评估了模型的性能。这展示了社会科学家普遍面临的一个(极端)多标签分类任务。与此同时，还提供了用于机器学习目的的美国全国选举研究(ANES 2008)的完全可重复的数据准备。第三个贡献是将预训练模型应用于假新闻检测任务，特别关注模型微调时对超参数的敏感性。给出了不同冻结技术、批量大小和序列长度以及学习率调度的实验和网格搜索结果。第四和第五篇贡献文章展示了工业用例:前者是关于试图通过持续的语言模型预训练来合并来自外部语料库的特定领域知识，目的是使语言模型成为特定领域的一种知识库。训练过程中固定间隔的评估已经显示出部分有希望的结果。后一个项目旨在建立一个管道，严重依赖预训练(德语)语言模型，以衡量客户中心的概念。关于汽车保险的非结构化客户反馈根据所处理的方面和各自的调性进行分类，然后(视觉上)总结在一个雷达图中。第六个贡献，试图为缩小一个很大的研究差距做出贡献:预训练模型的特定语言评估。本文在(基于方面的)情感分析任务上评估了目前现有的德语和多语言预训练架构，使得最先进结果的大幅增加。

第三部分通过展示基准研究的实验结果来完善本文的范围。在第七篇也是最后一篇文章中，缩小版的语言模型在一组约束外部因素的任务上进行了基准测试，这些外部因素包括计算能力预算和预训练文本语料库的大小。

成为VIP会员查看完整内容

47

相关内容

大型语言模型

大型语言模型

【CMU博士论文】可解释机器学习方法与应用，127页pdf

【CMU博士论文】可解释机器学习方法与应用，127页pdf

专知会员服务

77+阅读 · 2023年6月6日

ChatGPT如何垂直化？彭博发布《BloombergGPT-500亿参数的金融大型语言模型》论文，65页pdf详述模型优异性能（附中英文版论文下载）

ChatGPT如何垂直化？彭博发布《BloombergGPT-500亿参数的金融大型语言模型》论文，65页pdf详述模型优异性能（附中英文版论文下载）

专知会员服务

143+阅读 · 2023年3月31日

【索邦大学博士论文】实体与关系抽取中的泛化与上下文化

【索邦大学博士论文】实体与关系抽取中的泛化与上下文化

专知会员服务

31+阅读 · 2022年6月20日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知会员服务

78+阅读 · 2020年10月13日

【Haute-Alsace博士论文】深度学习时序分类，175页pdf

【Haute-Alsace博士论文】深度学习时序分类，175页pdf

专知会员服务

102+阅读 · 2020年10月4日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

57+阅读 · 2020年3月6日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型

NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型

PaperWeekly

0+阅读 · 2022年11月11日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知

0+阅读 · 2022年5月30日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于弹性波传播特性的大型旋转机械主轴裂纹检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于参数的迁移学习分析、建模与应用

国家自然科学基金

6+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于安全属性建模的协议安全性测试理论与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于变分与条件随机场模型的高分辨率遥感影像灾害损失实物量评估研究

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于不完全数据的健康风险评估模型研究

国家自然科学基金

1+阅读 · 2011年12月31日

Fair multilingual vandalism detection system for Wikipedia

Arxiv

0+阅读 · 2023年6月2日

An Architecture for Deploying Reinforcement Learning in Industrial Environments

Arxiv

0+阅读 · 2023年6月2日

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

Arxiv

0+阅读 · 2023年6月1日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

An Attentive Survey of Attention Models

Arxiv

19+阅读 · 2019年4月5日

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

Arxiv

39+阅读 · 2019年1月17日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

VIP会员

相关主题

大型语言模型

慕尼黑大学

相关VIP内容

【CMU博士论文】可解释机器学习方法与应用，127页pdf

【CMU博士论文】可解释机器学习方法与应用，127页pdf

专知会员服务

77+阅读 · 2023年6月6日

ChatGPT如何垂直化？彭博发布《BloombergGPT-500亿参数的金融大型语言模型》论文，65页pdf详述模型优异性能（附中英文版论文下载）

ChatGPT如何垂直化？彭博发布《BloombergGPT-500亿参数的金融大型语言模型》论文，65页pdf详述模型优异性能（附中英文版论文下载）

专知会员服务

143+阅读 · 2023年3月31日

【索邦大学博士论文】实体与关系抽取中的泛化与上下文化

【索邦大学博士论文】实体与关系抽取中的泛化与上下文化

专知会员服务

31+阅读 · 2022年6月20日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知会员服务

78+阅读 · 2020年10月13日

【Haute-Alsace博士论文】深度学习时序分类，175页pdf

【Haute-Alsace博士论文】深度学习时序分类，175页pdf

专知会员服务

102+阅读 · 2020年10月4日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

57+阅读 · 2020年3月6日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型

NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型

PaperWeekly

0+阅读 · 2022年11月11日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知

0+阅读 · 2022年5月30日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于弹性波传播特性的大型旋转机械主轴裂纹检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于参数的迁移学习分析、建模与应用

国家自然科学基金

6+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于安全属性建模的协议安全性测试理论与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于变分与条件随机场模型的高分辨率遥感影像灾害损失实物量评估研究

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于不完全数据的健康风险评估模型研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

Fair multilingual vandalism detection system for Wikipedia

Arxiv

0+阅读 · 2023年6月2日

An Architecture for Deploying Reinforcement Learning in Industrial Environments

Arxiv

0+阅读 · 2023年6月2日

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

Arxiv

0+阅读 · 2023年6月1日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

An Attentive Survey of Attention Models

Arxiv

19+阅读 · 2019年4月5日

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

Arxiv

39+阅读 · 2019年1月17日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

微信扫码咨询专知VIP会员