【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

2020 年 3 月 19 日 专知
【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

【导读】预训练语言模型Pre-trained Models是当前自然语言处理以及其他应用的研究热点,在众多任务中取得SOTA性能。近日,复旦大学邱锡鹏等学者发布了自然语言处理处理中预训练模型PTMs的综述大全,共25页pdf205篇参考文献,从背景知识到当前代表性PTM模型和应用研究挑战等,是绝好的预训练语言模型的文献。


近年来,预训练模型(PTMs)的出现将自然语言处理(NLP)带入了一个新的时代。在这项综述中,我们提供了一个全面的PTMs调研首先简要介绍了语言表示学习及其研究进展。然后,我们根据四种观点对现有的PTMs进行了系统的分类。接下来,我们将描述如何将PTMs的知识应用于下游任务。最后,我们概述了未来PTMs研究的一些潜在方向。本调查旨在为理解、使用和开发各种NLP任务的PTMs提供实际指导。

地址:

https://www.zhuanzhi.ai/paper/09d78eda59ebfb6f51a54a3ba0a4c4b1



1. 概述


随着深度学习的发展,各种神经网络被广泛用于解决自然语言处理(NLP)任务,如卷积神经网络(convolutional neural networks, CNNs)[75,80,45]、递归神经网络(neural networks, RNNs)[160, 100]、基于图的神经网络(graphbased neural network, GNNs)[146, 161, 111]和注意力机制[6,171]等。这些神经模型的优点之一是能够缓解特征工程问题。非神经NLP方法通常严重依赖于离散的手工特征,而神经方法通常使用低维和稠密的向量(又称分布式表示)隐式地表示语言的语法或语义特征。这些表示是在特定的NLP任务中学习的。因此,神经方法使人们可以很容易地开发各种NLP系统。


尽管神经模型在NLP任务中取得了成功,但与计算机视觉(CV)领域相比,性能改进可能不那么显著。主要原因是,当前用于大多数监督的NLP任务的数据集相当小(机器翻译除外)。深度神经网络通常具有大量的参数,使其对这些小的训练数据过度拟合,在实际应用中泛化效果不佳。因此,许多NLP任务的早期神经模型相对较浅,通常只包含1 ~ 3个神经层。


最近大量的工作表明,在大型语料库上的预训练模型(PTMs)可以学习通用语言表示,这对后续的NLP任务是有益的,可以避免从零开始训练新模型。随着计算能力的发展,深层模型(即随着训练技能的不断提高,PTMs的体系结构由浅向深推进。第一代PTM的目标是学习好的词嵌入。由于下游任务不再需要这些模型本身,它们在计算效率方面通常非常肤浅,如Skip-Gram[116]和GloVe[120]。虽然这些预训练的嵌入可以捕获单词的语义含义,但它们是上下文无关的,不能捕获文本的高级概念,如语法结构、语义角色、回指等。第二代PTMs主要学习上下文词嵌入,如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。这些学习过的编码器仍然需要在上下文中通过下游任务来表示单词。此外,还提出了各种预训练的任务,以学习PTMs的不同目的。


这篇综述的贡献可以总结如下:

1. 全面调研。我们为NLP提供了PTMs的全面回顾,包括背景知识、模型架构、预训练任务、各种扩展、适应方法和应用。给出了典型模型的详细描述,进行了必要的比较,总结了相应的算法。

2. 新分类法。我们提出了一种基于自然语言处理的PTMs分类方法,该方法从四个不同的角度对现有的PTMs进行了分类:1)单词表示的类型;2) PTMs架构;3)培训前的任务类型;4)特定类型场景或输入的扩展。

3.资源丰富。我们在PTMs上收集了丰富的资源,包括开源系统、论文列表等。

4. 未来的发展方向。我们讨论并分析了现有PTMs的局限性。并提出未来可能的研究方向。


综述的其余部分组织如下。第2节概述了PTMs的背景概念和常用符号。第3节简要概述了PTMs,并澄清了PTMs的分类。第4节提供了PTMs的扩展。第5节讨论如何将PTMs的知识迁移到下游任务。第6节给出了PTMs的相关资源,包括开源系统、论文列表等。第7节介绍了跨各种NLP任务的应用程序集合。第8节讨论了当前的挑战并提出了未来的方向。第9节对本文进行了总结。



2. 背景

2.1 语言表示学习



分布式表示的核心思想是用低维实值向量来描述文本的意义。而向量的每一个维度都没有对应的意义,而整体则代表一个具体的概念。图1说明了NLP的通用神经体系结构。词嵌入有两种:非上下文嵌入和上下文嵌入。它们之间的区别是,一个词的嵌入是否根据它出现的上下文动态变化。


2.2 神经上下文编码器



大部分的神经上下文编码器可以分为三类:卷积模型、序列模型和基于图的模型。图2说明了这些模型的体系结构。

(1) 卷积模型。卷积模型采用单词在输入句中的嵌入,通过卷积运算将相邻词的局部信息聚合起来,从而获取单词的意义[80]。卷积模型通常易于训练,能够捕获局部上下文信息。

(2 )序列模型。序列模型通常采用rns(如LSTM[60]和GRU[21])来捕获单词的上下文表示。在实践中,双向RNNs被用来收集单词两边的信息,但其性能往往受到长期依赖问题的影响。

(3) 基于图模型。与上述模型不同的是,基于图的模型以单词为节点,学习单词之间具有预定义语言结构的上下文表示,如句法结构[146,161]或语义关系[111]。


2.3 为什么要预训练?


随着深度学习的发展,模型参数的数量迅速增加。需要更大的数据集来充分训练模型参数并防止过度拟合。然而,对于大多数NLP任务来说,构建大规模的标记数据集是一个巨大的挑战,因为注释成本非常昂贵,特别是对于语法和语义相关的任务。


相比之下,大规模的未标记语料库相对容易构建。为了利用巨大的未标记文本数据,我们可以首先从它们那里学习良好的表示,然后将这些表示用于其他任务。最近的研究表明,借助从大型无注释语料库的PTMs中提取的表示,许多NLP任务的性能都有显著提高。


预训练的好处可以总结如下:

  • 在大型文本语料库上的预训练可以学习通用语言表示并帮助完成后续任务。

  • 预训练提供了更好的模型初始化,这通常会带来更好的泛化性能,并加速对目标任务的收敛。

  • 预训练可以看作是一种正则化,以避免小数据[39]的过拟合。


3. 预训练语言模型分类


为了明确现有PTMs与NLP之间的关系,我们构建了PTMs的分类法,该分类法从不同的角度对现有PTMs进行了分类: (1) PTMs使用的单词表示类型,(2) PTMs使用的主干网络,(3) PTMs使用的预训练任务类型,(4) 为特定类型的场景或输入设计的PTMs。图6显示了分类以及一些相应的代表性PTMs。

此外,表1详细区分了一些有代表性的PTMs。



4. 预训练语言模型扩展


4.1 知识增强的PTMs


PTMs通常从通用的大型文本语料库中学习通用语言表示,但缺乏领域特定的知识。将来自外部知识库的领域知识整合到PTM中已被证明是有效的。外部知识范围从语言学[87,78,123,178],语义[92],常识[48],事实[199,123,101,188,182],到具体领域的知识[54]。


4.2 多模态PTMS


由于PTMs在许多NLP任务上的成功,一些研究集中在获得PTMs的跨模态版本上。这些模型中的绝大多数是为一般的视觉和语言特征编码而设计的。这些模型是在一些巨大的跨模态数据语料库上进行预训练的,例如带有口语单词的视频或带有字幕的图像,结合扩展的预训练任务来充分利用多模态特征。VideoBERT[152]和CBT[151]是视频和文本的联合模型。为了获得用于预训练的视觉和语言标记序列,视频分别由基于cnn的编码器和现成的语音识别技术进行预处理。在处理后的数据上训练一个变压器编码器,以学习下游任务(如视频字幕)的视觉语言表示。此外,UniViLM[109]提出引入生成任务来进一步预训练下游任务中使用的解码器。


4.3 模型压缩



5. 下游任务应用



6. PTM资源


7. 应用


应用基准、机器翻译、问答、情感分析、摘要、命名实体识别


8. 未来方向


(1) PTMs的上界


目前,PTMs还没有达到其上限。现有的PTMs大多可以通过更多的训练步骤和更大的语料库来进一步完善。


通过增加模型的深度可以进一步提高NLP的技术水平,如Megatron-LM[144](83亿个参数,72个隐藏尺寸为3072和32个注意头的变压器层)和Turing-NLG(170亿个参数,78个隐藏尺寸为4256和28个注意头的Transformer层)。


通用型PTM一直是我们学习语言固有的通用知识(甚至是世界知识)的追求,但此类PTM通常需要更深入的体系结构、更大的语料库和更具挑战性的训练前任务,这又进一步导致了更高的训练成本。然而,训练大模型也是一个具有挑战性的问题,需要更复杂、更高效的训练技术,如分布式训练、混合精度、梯度积累等。因此,更实际的方向是使用现有的硬件和软件设计更有效的模型架构、自我监督的训练前任务、优化器和训练技能。ELECTRA[22]是这个方向的一个很好的解决方案。


(2) 面向任务的预训练和模型压缩


在实践中,不同的下游任务需要不同的PTMs能力。PTMs与下游任务之间的差异通常表现在两个方面:模型体系结构和数据分布。较大的差异可能导致PTMs的益处可能不明显。尽管较大的PTM通常可以带来更好的性能,但一个实际问题是如何在特殊场景(如低容量设备和低延迟应用程序)中利用这些巨大的PTM。因此,我们可以为下游任务精心设计特定的模型架构和预训练任务,或者从现有的PTMs中提取部分特定于任务的知识。


此外,我们可以通过使用模型压缩等技术,用通用的现有PTM来教他们,而不是从头开始训练面向任务的ptm(参见4.3节)。虽然在CV[17]中,针对CNNs的模型压缩已经得到了广泛的研究,但针对NLP的PTMs的模型压缩才刚刚开始。Transformer 的全连接结构也使模型压缩更具挑战性。


(3) PTMs架构


Transformer已被证明是一种有效的预训练体系结构。然而,Transformer 的主要限制是它的计算复杂度,它是输入长度的平方。由于GPU内存的限制,目前大多数PTM不能处理512个标记以上的序列。打破这一限制需要改进Transformer的架构,比如Transformer- xl[27]。因此,为PTMs搜索更有效的模型体系结构对于捕获更长期的上下文信息非常重要。


深度架构的设计具有挑战性,我们可以从一些自动化方法中寻求帮助,如神经架构搜索(neural architecture search, NAS)[205]。


(4)超越微调的知识迁移


目前,将PTMs的知识传递给下游任务的主要方法是微调,但其缺点是参数效率低下:每个下游任务都有自己的微调参数。一种改进的解决方案是对原有PTMs的参数进行修正,并为特定的任务添加小的可调自适应模块[149,61]。因此,我们可以使用一个共享的PTM来服务多个下游任务。事实上,从PTMs中挖掘知识可以更加灵活,如特征提取、知识提取[195]、数据扩充[185,84],利用PTMs作为外部知识[125]等。期望有更有效的方法。


(5) PTMs的可解释性和可靠性


虽然PTM的性能令人印象深刻,但其深层的非线性架构使得决策过程高度不透明。


近年来,可解释人工智能[4]已经成为人工智能领域的一个研究热点。与用于图像的CNN不同,由于Transformer的架构和语言的复杂性,解释PTMs更加困难。人们做了大量的工作(见3.3节)来分析PTMs中包含的语言和世界知识,这有助于我们以某种程度的透明性理解这些PMTs。然而,许多模型分析工作依赖于注意力机制,注意力对可解释性的有效性仍存在争议[66,142]。


此外,随着PTMs在生产系统中的广泛应用,PTMs的可靠性也成为一个备受关注的问题。深层神经模型容易受到对抗性样本的影响,这些例子可能会误导模型,使其产生一个特定的错误预测,而这种预测会受到来自原始输入的难以察觉的干扰。在CV中,对抗性攻击和防御被广泛研究。然而,由于语言的离散性,文本仍然面临着挑战。为文本生成对抗性样本需要具备以下品质:(1)不易被人类法官察觉,但容易被神经模型误导;(2)语法流利,语义与原输入一致。Jin等人[71]用对抗性的例子成功地在文本分类和文本蕴涵方面攻击了经过微调的BERT。Wallace等人[175]定义了通用的对抗触发器,当将模型连接到任何输入时,该触发器可以诱导模型产生特定目的的预测。有些触发器甚至会导致GPT-2模型生成带有种族主义色彩的文本。对PTM进行对抗性攻击的研究有助于我们了解它们的能力,从而充分暴露它们的弱点。Sun等人[155]的研究表明,BERT对拼写错误并不敏感。此外,针对PTMs的对抗防御也很有前途,它提高了PTMs的鲁棒性,使其对对抗攻击免疫。


总的来说,作为许多NLP应用中的关键组件,PTMs的可解释性和可靠性在很多方面还有待进一步的探索,这有助于我们理解PTMs是如何工作的,并为更好的使用和进一步的改进提供指导。



参考文献:

Akbik et al. [2018] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual string embeddings for sequence labeling. In COLING, pages 1638–1649, 2018.


Alberti et al. [2019] Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. Fusion of detected objects in text for visual question answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.

Alsentzer et al. [2019] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. Publicly available clinical BERT embeddings. arXiv preprint arXiv:1904.03323, 2019.


Arrieta et al. [2020] Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, 58:82–115, 2020.

Baevski et al. [2019] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli.Cloze-driven pretraining of self-attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng, and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–5368, 2019.


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“PTM” 就可以获取【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
17

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。

【导读】知识蒸馏是一种典型的模型压缩和加速方法,在很多应用场景对此有需求。来自悉尼大学的学者发布了《知识蒸馏》的综述论文,值的关注。

https://arxiv.org/abs/2006.05525

近年来,深度神经网络在工业和学术界取得了巨大的成功,特别是在视觉识别和神经语言处理方面的应用。深度学习的巨大成功,主要归功于其巨大的可扩展性,既有大规模的数据样本,也有数十亿的模型参数。然而,在资源有限的设备如移动电话和嵌入式设备上部署这些笨重的深模型也带来了巨大的挑战,不仅因为计算量大,而且存储空间大。为此,开发了各种模型压缩和加速技术,如剪枝、量化和神经结构搜索。知识蒸馏是一种典型的模型压缩和加速方法,旨在从大教师模型中学习小学生模型,越来越受到社会的关注。本文从知识分类、训练方案、知识提取算法以及应用等方面对知识提取进行了综述。此外,我们简要回顾了知识提炼的挑战,并对未来的研究课题提供了一些见解。

概述

在过去的几年里,深度学习在人工智能领域取得了巨大的成功,包括计算机视觉(Krizhevsky et al., 2012)、强化学习(Silver et al., 2016)和神经语言处理(Devlin et al., 2018)的各种应用。借助最近许多技术,包括残差连接(He et al., 2016)和批处理归一化(Ioffe and Szegedy, 2015),我们可以轻松地在强大的GPU或TPU集群上训练具有数千层的深度模型。例如,只需不到10分钟就可以在数百万张图像的数据集上训练ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 训练一个强大的BERT模型进行语言理解只需要不到一个半小时 (Devlin et al., 2018; You et al., 2019).。虽然大规模的深度模型带来了令人难以置信的性能,但其庞大的计算复杂度和海量的存储需求给实时应用的部署带来了巨大的挑战,特别是对于那些资源有限的设备,比如嵌入式人脸识别系统和自动驾驶汽车。

为了开发高效的深度模型,最近的工作通常集中在1)基于深度可分离卷积的高效基本块,如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型压缩和加速技术,主要包括以下类别(Cheng et al., 2018)。

  • 参数修剪和共享: 这些方法主要是去除深层神经网络中不重要的参数,去除的参数对性能影响不大。该类别又分为模型量化(Wu et al., 2016)和二值化(Courbariaux et al., 2015)、参数共享(Han et al., 2015)和结构矩阵(Sindhwani et al., 2015)。

  • 低秩分解: 这些方法通过矩阵/张量分解来探索深度神经网络参数的冗余性(Denton et al., 2014)。

  • 传输/压缩卷积滤波器: 这些方法通过传输/压缩卷积滤波器来减少不必要的参数(Zhai et al., 2016)。

  • 知识蒸馏(KD): 这些方法通常将知识从一个较大的深度神经网络提取到一个较小的网络中(Hinton et al., 2015)。

对模型压缩和加速的全面回顾超出了本文涵盖的范围,而我们关注的是知识蒸馏,这已经得到越来越多的研究社区关注。在实践中,大型深度模型往往会取得非常好的性能,因为过参数化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知识蒸馏通过在大教师模型的监督下学习小学生模型,从而探究深度模型中参数的冗余性,用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016),而知识蒸馏的关键问题是如何将知识从大教师模型转移到小学生模型。一般情况下,知识蒸馏的师生框架如图1所示。虽然在实践中取得了巨大的成功,但在理论或经验上理解知识提炼方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具体来说,为了理解知识蒸馏的工作机制,Phuong和Lampert在深度线性分类器的情况下,从理论上证明了学习精馏学生网络快速收敛的泛化边界(Phuong和Lampert, 2019)。这一解释理论上回答了学生学习的内容和速度,并揭示了决定蒸馏成功的因素。蒸馏的成功依赖于数据几何、蒸馏目标的优化偏差和学生分类器的强单调性。Cheng等人量化了来自深度神经网络中间层的视觉概念知识,以解释知识蒸馏(Cheng et al., 2020)。Cho和Hariharan对知识蒸馏的有效性进行了详细的实证分析(Cho和Hariharan, 2019)。实证分析发现,由于模型容量的差距,较大的模型不一定是更好的老师(Mirzadeh et al., 2019),而精馏会对学生的学习产生不利影响。据我们所知,(Cho and Hariharan, 2019)忽略了对教师和学生之间不同知识、不同蒸馏和相互感情的经验评价。此外,通过实证分析,从标签平滑、教师和先验对最优输出层几何形状的预测置信度等角度探讨了对知识蒸馏的理解(Tang et al., 2020)。

模型压缩的知识蒸馏思想与人类的学习方案非常相似。为此,近年来的知识蒸馏方法不仅扩展到了师生学习(Hinton et al., 2015),还扩展到了相互学习(Zhang et al., 2018b)、自学(Yuan et al., 2019)、辅助教学(Mirzadeh et al., 2019)和终身学习(Zhai et al., 2019)。知识蒸馏的大部分扩展集中于压缩深度神经网络,因此轻量级的学生网络可以很容易地部署在诸如视觉识别、语音识别和自然语言处理(NLP)等应用程序中。此外,知识蒸馏中从一个模型到另一个模型的知识转移符号也可以扩展到其他任务,如对抗攻击(Papernot et al., 2016b)、数据增强(Lee et al., 2019a;Gordon和Duh, 2019),数据隐私和安全(Wang等,2019a)。

本文对知识蒸馏的研究进行了综述。本综述的主要目的是1) 全面概述知识蒸馏,包括动机的背景,基本符号和公式,以及几种典型知识,蒸馏和算法; 2) 全面回顾知识蒸馏的最新进展,包括理论、应用和在不同现实场景下的扩展; 3) 从知识迁移的不同角度,包括不同类型的知识、训练方案、知识提炼算法/结构和应用,阐述知识蒸馏的一些挑战和见解。本文组织概况如图2所示。具体地说,本文的其余部分结构如下。第二节给出了知识蒸馏的重要概念和常规模型。知识和蒸馏的种类分别在第3节和第4节中进行了总结。现有的关于知识提炼中的师生结构的研究在第5部分进行了说明。第6节对许多最新的知识蒸馏方法进行了全面的总结和介绍。知识蒸馏的广泛应用将在第7节的不同方面加以说明。第8节讨论了知识蒸馏中具有挑战性的问题和未来的方向。最后,在第9节给出结论。

成为VIP会员查看完整内容
0
120

【导读】元学习旨在学会学习,是当下研究热点之一。最近来自爱丁堡大学的学者发布了关于元学习最新综述论文《Meta-Learning in Neural Networks: A Survey》,值得关注,详述了元学习体系,包括定义、方法、应用、挑战,成为不可缺少的文献。

近年来,元学习领域,或者说“学会学习的学习”,引起了人们极大的兴趣。与传统的人工智能方法(使用固定的学习算法从头开始解决给定的任务)不同,元学习的目的是改进学习算法本身,考虑到多次学习的经验。这个范例提供了一个机会来解决深度学习的许多传统挑战,包括数据和计算瓶颈,以及泛化的基本问题。在这项综述中,我们描述了当代元学习的景观。我们首先讨论元学习的定义,并将其定位于相关领域,如迁移学习、多任务学习和超参数优化。然后,我们提出了一个新的分类法,对元学习方法的空间进行了更全面的细分。我们综述了元学习的一些有前途的应用和成功案例,包括小样本学习、强化学习和体系架构搜索。最后,我们讨论了突出的挑战和未来研究的有希望的领域。

https://arxiv.org/abs/2004.05439

概述

现代机器学习模型通常是使用手工设计的固定学习算法,针对特定任务从零开始进行训练。基于深度学习的方法在许多领域都取得了巨大的成功[1,2,3]。但是有明显的局限性[4]。例如,成功主要是在可以收集或模拟大量数据的领域,以及在可以使用大量计算资源的领域。这排除了许多数据本质上是稀有或昂贵的[5],或者计算资源不可用的应用程序[6,7]。

元学习提供了另一种范式,机器学习模型可以在多个学习阶段获得经验——通常覆盖相关任务的分布——并使用这些经验来改进未来的学习性能。这种“学会学习”[8]可以带来各种好处,如数据和计算效率,它更适合人类和动物的学习[9],其中学习策略在一生和进化时间尺度上都得到改善[10,9,11]。机器学习在历史上是建立在手工设计的特征上的模型,而特征的选择往往是最终模型性能的决定因素[12,13,14]。深度学习实现了联合特征和模型学习的承诺[15,16],为许多任务提供了巨大的性能改进[1,3]。神经网络中的元学习可以看作是集成联合特征、模型和算法学习的下一步。神经网络元学习有着悠久的历史[17,18,8]。然而,它作为推动当代深度学习行业前沿的潜力,导致了最近研究的爆炸性增长。特别是,元学习有可能缓解当代深度学习[4]的许多主要批评,例如,通过提供更好的数据效率,利用先验知识转移,以及支持无监督和自主学习。成功的应用领域包括:小样本图像识别[19,20]、无监督学习[21]、数据高效[22,23]、自导向[24]强化学习(RL)、超参数优化[25]和神经结构搜索(NAS)[26, 27, 28]。

在文献中可以找到许多关于元学习的不同观点。特别是由于不同的社区对这个术语的使用略有不同,所以很难定义它。与我们[29]相关的观点认为,元学习是管理“没有免费午餐”定理[30]的工具,并通过搜索最适合给定问题或问题族的算法(归纳偏差)来改进泛化。然而,从广义上来说,这个定义可以包括迁移、多任务、特征选择和模型集成学习,这些在今天通常不被认为是元学习。另一个关于元学习[31]的观点广泛地涵盖了基于数据集特性的算法选择和配置技术,并且很难与自动机器学习(AutoML)[32]区分开来。在这篇论文中,我们关注当代的神经网络元学习。我们将其理解为算法或归纳偏差搜索,但重点是通过端到端学习明确定义的目标函数(如交叉熵损失、准确性或速度)来实现的。

因此,本文提供了一个独特的,及时的,最新的调查神经网络元学习领域的快速增长。相比之下,在这个快速发展的领域,以往的研究已经相当过时,或者关注于数据挖掘[29、33、34、35、36、37、31]、自动[32]的算法选择,或者元学习的特定应用,如小样本学习[38]或神经架构搜索[39]。

我们讨论元学习方法和应用。特别是,我们首先提供了一个高层次的问题形式化,它可以用来理解和定位最近的工作。然后,我们在元表示、元目标和元优化器方面提供了一种新的方法分类。我们调查了几个流行和新兴的应用领域,包括少镜头、强化学习和架构搜索;并对相关的话题如迁移学习、多任务学习和自动学习进行元学习定位。最后,我们讨论了尚未解决的挑战和未来研究的领域。

未来挑战:

-元泛化 元学习在不同任务之间面临着泛化的挑战,这与传统机器学习中在不同实例之间进行泛化的挑战类似。

  • 任务分布的多模态特性
  • 任务族
  • 计算代价
  • 跨模态迁移和异构任务

总结

元学习领域最近出现了快速增长的兴趣。这带来了一定程度的混乱,比如它如何与邻近的字段相关联,它可以应用到什么地方,以及如何对它进行基准测试。在这次综述中,我们试图通过从方法学的角度对这一领域进行彻底的调查来澄清这些问题——我们将其分为元表示、元优化器和元目标的分类;从应用的角度来看。我们希望这项调查将有助于新人和实践者在这个不断增长的领域中定位自己,并强调未来研究的机会。

成为VIP会员查看完整内容
0
174

【导读】现有的机器学习方法在很多场景下需要依赖大量的训练样本。但机器学习方法是否可以模仿人类,基于先验知识等,只基于少量的样本就可以进行学习。本文介绍34页小样本学习综述《Generalizing from a Few Examples: A Survey on Few-Shot Learning》,包含166篇参考文献,来自第四范式和香港科技大学习的研究学者。

小样本学习综述 Few-shot Learning: A Survey

【摘要】机器学习在数据密集型应用中非常成功,但当数据集很小时,它常常受到阻碍。为了解决这一问题,近年来提出了小样本学习(FSL)。利用先验知识,FSL可以快速地泛化到只包含少量有监督信息的样本的新任务中。在这篇论文中,我们进行了一个彻底的调研,以充分了解FSL。从FSL的正式定义出发,我们将FSL与几个相关的机器学习问题区分开来。然后指出了FSL的核心问题是经验风险最小化是不可靠的。基于先验知识如何处理这一核心问题,我们从三个角度对FSL方法进行了分类: (i) 数据,它使用先验知识来增加监督经验;(二) 利用先验知识缩小假设空间大小的模型;(iii)算法,利用先验知识在给定的假设空间中改变对最佳假设的搜索。有了这种分类法,我们就可以回顾和讨论每个类别的优缺点。在FSL问题的设置、技术、应用和理论方面也提出了有前景的方向,为未来的研究提供了见解。

  • 我们给出了FSL的形式化定义。它可以自然地链接到以往文献中提出的经典机器学习定义。这个定义不仅足够概括,包括所有现有的FSL -shot Learning: A Survey problems,而且足够具体,明确了什么是FSL的目标,以及我们如何解决它。这一定义有助于确定未来FSL领域的研究目标。

  • 指出了基于误差分解的FSL在机器学习中的核心问题。我们发现,正是不可靠的经验风险最小化使得FSL难以学习。这可以通过满足或降低学习的样本复杂度来缓解。理解核心问题有助于根据解决核心问题的方式将不同的工作分类为数据、模型和算法。更重要的是,这为更有组织和系统地改进FSL方法提供了见解。

  • 我们对从FSL诞生到最近发表的文献进行了广泛的回顾,并将它们进行了统一的分类。对不同类别的优缺点进行了深入的讨论。我们还对每个类别下的见解进行了总结。这对于初学者和有经验的研究人员都是一个很好的指导方针。

  • 我们在问题设置、技术、应用和理论方面展望了FSL未来的四个发展方向。这些见解都是基于当前FSL发展的不足之处,并有可能在未来进行探索。我们希望这部分能够提供一些见解,为解决FSL问题做出贡献,为真正的AI而努力。

  • 与已有的关于小样本概念学习和经验学习的FSL相关调相比,我们给出了什么是FSL,为什么FSL很难,以及FSL如何将小样本监督信息与先验知识结合起来使学习成为可能的正式定义。我们进行了广泛的文献审查的基础上提出的分类法与详细讨论的利弊,总结和见解。我们还讨论了FSL与半监督学习、不平衡学习、迁移学习和元学习等相关话题之间的联系和区别

成为VIP会员查看完整内容
0
159

【导读】文本分类是自然语言处理汇总的基础性任务,伴随机器学习尤其是深度学习模型的发展,文本分类算法也在革新换代。最近,来自Snapchat、Google、NTU、Tabriz、微软等学者发表了关于《深度学习文本分类》的综述论文,42页pdf215篇参考文献,详细回顾了近年来发展起来的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性和优点。我们还提供了40多个广泛用于文本分类的流行数据集的摘要。

基于深度学习的模型已经在各种文本分类任务中超越了传统的基于机器学习的方法,包括情感分析、新闻分类、问题回答和自然语言推理。在这项工作中,我们详细回顾了近年来发展起来的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性和优点。我们还提供了40多个广泛用于文本分类的流行数据集的摘要。最后,我们对不同深度学习模型在流行基准上的表现进行了定量分析,并讨论了未来的研究方向。

https://www.arxiv-vanity.com/papers/2004.03705/

1. 概述

文本分类又称文本归档,是自然语言处理(NLP)中的一个经典问题,其目的是将标签或标记分配给文本单元,如句子、查询、段落和文档。它的应用范围很广,包括问题回答、垃圾邮件检测、情绪分析、新闻分类、用户意图分类、内容审核等等。文本数据可以来自不同的来源,例如web数据、电子邮件、聊天、社交媒体、机票、保险索赔、用户评论、客户服务的问题和答案等等。文本是极其丰富的信息来源,但由于其非结构化的性质,从文本中提取见解可能是具有挑战性和耗时的。

文本分类可以通过人工标注或自动标注来实现。随着文本数据在工业应用中的规模越来越大,文本自动分类变得越来越重要。自动文本分类的方法可以分为三类:

  • 基于规则的方法
  • 基于机器学习(数据驱动)的方法
  • 混合的方法

基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“足球”、“篮球”或“棒球”字样的文档都被指定为“体育”标签。这些方法需要对领域有深入的了解,并且系统很难维护。另一方面,基于机器学习的方法学习根据过去对数据的观察进行分类。使用预先标记的示例作为训练数据,机器学习算法可以了解文本片段与其标记之间的内在关联。因此,基于机器学习的方法可以检测数据中的隐藏模式,具有更好的可扩展性,可以应用于各种任务。这与基于规则的方法形成了对比,后者针对不同的任务需要不同的规则集。混合方法,顾名思义,使用基于规则和机器学习方法的组合来进行预测。

近年来,机器学习模型受到了广泛的关注。大多数经典的基于机器学习的模型遵循流行的两步过程,在第一步中,从文档(或任何其他文本单元)中提取一些手工制作的特征,在第二步中,将这些特征提供给分类器进行预测。一些流行的手工制作功能包括单词包(BoW)及其扩展。常用的分类算法有朴素贝叶斯、支持向量机、隐马尔可夫模型、梯度增强树和随机森林。这两步方法有几个局限性。例如,依赖手工制作的特征需要繁琐的特征工程和分析才能获得良好的性能。另外,特征设计对领域知识的依赖性强,使得该方法难以推广到新的任务中。最后,这些模型不能充分利用大量的训练数据,因为特征(或特征模板)是预先定义的。

在2012年,一种基于深度学习的模型AlexNet (AlexNet,)在ImageNet竞赛中获得了巨大的优势。从那时起,深度学习模型被应用到计算机视觉和NLP的广泛任务中,提高了技术水平(vaswani2017attention; he2016deep, devlin2018bert ;yang2019xlnet, )。这些模型尝试以端到端方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中隐藏的模式,而且更容易从一个应用程序转移到另一个应用程序。毫不奇怪,这些模型正在成为近年来各种文本分类任务的主流框架。

这个综述,我们回顾了在过去六年中为不同的文本分类任务开发的150多个深度学习模型,包括情感分析、新闻分类、主题分类、问答(QA)和自然语言推理(NLI)。我们根据这些作品的神经网络架构将它们分为几个类别,例如基于递归神经网络(RNNs)、卷积神经网络(CNNs)、注意力、Transformers、胶囊网等的模型。本文的贡献总结如下:

  • 我们提出了150多个用于文本分类的深度学习模型的详细概述。
  • 我们回顾了40多个流行的文本分类数据集。
  • 我们提供了一个定量分析的表现,选定的一套深度学习模型在16个流行的基准。
  • 我们将讨论尚存的挑战和未来的方向。
  1. 深度学习模型文本分类

在本节中,我们将回顾150多个针对各种文本分类问题提出的深度学习框架。为了便于遵循,我们根据这些模型的主要架构贡献,将它们分为以下几类:

基于前馈网络的模型,该模型将文本视为一个单词包(第2.1节)。

基于RNNs的模型,该模型将文本视为单词序列,旨在捕获单词依赖关系和文本结构(第2.2节)。

基于CNN的模型,它被训练来识别文本中的模式,例如关键短语,用于分类(第2.3节)。

胶囊网络解决了CNNs的池化操作所带来的信息丢失问题,最近已被应用于文本分类(第2.4节)。

注意力机制是一种有效识别文本中相关词的机制,已成为开发深度学习模型的有用工具(第2.5节)。

记忆增强网络,它将神经网络与某种形式的外部记忆相结合,模型可以读写外部记忆(章节2.6)。

Transformer,它允许比RNNs更多的并行化,使得使用GPU集群有效地(预先)训练非常大的语言模型成为可能(章节2.7)。

图神经网络,用于捕获自然语言的内部图结构,如语法和语义解析树(第2.8节)。

设计用于文本匹配的Siamese神经网络,文本分类的一个特例(第2.9节)。

混合模型,将注意力、RNNs、CNNs等结合起来,以捕获句子和文档的局部和全局特征(第2.10节)。

最后,在第2.11节中,我们回顾了监督学习之外的建模技术,包括使用自动编码器和对抗性训练的非监督学习和增强学习。

  1. 文本分类数据集

  1. 结果比较

  1. 未来方向

在基于深度学习模型的帮助下,文本分类在过去几年里取得了很大的进展。在过去的十年中,人们提出了一些新的思想(如神经嵌入、注意力机制、自注意、Transformer、BERT和XLNet),并取得了快速的进展。尽管取得了所有这些进展,但我们面前仍有几项挑战需要解决。本节将介绍其中的一些挑战,并讨论我们认为有助于推进该领域的研究方向。

  • 用于更有挑战性任务的数据集
  • 对常识进行建模
  • 可解释的深度学习模型
  • 记忆效率模型
  • 小样本学习和零样本学习
成为VIP会员查看完整内容
Deep Learning Based Text Classification-A Comprehensive Review.pdf
0
77

【导读】异构网络表示学习Heterogeneous Network Representation Learning是当前自数据挖掘以及其他应用的研究热点,在众多任务中具有重要的应用。近日,UIUC韩家炜等学者发布了异构网络表示学习的综述大全,共15页pdf115篇参考文献,从背景知识到当前代表性HNE模型和应用研究挑战等,是最新可参考绝好的异构网络表示学习模型的文献。

由于现实世界中的对象及其交互通常是多模态和多类型的,所以异构网络被广泛地用作传统同构网络(图)的一个更强大、更现实和更通用的超类。与此同时,表示学习(representation learning,又称嵌入)最近得到了深入的研究,并被证明对各种网络挖掘和分析任务都是有效的。由于已有大量的异构网络嵌入(HNE)算法,但没有专门的调研综述,作为这项工作的第一个贡献,我们率先提供了一个统一的范式,对各种现有的HNE算法的优点进行系统的分类和分析。此外,现有的HNE算法虽然大多被认为是通用的,但通常是在不同的数据集上进行评估。由于HNE在应用上的天然优势,这种间接的比较在很大程度上阻碍了任务性能的改善,特别是考虑到从真实世界的应用数据构建异构网络的各种可能的方法。因此,作为第二项贡献,我们创建了四个基准数据集,这些数据集具有不同来源的尺度、结构、属性/标签可用性等不同属性,以全面评估HNE算法。作为第三个贡献,我们对十种流行的HNE算法的实现进行了细致的重构和修改,并创建了友好的接口,并在多个任务和实验设置上对它们进行了全方位的比较。

1.概述

网络和图形构成了一种规范的、普遍存在的交互对象建模范式,已经引起了各个科学领域的重要研究关注[59、30、24、3、89、87]。然而,现实世界的对象和交互通常是多模态和多类型的(例如,作者、论文、场所和出版物网络中的术语[69,65];基于位置的社交网络中的用户、地点、类别和gps坐标[101,91,94];以及生物医学网络中的基因、蛋白质、疾病和物种[38,14])。为了捕获和利用这种节点和链路的异构性,异构网络被提出并广泛应用于许多真实的网络挖掘场景中,如基于元路径的相似度搜索[70、64、92]、节点分类和聚类[18、20、11]、知识库补全[68、48、103]和推荐[23、106、31]。

与此同时,目前对图数据的研究主要集中在表示学习(图数据嵌入)方面,特别是在神经网络算法的先行者们展示了前所未有的有效而高效的图数据挖掘的经验证据之后[25,4,13]。他们的目标是将图数据(如节点[49、72、26、77、37、28、9、75]、链接[107、1、50、96]和子图[47、93、97、45])转换为嵌入空间中的低维分布向量,在嵌入空间中保留图的拓扑信息(如高阶邻近性[5、76、105、34]和结构[55、102、42、17])。这样的嵌入向量可以被各种下游的机器学习算法直接执行[58,39,10]。

在异构网络与图嵌入的交叉点上,异构网络嵌入(HNE)近年来也得到了较多的研究关注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的应用优势,许多算法在不同的应用领域分别被开发出来,如搜索和推荐[23,63,6,89]。此外,由于知识库(KBs)也属于异构网络的一般范畴,许多KB嵌入算法可以与HNE算法相比较[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在学术界和工业界完全不同的社区开发的。无论是在概念上还是在实验中,都没有对其进行系统全面的分析。事实上,由于缺乏基准平台(有现成的数据集和基线),研究人员往往倾向于构建自己的数据集,并重新实现一些最流行的(有时是过时的)比较算法,这使得公平的性能评估和明确的改进属性变得极其困难。

只需考虑图1中发布数据小例子。较早的HNE算法如metapath2vec [16])是在作者、论文和场所节点类型为(a)的异构网络上发展起来的,但是可以像(b)那样用大量的术语和主题作为附加节点来丰富论文,这使得基于随机游走的浅嵌入算法效果不佳,而倾向于R-GCN[57]这样的基于邻域聚合的深度图神经网络。此外,还可以进一步加入术语嵌入等节点属性和研究领域等标签,使其只适用于半监督归纳学习算法,这可能会带来更大的偏差[104、82、33、54]。最后,通常很难清楚地将性能收益归因于技术新颖性和数据调整之间的关系。

在这项工作中,我们首先制定了一个统一而灵活的数学范式,概括了所有的HNE算法,便于理解每个模型的关键优点(第2节)。特别地,基于对现有模型(以及可能的未来模型)进行清晰分类和总结的统一分类,我们提出了网络平滑度的一般目标函数,并将所有现有的模型重新组织成统一的范式,同时突出其独特的新颖贡献(第3节)。我们认为该范式将有助于指导未来新型HNE算法的发展,同时促进它们与现有算法的概念对比。

作为第二个贡献,我们通过详尽的数据收集、清理、分析和整理(第4节),特意准备了四个基准的异构网络数据集,具有规模、结构、属性/标签可用性等多种属性。这些不同的数据集,以及一系列不同的网络挖掘任务和评估指标,构成了未来HNE算法的系统而全面的基准资源。

作为第三个贡献,许多现有的HNE算法(包括一些非常流行的算法)要么没有一个灵活的实现(例如,硬编码的节点和边缘类型、固定的元路径集等),要么不能扩展到更大的网络(例如,在训练期间的高内存需求),这给新的研究增加了很多负担(例如,,在正确的重新实现中需要大量的工程工作)。为此,我们选择了10种流行的HNE算法,在这些算法中,我们仔细地重构和扩展了原始作者的实现,并为我们准备好的数据集的插件输入应用了额外的接口(第5节)。基于这些易于使用和有效的实现,我们对算法进行了全面的经验评估,并报告了它们的基准性能。实证结果在提供了与第3节的概念分析相一致的不同模型的优点的同时,也为我们的基准平台的使用提供了范例,以供今后对HNE的研究参考。

本文的其余部分组织如下。第2节首先介绍我们提出的通用HNE范式。随后,第3节对我们调查中的代表性模型进行了概念上的分类和分析。然后,我们在第4节中提供了我们准备好的基准数据集,并进行了深入的分析。在第5节中,我们对10种常用的HNE算法进行了系统而全面的实证研究,对HNE的发展现状进行了评价。第六部分是对未来HNE平台使用和研究的展望。

异构网络示例

算法分类

Proximity-Preserving Methods

如前所述,网络嵌入的一个基本目标是捕获网络拓扑信息。这可以通过在节点之间保留不同类型的邻近性来实现。在HNE中,有两类主要的接近性保护方法:基于随机步法的方法(灵感来自DeepWalk[49])和基于一阶/二阶接近性的方法(灵感来自LINE[72])。

Message-Passing Methods

网络中的每个节点都可以将属性信息表示为特征向量xu。消息传递方法的目标是通过聚合来自u邻居的信息来学习基于xu的节点嵌入eu。在最近的研究中,图神经网络(GNNs)[37]被广泛用于促进这种聚合/消息传递过程。

Relation-Learning方法

异类网络中的每条边都可以看作是一个三元组(u, l, v),由两个节点u, v∈v和一个边缘类型l∈TE(即。,实体和关系,用KG表示)。关系学习方法的目标是学习一个评分函数sl(u, v),该函数对任意三元组求值并输出一个标量来度量该三元组的可接受性。这种思想在KB嵌入中被广泛采用。由于已经有关于KB嵌入算法的调查[81],我们在这里只讨论最流行的方法,并强调它们与HNE的联系。

基准

未来方向

在这项工作中,我们对各种现有的HNE算法进行了全面的调研,并提供了基准数据集和基线实现,以方便今后在这方面的研究。尽管HNE已经在各种下游任务中表现出了强大的性能,但它仍处于起步阶段,面临着许多尚未解决的挑战。为了总结这项工作并启发未来的研究,我们现在简要地讨论一下当前HNE的局限性和几个可能值得研究的具体方向。

超越同质性。如式(1)所述,目前的HNE算法主要关注网络同质性作用。由于最近对同构网络的研究,研究位置和结构嵌入的组合,探索如何将这种设计原则和范式推广到HNE将是很有趣的。特别是在异构网络中,节点的相对位置和结构角色都可以在不同的元路径或元图下测量,这自然更具有信息性和多样性。然而,这样的考虑也带来了更困难的计算挑战。

超越准确性。大多数,如果不是全部,现有的研究主要集中在对不同的下游任务的准确性。进一步研究HNE的效率和可扩展性(用于大规模网络)、时间适应性(用于动态演化网络)、鲁棒性(用于对抗攻击)、可解释性、不确定性、公平性等将是非常有趣的。

超越节点嵌入。图级和子图级嵌入在同构网络上得到了广泛的研究,但在异构网络上却很少有研究。虽然诸如HIN2Vec[22]等现有的工作都在研究元路径的嵌入以改进节点的嵌入,但是图和子图级嵌入在异构网络环境中的直接应用仍然处于萌芽状态。

回顾KB嵌入。KB嵌入与其他HNE类型的区别主要在于节点和链接类型的数量不同。直接将KB嵌入到异构网络中不能考虑具有丰富语义的元路径,而将HNE直接应用到KB中由于元路径的数量呈指数增长而不现实。然而,研究这两组方法(以及两种类型的数据)之间的交集仍然很有趣。例如,我们如何将异构网络上的元路径和HNE在KB上嵌入转换的思想与更多的语义感知转换结合起来?我们如何设计基于截断随机游走的方法来包含高阶关系的知识库嵌入?

异构上下文建模。异构网络主要模拟不同类型的节点和链接。然而,现在的网络常常与丰富的内容相关联,这些内容提供了节点、链接和子网的上下文。因此,如何通过多模态内容和结构的集成来对多方面环境下的异构交互进行建模可能是一个具有挑战性但值得研究的领域。

理解局限性。虽然HNE(以及许多神经表示学习模型)已经在各个领域显示出了强大的性能,但值得了解其潜在的局限性。例如,与传统的网络挖掘方法(例如,路径计数、子图匹配、非神经或线性传播)相比,现代HNE算法何时能更好地工作?我们怎样才能把两个世界的优点结合起来呢?此外,虽然对同构网络数据的神经网络背后的数学机制(如平滑、低通滤波、不变和等变变换)进行了深入的研究,通过统一现有的HNE模型,本工作也旨在激发对HNE的能力和局限性的进一步理论研究。

成为VIP会员查看完整内容
0
85

命名实体识别(NER)的任务是识别提到命名实体的文本范围,并将它们分类为预定义的类别,如人员、位置、组织等。NER是各种自然语言应用的基础,如问题回答、文本摘要和机器翻译。虽然早期的NER系统能够成功地产生相当高的识别精度,但它们通常需要大量的人力来精心设计规则或特征。近年来,基于连续实值向量表示和通过非线性处理的语义组合的深度学习被应用到NER系统中,产生了最先进的性能。在这篇论文中,我们对现有的深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,我们根据一个分类法沿着三个轴对现有的作品进行了系统的分类:输入的分布式表示、上下文编码器和标记解码器。接下来,我们调查了最近在新的NER问题设置和应用中应用深度学习技术的最有代表性的方法。最后,我们向读者介绍NER系统所面临的挑战,并概述该领域的未来发展方向。

成为VIP会员查看完整内容
0
76

在过去的几年里,自然语言处理领域由于深度学习模型的大量使用而得到了发展。这份综述提供了一个NLP领域的简要介绍和一个快速的深度学习架构和方法的概述。然后,筛选了大量最近的研究论文,并总结了大量相关的贡献。NLP研究领域除了计算语言学的一些应用外,还包括几个核心的语言处理问题。然后讨论了目前的技术水平,并对该领域今后的研究提出了建议。

成为VIP会员查看完整内容
0
156
小贴士
相关资讯
图数据表示学习综述论文
专知
35+阅读 · 2019年6月10日
自然语言处理常识推理综述论文,60页pdf
专知
44+阅读 · 2019年4月4日
万字长文概述NLP中的深度学习技术
全球人工智能
10+阅读 · 2019年2月28日
清华大学图神经网络综述:模型与应用
机器之心
54+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
165+阅读 · 2018年12月26日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
22+阅读 · 2018年12月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
13+阅读 · 2018年10月21日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
20+阅读 · 2018年6月13日
相关论文
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
91+阅读 · 2020年3月18日
Guneet S. Dhillon,Pratik Chaudhari,Avinash Ravichandran,Stefano Soatto
7+阅读 · 2020年3月1日
Qingyu Guo,Fuzhen Zhuang,Chuan Qin,Hengshu Zhu,Xing Xie,Hui Xiong,Qing He
82+阅读 · 2020年2月28日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
81+阅读 · 2019年12月19日
TinyBERT: Distilling BERT for Natural Language Understanding
Xiaoqi Jiao,Yichun Yin,Lifeng Shang,Xin Jiang,Xiao Chen,Linlin Li,Fang Wang,Qun Liu
8+阅读 · 2019年9月23日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
3+阅读 · 2019年4月25日
Andrea Madotto,Chien-Sheng Wu,Pascale Fung
7+阅读 · 2018年5月21日
Xiangyu Zhao,Long Xia,Liang Zhang,Zhuoye Ding,Dawei Yin,Jiliang Tang
6+阅读 · 2018年5月7日
Zhuwei Qin,Funxun Yu,Chenchen Liu,Xiang Chen
10+阅读 · 2018年4月30日
Zhixing Tan,Mingxuan Wang,Jun Xie,Yidong Chen,Xiaodong Shi
13+阅读 · 2017年12月5日
Top