【一周学术热点】预训练模型,文本生成,模型蒸馏

2020 年 10 月 19 日 深度学习自然语言处理
AI Box 为你回顾上周AI学术热点,分享最新学术资源!

精选论文推荐


1

Which *BERT? A Survey Organizing Contextualized Encoders

【作者】Patrick Xia, Shijie Wu, Benjamin Van Durme
【机构】Johns Hopkins University
【来源】EMNLP 2020
【链接】https://arxiv.org/pdf/2010.00854
【推荐理由】预训练上下文编码器研究综述,涵盖背景知识、预训练任务、效率、预训练数据、探测模型可解释性的方法和多语言系统的研究,强调了解释与评估上下文编码器,以及选择模型时的重要考虑事项,建议研究人员在报告模型优点的同时更要指出其缺陷和不足
【主题】预训练模型

2

Pretrained Language Models for Dialogue Generation with Multiple Input Sources


【作者】Yu Cao, Wei Bi, Meng Fang, Dacheng Tao

【机构】The University of Sydney, Tencent AI LAB, Tencent Robotics X

【来源】EMNLP 2020

【链接】https://arxiv.org/pdf/2010.07576

【代码链接】https://github.com/caoyu-noob/Multi-GPT2

【推荐理由】本文探索了如何更好地基于多种来源的输入(个性、对话历史、已有回复)使用预训练语言模型生成对话回复。模型整体采用seq2seq架构,encoder直接使用GPT-2,decoder在GPT-2的基础上增加了对于个性和对话历史的cross attention,探索了静态、加权和attention这三种attention融合方式,进行个性、对话历史和回复这三个语言模型相结合的多任务学习。实验表明,与直接将多种输入拼接等方式相比,该模型生成的回复在自动和人工测评中表现更好

【主题】对话生成

模型架构示意图


3

A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation


【作者】Moin Nadeem, Tianxing He, Kyunghyun Cho, James Glass
【机构】Massachusetts Institute of Technology
【来源】AACL 2020
【链接】https://arxiv.org/pdf/2009.07243
【代码链接】https://github.com/moinnadeem/characterizing-sampling-algorithms
【推荐理由】文本生成离不开采样,一个好的采样方法可以兼顾生成文本的质量和多样性。但是,目前主流的各采样算法并没有得到充分的研究,它们的优劣也难以量化。本文在语言模型上比较了当前主流的几个采样算法Top-K, Nucleus, Tempered,发现他们都满足三个关键性质,因此在效果上难分伯仲。进一步的研究表明,满足这三个性质的其他采样算法也能够取得很好的效果,这就指出了文本生成所需的必要条件。
【主题】文本生成

不同算法生成的文本示例


4

Sequence Generation with Mixed Representations


【作者】Lijun Wu, Shufang Xie, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu

【机构】Sun Yat-sen University, Microsoft Research, University of Science and Technology of China

【来源】ICML 2020

【链接】https://proceedings.icml.cc/static/paper_files/icml/2020/3729-Paper.pdf

【代码链接】https://github.com/apeterswu/fairseq_mix

【推荐理由】本文力图通过改变传统的单模型单tokenizer的方法,提出了多tokenizer混合表示的方法,并提出一种可利用混合表示的方法来融合更多不同的知识,用于序列生成任务。在6种语言的机器翻译任务和抽象文本摘要任务中取得了显著的增强。本文提出的多tokenizer的混合方法以及联合学习框架,对语言表示学习的研究具有一定参考价值

【主题】文本生成

模型架构


5

Contrastive Distillation on Intermediate Representations for Language Model Compression 


【作者】Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu

【机构】Microsoft Dynamics 365 AI Research

【来源】EMNLP 2020

【链接】https://arxiv.org/pdf/2009.14167.pdf

【代码链接】https://github.com/intersun/CoDIR

【推荐理由】本文针对的问题是使用蒸馏对BERT压缩的工作,以前的方法是在中间层或者最后的输出使用L2损失,但是作者指出这种方法不能准确抓到teacher模型在中间层的结构化知识。本文在BERT蒸馏中的贡献在于1)使用对比学习的方式而不是传统的L2损失函数,来使student model和teacher model中间层表示更接近,即需要构建一个pair对的样本,越是相似的样本他们在teacher和student中间层表示应该越相近,反之则越远;2)对比学习中本文在构建训练数据时,正例为同样的样本在teacher和studnet模型中不同的表示输出,负样本在预训练和fine-tune采用不同的采样策略,在预训练阶段是从同一个mini-batch采样其他的样本,而fine-tune阶段则是采样其他不同label的样本。最终结果上本文蒸馏后得到的小模型在GLUE数据集平均的指标上超过了当前SOTA方法(distilBERT、TinyBERT、SID、PKD)

【主题】模型蒸馏


模型架构



一周学术资讯

当地时间10月12日,国际电气与电子工程师协会(IEEE)官方发布了2021年候选主席的选举结果。美国马里兰大学教授、信号处理领域专家、IEEE院士刘国瑞(KJ Ray Liu)当选。这也是IEEE历史上迎来的第一位华人学者担任主席详细报道

第28届ACM国际多媒体会议(ACM MM)最佳论文奖、最佳学生论文奖、最佳demo奖、 最佳开源软件奖在内的所有多媒体领域大奖都已出炉。其中最佳论文的一作是来自南开大学Hongru Liang,最佳学生论文的一作是来自西安交大的Wenbo Zheng。详细报道

北京时间10月14日,清华大学计算机科学与技术系(以下简称“计算机系”)张悠慧团队、精密仪器系(以下简称“精仪系”)施路平团队与合作者在《Nature》杂志发文,首次提出“类脑计算完备性”以及软硬件去耦合的类脑计算系统层次结构。详细报道

CCF-ACM人工智能奖”授予在人工智能理论、技术或应用做出杰出贡献,且获奖时在中国工作的专业人士。该奖由CCF和ACM共同评选和颁发,于2020年设立。CCF奖励委员会决定授予南京大学周志华教授2020年“CCF-ACM人工智能奖”,以表彰他在机器学习的多个领域做出的杰出贡献。详细报道

2018-2019年,模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展,而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下,又面临很多新的理论和技术问题,本项目希望对模式识别领域的发展历史进行全面梳理,整理出至今在学术届或应用中产生了重大影响的主要研究进展,并且面向未来,提炼出具有重要理论价值或应用需求的值得研究的问题,供模式识别学术界参考,以期对未来基础研究和应用研究产生指导,产出具有重大理论价值或应用价值的研究成果。详细报道



最新学术资源

【资源推荐】ICLR 2021 自监督学习 & Transformer 相关论文


【会议教程】ECML/PKDD20 图表示学习与应用
【PPT链接】https://www.aminer.cn/grla_ecmlpkdd2020
【推荐理由】图表示学习为挖掘和学习网络数据提供了一个革命性的范例。本教程系统地介绍网络上的表示学习。以阿里巴巴、AMiner、Microsoft Academic、微信和XueTangX的行业案例作为教程的开始,来解释网络分析和网络图挖掘如何从表示学习中受益。然后,将全面介绍图表示学习的历史和最新进展,如网络嵌入、图神经网络及其预训练策略。本教程旨在向读者提供图形表示学习的基本理论,以及转化为实际应用方面的经验。最后,发布了面向开放和可重现的图表示学习研究的公共数据集和基准。

【会议教程】NLPCC 2020  预训练语言模型回顾
【详细链接】http://tcci.ccf.org.cn/conference/2020/tutorials.php
【推荐理由】哈工大讯飞联合实验室(HFL)资深级研究员、研究主管崔一鸣受邀在NLPCC 2020会议做题为《Revisiting Pre-trained Models for Natural Language Processing》的讲习班报告(Tutorial),介绍了预训练语言模型的发展历程以及近期的研究热点。

【数据集】 中文自然语言推理数据集OCNLI(Original Chinese Natural Language Inference)
【链接】https://github.com/CLUEbenchmark/OCNLI
【推荐理由】第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。OCNLI包含5万余训练数据,3千验证数据及3千测试数据。我们将提供训练与验证集的数据及标签。测试数据仅提供数据,不提供标签。OCNLI为中文语言理解基准测评(CLUE benchmark)的一部分。



    
    
      
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
后台回复【五件套


下载二:南大模式识别PPT
后台回复南大模式识别



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析

整理不易,还望给个在看!

登录查看更多
0

相关内容

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。
专知会员服务
35+阅读 · 2020年11月29日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
专知会员服务
18+阅读 · 2020年10月13日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
73+阅读 · 2020年9月25日
专知会员服务
24+阅读 · 2020年9月11日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
【论文笔记】NLP 预训练模型综述
深度学习自然语言处理
8+阅读 · 2020年5月14日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
EMNLP 2018 | 从对话生成和文本风格转化看文本生成技术
黑龙江大学自然语言处理实验室
5+阅读 · 2018年12月10日
Arxiv
0+阅读 · 2020年12月3日
Arxiv
3+阅读 · 2020年11月28日
Arxiv
0+阅读 · 2020年11月26日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员