精选论文推荐
【作者】Yu Cao, Wei Bi, Meng Fang, Dacheng Tao
【机构】The University of Sydney, Tencent AI LAB, Tencent Robotics X
【来源】EMNLP 2020
【链接】https://arxiv.org/pdf/2010.07576
【代码链接】
https://github.com/caoyu-noob/Multi-GPT2【推荐理由】本文探索了如何更好地基于多种来源的输入(个性、对话历史、已有回复)使用预训练语言模型生成对话回复。模型整体采用seq2seq架构,encoder直接使用GPT-2,decoder在GPT-2的基础上增加了对于个性和对话历史的cross attention,探索了静态、加权和attention这三种attention融合方式,进行个性、对话历史和回复这三个语言模型相结合的多任务学习。实验表明,与直接将多种输入拼接等方式相比,该模型生成的回复在自动和人工测评中表现更好
【主题】对话生成
模型架构示意图
不同算法生成的文本示例
【作者】Lijun Wu, Shufang Xie, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu
【机构】Sun Yat-sen University, Microsoft Research, University of Science and Technology of China
【来源】ICML 2020
【链接】https://proceedings.icml.cc/static/paper_files/icml/2020/3729-Paper.pdf
【代码链接】https://github.com/apeterswu/fairseq_mix
【推荐理由】本文力图通过改变传统的单模型单tokenizer的方法,提出了多tokenizer混合表示的方法,并提出一种可利用混合表示的方法来融合更多不同的知识,用于序列生成任务。在6种语言的机器翻译任务和抽象文本摘要任务中取得了显著的增强。本文提出的多tokenizer的混合方法以及联合学习框架,对语言表示学习的研究具有一定参考价值
【主题】文本生成
模型架构图
【作者】Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu
【机构】Microsoft Dynamics 365 AI Research
【来源】EMNLP 2020
【链接】https://arxiv.org/pdf/2009.14167.pdf
【代码链接】https://github.com/intersun/CoDIR
【推荐理由】本文针对的问题是使用蒸馏对BERT压缩的工作,以前的方法是在中间层或者最后的输出使用L2损失,但是作者指出这种方法不能准确抓到teacher模型在中间层的结构化知识。本文在BERT蒸馏中的贡献在于1)使用对比学习的方式而不是传统的L2损失函数,来使student model和teacher model中间层表示更接近,即需要构建一个pair对的样本,越是相似的样本他们在teacher和student中间层表示应该越相近,反之则越远;2)对比学习中本文在构建训练数据时,正例为同样的样本在teacher和studnet模型中不同的表示输出,负样本在预训练和fine-tune采用不同的采样策略,在预训练阶段是从同一个mini-batch采样其他的样本,而fine-tune阶段则是采样其他不同label的样本。最终结果上本文蒸馏后得到的小模型在GLUE数据集平均的指标上超过了当前SOTA方法(distilBERT、TinyBERT、SID、PKD)
【主题】模型蒸馏
模型架构图
一周学术资讯
当地时间10月12日,国际电气与电子工程师协会(IEEE)官方发布了2021年候选主席的选举结果。美国马里兰大学教授、信号处理领域专家、IEEE院士刘国瑞(KJ Ray Liu)当选。这也是IEEE历史上迎来的第一位华人学者担任主席详细报道
第28届ACM国际多媒体会议(ACM MM)最佳论文奖、最佳学生论文奖、最佳demo奖、 最佳开源软件奖在内的所有多媒体领域大奖都已出炉。其中最佳论文的一作是来自南开大学Hongru Liang,最佳学生论文的一作是来自西安交大的Wenbo Zheng。详细报道
北京时间10月14日,清华大学计算机科学与技术系(以下简称“计算机系”)张悠慧团队、精密仪器系(以下简称“精仪系”)施路平团队与合作者在《Nature》杂志发文,首次提出“类脑计算完备性”以及软硬件去耦合的类脑计算系统层次结构。详细报道
最新学术资源
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! 后台回复【五件套】
下载二:南大模式识别PPT 后台回复【南大模式识别】
推荐两个专辑给大家: 专辑 | 李宏毅人类语言处理2020笔记 专辑 | NLP论文解读 专辑 | 情感分析
整理不易,还望给个在看!