1 Which *BERT? A Survey Organizing Contextualized Encoders 【作者】Patrick Xia, Shijie Wu, Benjamin Van Durme 【机构】Johns Hopkins University【来源】EMNLP 2020【链接】https://arxiv.org/pdf/2010.00854【推荐理由】预训练上下文编码器研究综述,涵盖背景知识、预训练任务、效率、预训练数据、探测模型可解释性的方法和多语言系统的研究,强调了解释与评估上下文编码器,以及选择模型时的重要考虑事项,建议研究人员在报告模型优点的同时更要指出其缺陷和不足【主题】预训练模型 2 Pretrained Language Models for Dialogue Generation with Multiple Input Sources
【作者】Yu Cao, Wei Bi, Meng Fang, Dacheng Tao
【机构】The University of Sydney, Tencent AI LAB, Tencent Robotics X
【会议教程】NLPCC 2020 预训练语言模型回顾 【详细链接】http://tcci.ccf.org.cn/conference/2020/tutorials.php【推荐理由】哈工大讯飞联合实验室(HFL)资深级研究员、研究主管崔一鸣受邀在NLPCC 2020会议做题为《Revisiting Pre-trained Models for Natural Language Processing》的讲习班报告(Tutorial),介绍了预训练语言模型的发展历程以及近期的研究热点。
【数据集】中文自然语言推理数据集OCNLI(Original Chinese Natural Language Inference) 【链接】https://github.com/CLUEbenchmark/OCNLI【推荐理由】第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。OCNLI包含5万余训练数据,3千验证数据及3千测试数据。我们将提供训练与验证集的数据及标签。测试数据仅提供数据,不提供标签。OCNLI为中文语言理解基准测评(CLUE benchmark)的一部分。