来源:AI Time论道 本文为约2343字,建议阅读4分钟
本文 介绍 了8月10日10:00举行的来自清华大学、耶鲁大学等6位学者带来的NAACL主题分享,欢迎扫码预约直播。
8月10日10:00,本期我们邀请到NAACL的六位讲者给大家带来精彩的分享!
哔哩哔哩直播通道
扫码关注AI TIME哔哩哔哩官方账号预约直播
8月10日 10:00-10:20
讲者简介
秦禹嘉:
本科毕业于清华大学电子工程系,目前是清华大学计算机系二年级直博生,师从刘知远副教授,研究方向为预训练语言模型,曾在ICLR,ACL,NAACL等会议发表多篇一作论文。
分享内容
预训练语言模型的知识继承
报告简介
最近针对大规模预训练语言模型 (PLM) 的研究发现,越大规模的模型通常会取得越好的下游任务效果,这掀起了一波训练越来越大的 PLM 的浪潮。然而,训练大规模 PLM 需要大量的计算资源,既耗时又昂贵。此外,现有的大规模 PLM 大多是从头开始单独训练的,而忽略了许多已经训练完成的 PLM 的可复用性。为此,我们重点探讨了一个加速预训练的问题,即如何利用已经训练的 PLM 帮助未来训练更大的 PLM。具体来说,我们提出了一个名为“知识继承”(KI)的预训练框架,并探讨了知识蒸馏、参数复用等方法如何在预训练期间提升 PLM 的训练效率。
8月10日 10:20-10:40
讲者简介
唐相儒:
耶鲁大学计算机系博士一年级,导师为Mark Gerstein。此前,他于耶鲁大学获得计算机硕士学位,合作导师为Dragomir Radev。他的主要研究方向为预训练语言模型、文本生成和计算生物学。
分享内容
调查用于评估摘要事实一致性的众包协议
报告简介
当前用于摘要的预训练模型容易出现事实不一致,从而歪曲源文本。因此,评估摘要的事实一致性对于开发更好的模型是必要的。然而,用于评估事实一致性的人工评估设置尚未标准化。为了确定影响人工评估可靠性的因素,我们使用基于评级的李克特量表和基于排名的最佳-最差量表,在两个新闻摘要数据集上对最先进模型的事实一致性进行众包评估。我们的分析表明,基于排名的 Best-Worst Scaling 提供了更可靠的跨数据集汇总质量的衡量标准,并且 Likert 评级的可靠性高度取决于目标数据集和评估设计。为了提高众包的可靠性,我们扩展了李克特评分的规模,并提出了一种最佳-最差评分的评分算法,我们称之为价值学习。我们的众包指南将公开提供,以促进未来在总结中的事实一致性方面的工作。
8月10日 10:40-11:00
讲者简介
陈奕帆:
伊利诺伊大学香槟分校的统计系四年级博士生,导师为Yun Yang。他的主要研究方向为非参数统计中的计算方法与其在深度学习模型中的应用。
分享内容
Sketching,一种理解与加速长序列中self-attention的工具
报告简介
考虑到self-attention的二次时空复杂度,基于Transformer的深度学习模型无法高效地处理长序列。为了提升模型的运行速度,Linformer和Informer分别利用低维投影和选择重要的行来将时空复杂度降低至近似线性。我们借助了一个理论框架,sketching,去理解这两个方法背后的联系。这一框架在分析的过程中引出了一个新的改进方法,skeinformer,有效结合了之前两类方法各自的优点。
8月10日 11:00-11:20
讲者简介
罗格:
爱荷华州立大学计算机三年级博士生,导师为Forrest Sheng Bao。目前主要的研究方向为文本摘要以及其评价指标。
分享内容
SueNes: 一种通过负采样评估单文档摘要的弱监督方法
报告简介
经典的自动摘要评估指标,例如ROUGE,侧重于词汇相似性。它不能很好地衡量生成摘要的语义和语言的质量,并且需要使用人力成本高昂的人工编写摘要作为参考。最近,已经有越来越多的研究来解决这两个缺点。在本工作中,我们对无参考的弱监督摘要评估方法进行了概念验证性的研究。通过将文档的参考摘要进行负采样,现有的摘要数据集中的大量数据可被转换为评价指标的训练数据。在跨域测试中,我们提出的指标超越了多个baselines,并在衡量语言质量上方面显示出较大优势。
8月10日 11:20-11:40
讲者简介
姜昱辰:
苏黎世联邦理工学院机器学习研究所的二年级直博生, 导师为Ryan Cotterell 和 Mrinmaya Sachan。她在苏黎世联邦理工学院获得计算机科学硕士学位。此前,她在浙江大学完成本科学习。目前,她的研究方向主要是文档级自然语言生成和理解。
分享内容
BlonDe – 文档级机器翻译的自动评估指标
报告简介
标准自动指标,例如 BLEU,对于文档级 MT 评估并不可靠—— 他们既无法区分文档级别的翻译质量改进与句子级别的翻译质量改进,也无法识别不考虑上下文的翻译导致的discourse现象。本工作介绍了一种新颖的机器翻译自动度量 BlonDe,以将自动 MT 评估的范围从句子扩展到文档级别。BlonDe 通过对与话语相关的跨度进行分类并计算分类跨度的基于相似性的 F1 度量来考虑话语连贯性。我们对新构建的数据集 BWB 进行了广泛的比较。实验结果表明,BlonDe 在文档级别具有更好的选择性和可解释性,并且对文档级别的细微差别更加敏感。与以前的指标相比,BlonDe 与人类评估的 Pearson r相关性有显着提高。
8月10日 11:40-12:00
讲者简介
刘天宇:
苏黎世联邦理工学院机器学习研究所的二年级直博生, 导师为Ryan Cotterell 和 Mrinmaya Sachan,研究方向主要是结构化预测。
分享内容
结构化的span选择
报告简介
自然语言处理中有很多span层次的任务,需要首先选择相关的span,再进行决策,例如指代消解和语义角色标注。本文中我们利用了span应该是句法成分的假设,提出了一个上下文无关文法建模span的选择过程。在实验中取得了更好的效果,同时减少了内存消耗。