直播预告 | NAACL专场分享会

2022 年 8 月 8 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：AI Time论道 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约2343字，建议阅读4分钟 
           
           本文 
           介绍 
           了8月10日10:00举行的来自清华大学、耶鲁大学等6位学者带来的NAACL主题分享，欢迎扫码预约直播。

8月10日10:00，本期我们邀请到NAACL的六位讲者给大家带来精彩的分享！

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

8月10日 10:00-10:20

讲者简介

秦禹嘉：

本科毕业于清华大学电子工程系，目前是清华大学计算机系二年级直博生，师从刘知远副教授，研究方向为预训练语言模型，曾在ICLR，ACL，NAACL等会议发表多篇一作论文。

分享内容

预训练语言模型的知识继承

报告简介

最近针对大规模预训练语言模型 (PLM) 的研究发现，越大规模的模型通常会取得越好的下游任务效果，这掀起了一波训练越来越大的 PLM 的浪潮。然而，训练大规模 PLM 需要大量的计算资源，既耗时又昂贵。此外，现有的大规模 PLM 大多是从头开始单独训练的，而忽略了许多已经训练完成的 PLM 的可复用性。为此，我们重点探讨了一个加速预训练的问题，即如何利用已经训练的 PLM 帮助未来训练更大的 PLM。具体来说，我们提出了一个名为“知识继承”（KI）的预训练框架，并探讨了知识蒸馏、参数复用等方法如何在预训练期间提升 PLM 的训练效率。

8月10日 10:20-10:40

讲者简介

唐相儒：

耶鲁大学计算机系博士一年级，导师为Mark Gerstein。此前，他于耶鲁大学获得计算机硕士学位，合作导师为Dragomir Radev。他的主要研究方向为预训练语言模型、文本生成和计算生物学。

分享内容

调查用于评估摘要事实一致性的众包协议

报告简介

当前用于摘要的预训练模型容易出现事实不一致，从而歪曲源文本。因此，评估摘要的事实一致性对于开发更好的模型是必要的。然而，用于评估事实一致性的人工评估设置尚未标准化。为了确定影响人工评估可靠性的因素，我们使用基于评级的李克特量表和基于排名的最佳-最差量表，在两个新闻摘要数据集上对最先进模型的事实一致性进行众包评估。我们的分析表明，基于排名的 Best-Worst Scaling 提供了更可靠的跨数据集汇总质量的衡量标准，并且 Likert 评级的可靠性高度取决于目标数据集和评估设计。为了提高众包的可靠性，我们扩展了李克特评分的规模，并提出了一种最佳-最差评分的评分算法，我们称之为价值学习。我们的众包指南将公开提供，以促进未来在总结中的事实一致性方面的工作。

8月10日 10:40-11:00

讲者简介

陈奕帆:

伊利诺伊大学香槟分校的统计系四年级博士生，导师为Yun Yang。他的主要研究方向为非参数统计中的计算方法与其在深度学习模型中的应用。

分享内容

Sketching，一种理解与加速长序列中self-attention的工具

报告简介

考虑到self-attention的二次时空复杂度，基于Transformer的深度学习模型无法高效地处理长序列。为了提升模型的运行速度，Linformer和Informer分别利用低维投影和选择重要的行来将时空复杂度降低至近似线性。我们借助了一个理论框架，sketching，去理解这两个方法背后的联系。这一框架在分析的过程中引出了一个新的改进方法，skeinformer，有效结合了之前两类方法各自的优点。

8月10日 11:00-11:20

讲者简介

罗格:

爱荷华州立大学计算机三年级博士生，导师为Forrest Sheng Bao。目前主要的研究方向为文本摘要以及其评价指标。

分享内容

SueNes: 一种通过负采样评估单文档摘要的弱监督方法

报告简介

经典的自动摘要评估指标，例如ROUGE，侧重于词汇相似性。它不能很好地衡量生成摘要的语义和语言的质量，并且需要使用人力成本高昂的人工编写摘要作为参考。最近，已经有越来越多的研究来解决这两个缺点。在本工作中，我们对无参考的弱监督摘要评估方法进行了概念验证性的研究。通过将文档的参考摘要进行负采样，现有的摘要数据集中的大量数据可被转换为评价指标的训练数据。在跨域测试中，我们提出的指标超越了多个baselines，并在衡量语言质量上方面显示出较大优势。

8月10日 11:20-11:40

讲者简介

姜昱辰:

苏黎世联邦理工学院机器学习研究所的二年级直博生，导师为Ryan Cotterell 和 Mrinmaya Sachan。她在苏黎世联邦理工学院获得计算机科学硕士学位。此前，她在浙江大学完成本科学习。目前，她的研究方向主要是文档级自然语言生成和理解。

分享内容

BlonDe – 文档级机器翻译的自动评估指标

报告简介

标准自动指标，例如 BLEU，对于文档级 MT 评估并不可靠—— 他们既无法区分文档级别的翻译质量改进与句子级别的翻译质量改进，也无法识别不考虑上下文的翻译导致的discourse现象。本工作介绍了一种新颖的机器翻译自动度量 BlonDe，以将自动 MT 评估的范围从句子扩展到文档级别。BlonDe 通过对与话语相关的跨度进行分类并计算分类跨度的基于相似性的 F1 度量来考虑话语连贯性。我们对新构建的数据集 BWB 进行了广泛的比较。实验结果表明，BlonDe 在文档级别具有更好的选择性和可解释性，并且对文档级别的细微差别更加敏感。与以前的指标相比，BlonDe 与人类评估的 Pearson r相关性有显着提高。

8月10日 11:40-12:00

讲者简介

刘天宇：

苏黎世联邦理工学院机器学习研究所的二年级直博生，导师为Ryan Cotterell 和 Mrinmaya Sachan，研究方向主要是结构化预测。

分享内容

结构化的span选择

报告简介

自然语言处理中有很多span层次的任务，需要首先选择相关的span，再进行决策，例如指代消解和语义角色标注。本文中我们利用了span应该是句法成分的假设，提出了一个上下文无关文法建模span的选择过程。在实验中取得了更好的效果，同时减少了内存消耗。

——END——

登录查看更多

相关内容

NAACL

关注 8

The Annual Conference of the North American Chapter of the Association for Computational Linguistics 2019旨在聚集对自然语言处理技术及其在新问题领域应用的设计和研究感兴趣的研究人员。基于这一目标，NAACL-HLT 2019邀请提交关于计算语言学各方面创造性、实质性和未发表研究的长论文和短论文。官网链接：https://naacl2019.org/

【NAACL2022】信息提取前沿

专知会员服务

59+阅读 · 2022年7月11日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日