【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

自然语言生成（NLG）在许多应用中发挥着至关重要的作用。评估生成文本的质量对于确保NLG系统的有效性和用户满意度至关重要。随着近年来深度学习的普及，许多模型被报告在流行的基准测试中达到了超越人类的性能。然而，人们观察到，现有的整体基准和评估指标经常未能准确评估该领域感兴趣的特定评估因素。 本论文探索了一个诊断性评估框架，用于评估NLG任务中生成文本的语法性、忠实度和多样性（GFD）。这三个指标被视为基本的语言质量，NLG模型的输出中需要具备这些质量。通过分析句子与明确定义的形式语法的解析性来检查语法性。忠实度被分为两个方面：基于事实的忠实度和任务的忠实度。这两个方面调查模型输出与输入中提供的信息以及任务的固有要求的对齐程度。多样性进一步细分为词级和解析级多样性测量。在提出的GFD框架中，评估这三个指标不需要构建特定于任务的参考资料。

通过清晰定义和评估这些生成质量，该框架旨在提供对NLG模型的优势和限制的见解。为了展示GFD评估框架的多功能性，探索了三种不同的生成任务：合成图像标题生成、足球精彩片段生成自比赛统计数据和话题转换对话生成。这些任务被故意选择来涵盖生成场景的广泛范围。每个任务提供独特的基础信息和约束，影响生成过程，进而为评估NLG模型创造多样的挑战。对这些任务的实验揭示了在真实表达减少或者在输入基础与任务约束之间存在微妙平衡时，进行细粒度NLG评估的挑战。本论文通过实验证明了GFD评估框架结合诊断数据集如何能够提供模型优势和限制的见解以补充标准评估。

https://www.repository.cam.ac.uk/items/1718b380-029b-42a3-891d-da52016323c2

成为VIP会员查看完整内容

相关内容

剑桥大学

关注 9

剑桥大学（英语：University of Cambridge；勋衔：Cantab）为一所座落于英国剑桥郡剑桥市的研究型大学。它是英语世界中历史第二悠久的大学，也是世界现存第四古老的大学。剑桥大学的起源为一群牛津大学的学者，因与牛津市民发生冲突而移居至剑桥。剑桥与牛津这两所在中世纪建立的英国大学，在校务运作、学术声望、社会地位等多方面都非常相似，经常合称为“牛剑”

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

专知会员服务

49+阅读 · 2024年4月10日

【牛津大学博士论文】探索半监督学习的概率模型，127页pdf

专知会员服务

40+阅读 · 2024年4月8日

【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

专知会员服务

43+阅读 · 2023年12月30日

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

35+阅读 · 2023年11月5日