We present an enhanced benchmark for evaluating linguistic acceptability in Danish. We first analyze the most common errors found in written Danish. Based on this analysis, we introduce a set of fourteen corruption functions that generate incorrect sentences by systematically introducing errors into existing correct Danish sentences. To ensure the accuracy of these corruptions, we assess their validity using both manual and automatic methods. The results are then used as a benchmark for evaluating Large Language Models on a linguistic acceptability judgement task. Our findings demonstrate that this extension is both broader and more comprehensive than the current state of the art. By incorporating a greater variety of corruption types, our benchmark provides a more rigorous assessment of linguistic acceptability, increasing task difficulty, as evidenced by the lower performance of LLMs on our benchmark compared to existing ones. Our results also suggest that our benchmark has a higher discriminatory power which allows to better distinguish well-performing models from low-performing ones.


翻译:我们提出了一个用于评估丹麦语语言可接受性的增强基准。首先,我们分析了丹麦语书面语中最常见的错误类型。基于此分析,我们引入了一组包含十四种破坏函数的方法,通过系统性地在正确的丹麦语句子中引入错误来生成错误句子。为确保这些破坏操作的准确性,我们采用人工与自动方法相结合的方式对其有效性进行了评估。所得结果随后被用作评估大型语言模型在语言可接受性判断任务上的基准。我们的研究结果表明,该扩展基准在广度和全面性上均超越了当前最优方法。通过纳入更多样化的错误类型,我们的基准提供了对语言可接受性更严格的评估,从而提高了任务难度——这一点从大型语言模型在我们基准上的表现低于现有基准的结果中得到证实。我们的结果还表明,该基准具有更高的区分能力,能够更好地区分高性能模型与低性能模型。

0
下载
关闭预览

相关内容

【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员