数据驱动的实验分析已成为自然语言处理(NLP)算法的主要评价工具。事实上,在过去的十年中,已经很少看到一篇NLP论文,尤其是一篇提出新算法的论文,不包括大量的实验分析,涉及的任务、数据集、领域和语言的数量在不断增加。这种对实证结果的强调强调了统计显著性检验在自然语言处理研究中的作用:如果我们作为一个社区,依赖实证评估来验证我们的假设并揭示正确的语言处理机制,我们最好确保我们的结果不是巧合。
本书的目标是讨论NLP中统计显著性检验的主要方面。我们贯穿全书的指导假设是,NLP研究人员和工程师要处理的基本问题是,一种算法是否可以被认为比另一种算法更好。这个问题推动了这个领域的发展,因为它允许不断发展更好的技术来应对语言处理的挑战。在实践中,研究人员和工程师希望从一组有限的实验中得出正确的结论,这一结论应该适用于其他使用他们没有可用数据集的实验,或由于时间和资源有限而无法执行的实验。因此,本书从两种算法的实验比较的角度讨论了在自然语言处理中使用统计显著性检验的机遇和挑战。我们涵盖的主题包括为主要的NLP任务选择合适的显著性检验,处理非凸深度神经网络显著性检验的独特方面,以统计有效的方式在两种NLP算法之间进行大量的比较(多重假设检验),最后,数据和现场实践的性质带来了独特的挑战。
https://www.morganclaypool.com/doi/10.2200/S00994ED1V01Y202002HLT045