Statistical significance testing centered on p-values is commonly used to compare NLP system performance, but p-values alone are insufficient because statistical significance differs from practical significance. The latter can be measured by estimating effect size. In this paper, we propose a three-stage procedure for comparing NLP system performance and provide a toolkit, NLPStatTest, that automates the process. Users can upload NLP system evaluation scores and the toolkit will analyze these scores, run appropriate significance tests, estimate effect size, and conduct power analysis to estimate Type II error. The toolkit provides a convenient and systematic way to compare NLP system performance that goes beyond statistical significance testing


翻译:以p-value为核心的统计意义测试通常用于比较NLP系统性能,但单是p-value本身是不够的,因为统计意义与实际意义不同,后者可以通过估计影响大小来衡量。在本文中,我们提出一个三阶段程序,用于比较NLP系统性能,并提供工具箱NLPSTATTTTest,使过程自动化。用户可以上传NLP系统性能评分,工具包将分析这些分数,进行适当的意义测试,估计影响大小,并进行能力分析,以估计第二类错误。工具包提供了方便和系统的方法,比较NLP系统性能,超越了统计意义测试。

0
下载
关闭预览

相关内容

专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Design and Analysis of Switchback Experiments
Arxiv
0+阅读 · 2021年1月14日
Classification with Strategically Withheld Data
Arxiv
0+阅读 · 2021年1月14日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关论文
Design and Analysis of Switchback Experiments
Arxiv
0+阅读 · 2021年1月14日
Classification with Strategically Withheld Data
Arxiv
0+阅读 · 2021年1月14日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月18日
Top
微信扫码咨询专知VIP会员