当前人工智能中的基准测试范式存在许多问题:基准很快饱和,容易过度拟合,包含可利用的注释器工件,评估指标不清晰或不完善,并且不能衡量我们真正关心的东西。我将谈谈我在尝试重新思考我们在人工智能(特别是在自然语言处理)中进行基准测试的方式时所做的工作,包括对抗性的NLI和模因数据集,以及最近推出的Dynabench平台。

https://nlp.stanford.edu/seminar/details/douwekiela.shtml

成为VIP会员查看完整内容
30

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
51+阅读 · 2021年1月11日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
专知会员服务
169+阅读 · 2020年8月26日
GANs最新进展,30页ppt,GANs: the story so far
专知会员服务
42+阅读 · 2020年8月2日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
5GAA:C-V2X和DSRC的性能对比分析报告
智能交通技术
11+阅读 · 2019年3月8日
39页《迁移学习自然语言生成》PPT
专知
9+阅读 · 2019年2月13日
阿里巴巴ET城市大脑
智能交通技术
6+阅读 · 2018年12月23日
自然语言处理(NLP)前沿进展报告(PPT下载)
Arxiv
6+阅读 · 2018年7月12日
VIP会员
相关VIP内容
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
51+阅读 · 2021年1月11日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
专知会员服务
169+阅读 · 2020年8月26日
GANs最新进展,30页ppt,GANs: the story so far
专知会员服务
42+阅读 · 2020年8月2日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
微信扫码咨询专知VIP会员