NLP模型「可理解分析+评价排行榜」,CMU最新工具助你找到好idea

2021 年 4 月 27 日 机器之心
机器之心发布
机器之心编辑部

CMU 联合复旦、俄亥俄州立大学的研究者推出了一个将模型可理解分析和模型评价排行榜结合起来的科研辅助工具 ExplainaBoard,能够完成单系统诊断、数据集分析以及可信度分析等任务,有效提升科研人员的学术体验。


你是否在读论文的时候觉得别人的 idea 很有道理,可自己设计 idea 时却无从下手? 是否经常因为「模型效果好,但是没有给出有深度且全面的解释」而被审稿人给低分?

当你厌倦了挖掘新的模型结构时,是否对数据集特性的挖掘感兴趣,从而引领一个更加健康的领域发展 方向? 在刚接触一个新领域时,如何做到: 既能快速了解该领域目前发展的状况,又能快速了解它的瓶颈?

还记得不久前引起网络热议的自动审稿系统么?这支来自 CMU 的 团队日前又发布了一个 可解释的系统排行榜(ExplainaBoard),它被定位成一个科研辅助产品 ,巧妙地把「模型可理解分析」和「模型评价排行榜」两个看似无关的元素结合,将平时科研中很多被我们忽略却很重要的部分转化成「一键式」操作,从而提升科研人员做学术的体验。


  • 系统链接:http://explainaboard.nlpedia.ai/

  • 论文链接:https://arxiv.org/pdf/2104.06387.pdf


目前,ExplainaBoard 在单任务上支持分类、抽取、生成在内的 9 个主流 NLP 任务,涉及 40 多个数据集、 300 多个模型;在多任务上,支持多语言评价基准,包含 40 多种语言和 9 个跨语言任务。

技术解读

随着深度学习模型的快速发展,排行榜(Leaderboard)已经成为一种用来追踪各种系统性能的主流工具。然而,由于在排行榜上排名靠前的模型所具有的声望,很多研究人员只关注提高评估指标的数字,而忽略了对模型特性更深入的科学理解。

ExplainaBoard 就是在这样的背景下诞生的,它不仅可以排序不同的模型,还提供了很多与模型和数据集相关的——可理解、可交互和可信赖的分析机制(如下图所示):


具体说来,它可以完成以下功能:

单系统诊断

可以解决的问题:「 我设计的模型擅长 / 不擅长做什么?


系统对诊断

可以解决的问题:「 我设计的模型比别人的好在哪里?


数据集分析

可以解决的问题:「 数据集的特点是什么?


共有错误分析

可以解决的问题:「 排名 Top-5 的系统共同错误预测是什么?


细粒度错误分析

可以解决的问题:「 模型错误预测主要发生在哪儿,以及具体是哪些错误?

 
系统组合

可以解决的问题:「 将排名 Top-5 的系统组合在一起,会得到一个更强大的系统么?


可信度分析

可以解决的问题:「 模型预测结果的可信程度有多高?


校准分析

可以解决的问题:「 预测的可信度是如何校准其正确性的?


应用前景

在应用上,据该项目负责人刘鹏飞博士介绍,ExplainaBoard 目前收到了 DeepMind、Google、Huggingface 和 Paperswithcode 等多家企业的合作邀请以及投资人的青睐。

比如,Google & Deepmind 最新 arXiv 工作 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation 使用 ExplainaBoard 升级了他们的多语言评测基准。


点击阅读原文,立即报名。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

粤港澳大湾区数字经济研究院是一家面向人工智能、数字经济产业和前沿科技的国际化创新型研究机构,坐落于深圳市深港科技创新合作区内。IDEA正与 MSR、Google Brain、DeepMind、OpenAI 等同行者一起推动人类 AI 技术前沿的发展。IDEA 的使命是立足社会需求,研发颠覆式创新技术并回馈社会,让更多的人从数字经济发展中获益。IDEA 秉承共享共赢共生的开源开放精神,积极营造自由而富有激情的创新工作环境,聚集全世界最聪慧的大脑一起创造人类社会最需要的价值。我们坚持科技擎天,产业立地,相信最好的研究从需求中来,到需求中去,最终惠及广大企业和受众。 IDEA 目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家,致力于在 AI 基础技术与开源系统、人工智能金融科技、区块链技术与可信计算、企业级 AI 系统、产业智能物联网与智能机器人等领域研发国际顶尖成果,并培育一批国际领先科技企业,带动深圳乃至大湾区万亿级数字经济产业发展。 AIPT(AI 平台技术研究中心)致力于建设支撑人工智能算法、算力和数据的平台,通过具体项目的研发、实施和部署来推进 AI 技术的落地和产业化,团队成立以来,已发布 ReadPaper 论文阅读平台、BIOS 医疗知识图谱两款产品。AIPT 负责人-谢育涛曾任微软公司技术合伙人兼微软(中国)操作系统工程院院长。谢育涛在微软公司工作 20 余年,先后在微软美国总部的 Microsoft Office 产品组、必应团队、微软亚洲互联网工程院以及微软(中国)操作系统工程院、人工智能和云计算等多个研发部门担任重要职务。他在操作系统、搜索技术、人工智能、应用及服务领域拥有丰富的技术与管理经验。
专知会员服务
76+阅读 · 2021年5月30日
专知会员服务
7+阅读 · 2021年4月20日
专知会员服务
54+阅读 · 2021年4月20日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
专知会员服务
197+阅读 · 2020年3月6日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
官方 | 从机器翻译到阅读理解,一文盘点PaddlePaddle九大NLP模型
机器学习算法与Python学习
8+阅读 · 2019年4月13日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
Arxiv
10+阅读 · 2018年2月9日
VIP会员
相关VIP内容
专知会员服务
76+阅读 · 2021年5月30日
专知会员服务
7+阅读 · 2021年4月20日
专知会员服务
54+阅读 · 2021年4月20日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
专知会员服务
197+阅读 · 2020年3月6日
Top
微信扫码咨询专知VIP会员