GEMv2:以单线代码为基准的多语言NLG (GEMv2: Multilingual NLG Benchmarking in a Single Line of Code)

Sebastian Gehrmann,Abhik Bhattacharjee,Abinaya Mahendiran,Alex Wang,Alexandros Papangelis,Aman Madaan,Angelina McMillan-Major,Anna Shvets,Ashish Upadhyay,Bingsheng Yao,Bryan Wilie,Chandra Bhagavatula,Chaobin You,Craig Thomson,Cristina Garbacea,Dakuo Wang,Daniel Deutsch,Deyi Xiong,Di Jin,Dimitra Gkatzia,Dragomir Radev,Elizabeth Clark,Esin Durmus,Faisal Ladhak,Filip Ginter,Genta Indra Winata,Hendrik Strobelt,Hiroaki Hayashi,Jekaterina Novikova,Jenna Kanerva,Jenny Chim,Jiawei Zhou,Jordan Clive,Joshua Maynez,João Sedoc,Juraj Juraska,Kaustubh Dhole,Khyathi Raghavi Chandu,Laura Perez-Beltrachini,Leonardo F. R. Ribeiro,Lewis Tunstall,Li Zhang,Mahima Pushkarna,Mathias Creutz,Michael White,Mihir Sanjay Kale,Moussa Kamal Eddine,Nico Daheim,Nishant Subramani,Ondrej Dusek,Paul Pu Liang,Pawan Sasanka Ammanamanchi,Qi Zhu,Ratish Puduppully,Reno Kriz,Rifat Shahriyar,Ronald Cardenas,Saad Mahamood,Salomey Osei,Samuel Cahyawijaya,Sanja Štajner,Sebastien Montella, Shailza,Shailza Jolly,Simon Mille,Tahmid Hasan,Tianhao Shen,Tosin Adewumi,Vikas Raunak,Vipul Raheja,Vitaly Nikolaev,Vivian Tsai,Yacine Jernite,Ying Xu,Yisi Sang,Yixin Liu,Yufang Hou

Evaluation in machine learning is usually informed by past choices, for example which datasets or metrics to use. This standardization enables the comparison on equal footing using leaderboards, but the evaluation choices become sub-optimal as better alternatives arise. This problem is especially pertinent in natural language generation which requires ever-improving suites of datasets, metrics, and human evaluation to make definitive claims. To make following best model evaluation practices easier, we introduce GEMv2. The new version of the Generation, Evaluation, and Metrics Benchmark introduces a modular infrastructure for dataset, model, and metric developers to benefit from each others work. GEMv2 supports 40 documented datasets in 51 languages. Models for all datasets can be evaluated online and our interactive data card creation and rendering tools make it easier to add new datasets to the living benchmark.

翻译：机器学习中的评价通常以以往的选择为基础,例如使用哪些数据集或衡量标准。这种标准化使得能够使用领导板在平等基础上进行比较,但随着更好的替代方法的出现,评价选择会变得亚于最佳。这个问题在自然语言生成方面特别相关,需要不断改进数据集、指标和人文评价的组合,以便提出明确的要求。为了更容易采用最佳模式评价做法,我们引入了GEMv2。新一代的生成、评估和计量基准为数据集、模型和计量开发者引入了模块化基础设施,以便相互受益。 GEMv2 支持51种语言的40个记录数据集。所有数据集的模型都可以在线评估,我们的互动式数据卡创建和工具可以更容易地将新的数据集添加到活的基准中。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

【医学图像处理中的因果性】52页ppt，Causality Matters in Medical Imaging

专知会员服务

60+阅读 · 2020年3月14日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日