投稿人就是AI顶会最好的「审稿人」！中国学者提出同行评审新机制

会员服务 ·

投稿人就是AI顶会最好的「审稿人」！中国学者提出同行评审新机制

2022 年 1 月 1 日 新智元

新智元报道

作者：董婉萍温刚

编辑：好困

【新智元导读】近年来，机器学习顶会论文数目井喷，审稿压力巨大，其同行评审制度备受质疑。宾大教授针对此挑战提出了由论文作者协助的新型同行评审机制。

你是否已经受够了NeurIPS，ICLR，ICML等会议的审稿意见？

你是否有过最好的论文被拒稿，但是相对差的论文反而被接收的经历？

相信对众多机器学习、人工智能领域的从业者来说，这种现象已经见怪不怪了。

人工智能专家Ian Goodfellow在Twitter上抱怨同行评审(peer review)

机器学习的成功依赖于大型会议，这一领域发展非常迅速。而期刊审稿周期相对较长，因此大部分最新的工作都首先发表在会议上，像NeurIPS，ICLR，ICML等，这对机器学习的发展壮大起了很重要的作用。

一般来说，学术会议会邀请某一领域的专家审稿 - 即通过同行评审制度 - 决定论文是否值得发表。可以说，顶会现在的成功，很大程度上也要归功于同行评审制度。

反之，如果研究工作不经过可靠的同行评审就发表，可能会带来许多问题：大多数人，即非专家，无法分辨研究结果的好坏对错；也会对研究造成混乱，后人可能会引用错误的结果、结论，这无疑也会阻碍机器学习领域研究的进步。

因此，随着研究人员及论文的数量成倍增加，同行评审的可靠性在今天变得更加重要。对这一制度可靠性的分析和相关的改进方法，也渐渐成为一个热门话题，并引起学术界和业界的关注。

如何改进同行评审的机制，提高审稿流程的可靠性呢？

近日，宾夕法尼亚大学沃顿商学院和计算机系的苏炜杰教授在今年NeurIPS上发表的一篇文章为改进同行评审提供了新的思路，提出一个简单实用的方法，结合了统计和优化的思想。

该研究认为，既然增加审稿人数，或给每个审稿人分配更多的论文不现实，那我们可以要求投稿作者提供信息来协助我们决策，「人尽其才，物尽其用」。然而，又要保证投稿人不会为了自身利益提供不实信息。那么，应该如何设计这一机制呢？

论文地址：https://arxiv.org/abs/2110.14802

苏炜杰教授针对性地提出了一种新机制：保序机制(Isotonic Mechanism)，并从理论上保证了该机制既能激励投稿人提供真实的信息，又能增加审稿结果的可靠性。

背景

正所谓「成也萧何，败也萧何」，同行评审本应是高质量、高影响力研究的过滤器。然而，随着近年来人工智能和机器学习会议大火，投稿数量激增，同行评审制度似乎有一点变味了。

例如，在2014年著名的NeurIPS实验中，人们观察到评审分数具有惊人的高度随意性。从理论上讲，如果重新审稿，NeurIPS 2014年录用的一半以上的文章将被拒稿！

2014NeurIPS实验中第二组委员会对第一组委员会评审意见的结果，

随机选择的被第一组接受的论文中，50.9%被第二组拒绝

究其原因，是海量的投稿导致专业审稿人员数量不足，会议不得不让很多没发过论文的新手来审。以及人均审稿数目增加，使得审稿人员在每篇论文上花费的时间大大减少，一篇论文往往几分钟时间就被判了死刑！

像NeurIPS这一机器学习顶会的投稿量已经从2014年的1673篇增长到今年的9122篇，很多研究人员个人就提交了10篇甚至更多，然而合格的审稿人增长数量根本不可能这么快。

这导致同行评审的质量直线下降，饱受诟病，无法达到它的初衷。如果不改革同行评审制度，从长远来看，势必会削弱公众对机器学习的信心，也会阻碍人工智能的发展。

ML/AI会议论文的爆炸式增长

海报地址：http://www-stat.wharton.upenn.edu/~suw/paper/iso_poster.pdf

当然，学术界早已注意到同行评审制度的相关缺陷，也提出了一些改进的举措：从志愿审稿改为雇佣审稿，或者更加公开的评审（如ICLR在OpenReview上进行审稿），等等。然而，它们要么不切实际，要么会带来新的问题。

同行评审仍然是「可用的最差系统」。

保序机制(Isotonic Mechanism)简介

假设投稿人投出了n篇论文，其真实分数为R1, R2, …, Rn，假设投稿人知道这些真实分数的排序(数学上表示为1, 2, …, n的置换)。

那么，机制要求投稿人汇报自己对这n篇论文打分的排序π，再结合审稿人给出的原始平均分数y1, y2, …, yn，解一个凸问题并给出最终分数。

形式上，这个凸优化问题为：

另外，该机制还假设投稿人是理性的。即投稿人汇报排序π的最终目的是让自己的利益最大化。数学上，表现为投稿人希望机制得出的最终分数可以最大化如下效用函数：

这里假设U是一个不减凸函数。

保序机制的理论保证

我们先将对假设的介绍和对合理性的讨论稍稍后放，以便于突出文章的主要结果，也就是保序机制相对于原始分数在理论上的优越性：

1. 投稿人的最佳策略是如实报告他/她的论文原始分数的真实排序；甚至在投稿人不能完全确定所有真实分数排序时，报告所知道的所有真实信息也是其最优选择。

2. 机制所提供的调整后的最终分数确实严格地比审稿人提供的原始分数要准确。

仅仅是汇报分数的排序，就会提高准确度，其实用性不言而喻。不仅如此，文章作者还进一步对更一般的情况做了推广，文章对投稿人只知道真实分数的分块排序、机制的稳健性（鲁棒性）、效用函数不能表示成n个论文各自效用之和的三种情况进行拓展讨论，充分的展示了保序机制强大的校正功能，以及丰富的现实意义。

到这里，我们再回头看一下假设。除了对函数U的要求，还要求投稿人自己对真实信息必须有一定的了解（这样才能进行协助），以及审稿人打分相对真实分数的噪声在置换下的分布是不变的（可交换性）。这些假设也都是比较实际的。

需要格外注意函数U是凸的假设，对以上结论的成立是至关重要的。这似乎与传统经济学理论中的边际效益递减矛盾。但这里效用衡量的不是「量」的大小，而是决定了论文是否会被作为海报、口头报告，甚至是全会报告的分数。对很多研究者，追求会议论文更大的影响力反映了他们真实的需求，因此效用函数的凸性有其合理性。

保序机制的提出背景

保序机制(Isotonic Mechanism)命名的由来是因为对应的凸问题正是统计学中「保序回归(Isotonic Regression)」的问题形式。

保序回归在观念上是寻找一组非递减的片段连续线性函数，即保序函数，使其与样本尽可能的接近。

保序回归：https://en.wikipedia.org/wiki/Isotonic_regression

另一方面，这篇文章写完提交NeurlPS后不久，大会组织者要求所有作者对他们的文章做一个质量排序，这与保序机制不谋而合。这篇文章非常「及时」，尽管最后并没有用它在今年NeurIPS来做决定。

文章与NeurIPS 2021会议的巧合

值得注意的是，提出该机制的苏炜杰教授差不多有半数文章发表在统计、优化和信息论等领域的期刊，也有大量论文发表在机器学习顶会上，对二者的审稿质量以及录用文章质量的差异深有体会。

一般来说，拥有巨量投稿数量的机器学习顶会的录用文章平均质量要比期刊差很多。同时机器学习的一个特点是一个作者或研究组经常一次提交多篇论文，比如强化学习研究员Sergey Levine向ICLR 2020一次就提交了32篇论文！而保序机制的理论也表明文章数目n越大，提升也越大。

值得注意的是，保序机制的理论证明用到了凸函数和优超不等式等不少数学技巧，熟悉数学竞赛的同学想必不会陌生。

总结与展望

本文提出了通过利用投稿人提供的信息改进同行评审制度的「保序机制」，即激励投稿人报告真实的排序，从而获得更好的决策。

该机制便于实施，且具有理论的最优性保证，如果能在现实中使用该机制，很有希望在一定程度上缓解当前的机器学习顶会的低质量评审问题。

然而，利用额外的作者信息来改善同行评审是一个新型的研究方向，在投入实际应用前还需要一定的努力。对保序机制而言，未来还有一些工作需要完成：

虽然效用函数为凸一定程度上符合研究者的偏好，但是对于一些追求中稿数量的研究者，效用函数可能是一些特殊的非凸函数（例如阶梯状的函数）。如何改进技巧应用到这种问题上？
当前改进同行评审已经有一些初见成效的工作，如何将他们结合进来？
保序机制的准确性是使用L2误差来衡量的。有没有更符合实际情况的误差函数？
如何应对投稿人策略性地利用保序机制，例如故意提交低质量论文变相抬高分数？
在跨学科评审和多个审稿人多个作者的情况下，如何保证噪声的可交换性，如何对应修改保序机制？
保序机制要求提供论文质量的排序是否有附带好处？比如要求作者对自身论文质量有更清楚的认识，或许会减少会议论文常见的「guest authorship」。

无论如何，该机制针对的是一个有关机器学习领域前途的重大问题。如果该问题能解决，将产生巨大的影响力，甚至可以将这种评级制度出圈应用到各种评价环节，具有十分重大的现实意义。

作者简介

文章作者苏炜杰是宾夕法尼亚大学沃顿商学院统计与数据科学系和工学院计算机系助理教授。任宾大机器学习研究中心联合主任。分别于北京大学和斯坦福大学获得本科和博士学位。曾获得NSF CAREER Award和斯隆研究奖。

参考资料：

https://arxiv.org/pdf/2110.14802.pdf

https://www.toutiao.com/i7039916197835506209/?timestamp=1639147753&app=news_article&group_id=7039916197835506209&use_new_style=1&req_id=202112102249130101310380762754C599&wid=1639647590857

https://arxiv.org/pdf/2109.09774.pdf

https://www.reddit.com/r/MachineLearning/comments/r24rp7/d_peer_review_is_still_broken_the_neurips_2021/

https://hub.baai.ac.cn/view/10481

https://zhuanlan.zhihu.com/p/90666675

https://cloud.tencent.com/developer/article/1172713

http://eprints.rclis.org/39332/