AI 科技评论按:随着 2018 年的结束,剑桥大学高级研究员 Marek Rei 再度更新了过去一年机器学习和自然语言处理领域的论文发表统计数据,本次,他选择了ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI 12 个主要的会议/期刊进行数据统计,从会议、作者、第一作者以及组织机构四个维度进行了论文发表数量的排名。雷锋网 AI 科技评论编译如下。
今年,又到了更新过去一年机器学习和自然语言处理领域的论文发表统计数据的时候了。这两个领域依旧在快速发展,无论是发表论文数量还是参会人员数量都打破了往年的记录。今年学术会议界最轰动的事件莫过于「NeurIPS 大会正会门票 11 分钟售罄」了。在本文中,我将针对这些数据提供详细的统计,显示在特定会议上作者或者组织机构所发表论文的数量。
2018 年,我统计了以下会议/期刊的数据:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI。这种选择是为了覆盖机器学习和语言技术领域论文发表的最知名和高排名的会议。与去年相比,我去掉了 SemEval,因为它主要关注共享任务相关的论文,而我在其它会议中也没有统计该领域的论文发表数据。同时,我添加上了 作为顶级会议之一但在过去的排名中被遗漏的 AAAI。NeurIPS(原名为 NIPS)在 2018 年改名了,为了保持名称的一致性,我在这里将使用最新的名称。
这个分析是通过我多年来一直在不断改进的一系列脚本自动完成的。该论文列表抓取自在线会议录,在那里通常也可以找到作者的姓名。组织机构的名称则需要直接从 PDF 中提取,这就可能会带来相当多的噪声。我开发了各种方法来检查各类不同的名称并对其进行分组,但是如果你在文中发现了任何剩下的错误,请告知我。
虽然这篇文章重点介绍了近年来发表论文数最多的研究者和组织机构,但我想指出的是,我不认为论文发表数量是一个领域应该追逐或赞扬的东西。如下图所示,该领域正变得越来越热门,并且论文数量的快速增长也伴随着论文质量的参差不齐。写 1 篇独具开创性的论文总比发布 10 篇通通都容易被遗忘的充量性的论文要好。这篇文章旨在从更清晰、更高的视角来看待发表论文的研究者、组织机构以及他们在各会议上发表论文的现状,或许能为有好想法的新的研究者带来一些灵感。
首先,我们来看一下所有会议在 2012-2018 年间的论文发表数量。大多数机器学习会议的论文发表数量保持继续增长,其中 AAAI 和 NeurIPS 超过了 1000 篇论文;EMNLP 和 NAACL 的论文发表数量与往年相比也有大幅增长; ACL 和 COLING 的论文发表数量则与往年差不多;EACL 在今年没有举行;而 TACL 和 CL 的论文发表数量多年来一直保持相对平稳的状态。
(注:图中论文发表数量为零的点,都表示会议在该年份没有举行。)
接下来,我们来看看 2018 年在这些会议上发表论文数量最多的个人作者。其中,有三位作者的论文发表数量惊人,为 22 篇,他们分别是周明(微软)、Graham Neubig(卡耐基梅隆大学)和 Sergey Levine(UC 伯克利)。紧随其后的是张潼(腾讯 AI,近期离职)、孙茂松(清华大学)和 Iryna Gurevych(达姆施塔特工业大学),其中,张潼的论文发表数为为 21 篇,孙茂松和 Iryna Gurevych 则各自发表了 20 篇论文。
从 2012-2018 年的论文发表总数来看,Chris Dyer(DeepMind)仍以 97 篇论文位居榜首。紧随其后的是周明(微软)、Yoshua Bengio(蒙特利尔大学)、张岳(西湖大学)和 Noah A. Smith(华盛顿大学),发表的论文总数分别为 90 篇、84 篇、80 篇、79 篇。大部分作者都明确地偏爱某个领域的会议——要么偏爱 NLP 领域的会议,要么偏爱核心 ML 领域,大概只有 Percy Liang 算是个例外,他对这两个领域都不偏不倚。
我们还可以查看每位作者在不同年份发表的论文数量。与其他作者相比,Chris Dyer 在 2015、2016 这两年发表的论文数量引人注目,虽然张岳(西湖大学)和周明(微软)之后也迎头赶上了。
然后,来看一下关于第一作者的统计数据。前面所提到的作者大部分都是团队领导者,而通常第一作者才是那个实际执行、进行实验和撰写论文大部分内容的人。这类作者当中的佼佼者当属 Yi Tay(南洋理工大学),他就读博士三年级,2018 年以第一作者在几个重要大会上共发表 10 篇优秀的论文。之后是微软研究院的朱泽园,以第一作者共发表 6 篇论文。紧随其后的是 Mikel Artetxe、Jiatao Gu(香港大学),Dinghan Shen(杜克大学)和 Nathan Kallus(康奈尔大学),他们以第一作者各发表 5 篇论文。
再看看 2012-2018 年的论文发表总量,李纪为(香侬科技)发表了 22 篇一作论文。其后是朱泽园(微软)、Young-Bum Kim(亚马逊)、Ryan Cotterell(剑桥大学)和 Ivan Vulić(剑桥大学),其中朱泽园以第一作者发表的论文数量为 18 篇,Young-Bum Kim、Ryan Cotterell 、Ivan Vulić 均为 17 篇。
接着,看一下关于组织机构的统计数据。和前两年一样,2018 年 CMU 再度位居榜首,其在 NLP 和核心 ML 两个领域发表的论文数量旗鼓相当。谷歌和微软依旧是业界领导企业,紧随其后的是清华大学、斯坦福大学、北京大学、MIT 和伯克利大学。
此排名中,中国上榜的组织机构有清华大学、北京大学、中国科学院大学、中国科学院、上海交通大学以及香港中文大学,其中清华大学位列第四,北京大学位列第六,中国科学院大学位列第九,中国科学院位列第十一,上海交通大学以及香港中文大学则分别排在第十六、第二十四。
我们再来看一下 2012-2018 年的组织机构排名,情况类似。CMU 仍然占据榜首,微软和谷歌分列占据第二、第三的宝座。普林斯顿大学、法国国家信息与自动化研究所(INRIA)、杜克大学的关注度似乎主要聚焦在核心 ML 领域,它们在 NLP 领域发表的论文几乎没有。与他们相反,清华、中科院和爱丁堡大学则主要聚焦于语言应用领域,在 NeurIPS/ICML 会议上发表了大量论文。
从下图的时间线来看,我们可以看到 CMU 多年来都保持了大量的论文输出,且论文输出数量仍在继续增长。谷歌和微软竞争激烈,不过目前看来谷歌似乎稍占上风。清华、北大等中国的大学目前的论文输出数量也正在剧烈增长。
最后,我对作者和组织机构进行了主题分类。我收集了与特定作者/组织机构相关的所有论文,将它们转换为小写并进行令牌化(tokenized),然后用 LDA 处理,并用 t-SNE 对这些论文进行可视化。排名靠前的论文字符实体可视化效果非常好,显示了他们的论文内容与图中其他论文内容的相似度。
以上就是今年机器学习和自然语言处理领域的论文发表统计数据及排名。如果你在文中发现了任何错误,或者你对明年的文章有什么建议,通过留言或者发送邮件让我知道。
via: http://www.marekrei.com/blog/ml-and-nlp-publications-in-2018/