伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei 教授从2016年起,每年都会对ML&NLP相关的会议论文进行统计和分析,并一年一度发表分析结果,目前已成为该领域权威性的报告内容。近期,Marek Rei 再次发布2019年度机器学习和自然语言处理(ML&NLP)领域的年度统计。从其分析中,我们可以清晰地看到在ML&NLP领域到底哪家单位最狂(非谷歌莫属),哪些单位实例雄厚,哪位学者研究突飞猛进,以及中美之间实力差距如何巨大。根据Marek Rei教授的报告结果,我们一一进行分析!注:报告统计数据来源于2019年机器学习和NLP相关的会议和期刊,其中统计范围包括ACL,EMNLP,NAACL,EACL,COLING,TACL,CL,CoNLL,NeurIPS,ICML,ICLR,AAAI。
分析2019年各国家和地区的论文发表数量,这还是首次。不可否认地,下面这张统计图展示了美国在 AI 领域“力压群山”的主导地位,不过中国、英国、德国和加拿大在该领域所发挥的影响力也不容小觑。单独从各大会议会议上来看,中国在 AAAI 上的论文发表数量甚至与美国持平,可见中国研究者在 AAAI 上扮演着举足轻重的角色。另外中国在NeurIPS、EMNLP、ACL 等会议上的表现也非常出色,虽然可能不及在 AI 领域本就拥有先天优势的美国,但是遥遥领先于其他国家和地区。下图展示了2012年至2019年各国家和地区的论文发表总数,整体排名和差距情况与2019年各国家和地区的发表论文数量差不多。这些年来,美国的论文发表数量都一直远超其他国家和地区,并且现在还在加速拉大这一差距。而中国则在拼尽全力与美国匹敌,如今也以不断增大的幅度领先于美国以外的其他国家和地区。而英国虽然在论文发表数量以及增长幅度上不及美国和中国,也还是牢牢锁住了第三的位置。
在中国,高校是论文发表的中坚力量,排在前十的有九所高校,仅有一家企业。清华大学和北京大学分别锁住了第一、第二的宝座,二者在国际舞台上的表现同样不菲,是中国进入全球各机构论文发表排行榜前十仅有的两所高校,近年来对于 AI 领域的整体发展做出了较大的贡献和推动作用。中国科学院大学、中国科学院、南京大学是论文发表数量排在第三至第五的高校,三所高校在 中国乃至全球 AI 领域扮演的角色同样出类拔萃,不仅有该领域的领军人物坐镇,如周志华等,还有为 AI 领域培养了一大批人才,如中科院计算所等机构。而企业同样是中国论文发表的一只辅助力量,其中百度、阿里巴巴是其中表现比较出色的企业,分别成立了科研性的实验室,近年来也发表了大量的科研论文。
英国— DeepMind的传奇
在英国, 谷歌麾下的DeepMind 遥遥领先,其后是剑桥大学、牛津大学、爱丁堡大学、伦敦大学学院、帝国理工大学和阿兰图灵机构。值得注意的是,阿兰图灵机构由剑桥、牛津、爱丁堡、华威和伦敦大学学院五所大学领导,所有该机构的论文发表数据与其他几所大学有一定交叉,因此具体数据比较模糊。论文发表数量排在前七的机构中,剑桥大学和爱丁堡大学主要聚焦于 NLP 领域,而其他机构则主要专注于 ML 领域。
德国—NLP一家独大
在德国,达姆施塔特工业大学是论文发表数量最多的机构,尤其是在 NLP 领域,论文发表数量占德国论文发表总数的 2/3。罗伯特·博世有限公司总体论文发表数量排在第二,但 ML 领域的论文发表数量却是德国机构中最多的。随后是萨尔大学、慕尼黑大学、图宾根大学、慕尼黑工业大学、马克斯普朗克智能系统研究所,分别排在第三至第第七的位置。
加拿大—三足鼎立
在加拿大,多伦多大学的论文发表数量是各机构中最出类拔萃的,排在第一,随后是蒙特利尔大学、Vector 人工智能研究院,分别排第二、第三。滑铁卢大学是聚焦于 NLP 领域研究的唯一一所机构,而其他机构的论文大多数都发表在 ML 的相关会议上。
8、国际合作的多元化,中国还有待提升
Marek 也做了另外一项分析,即根据论文研究课题进行相似性分析,得出一些有意思的结论:首先是组织之间的相似性,从下图可以看出,来自中国的大学主要集中在图的上部分,美国大学主要在图的右侧,欧洲则在左侧,企业在中间。因此可以看出研究课题即是非常具有区域性的,高校之间的相互合作受地域影响很大,而企业则相对就比较灵活。相似性也可以应用到作者的分析上,下图的紧密度反映了研究者之间研究课题的相似性和合作频率。从图中可以看出秦涛(Tao Qin)和刘铁岩(Tie-Yan Liu)很近,这很容易理解,他们都在微软亚洲研究院工作。也可以将相似性分析应用到国家和地区。不过鉴于每个国家都会有许多不同的主题,下面这个图可能更能代表它们的合作频率。中国居于右下角,距离较近的是新加坡、澳大利亚、日本等,但距离其他国家和地区就比较远了,例如与台湾、韩国、法国等的合作就不是很紧密。而美国和英国在国际合作上相对比较多元化。
9、因崔斯汀的统计数据
最后,让我们再来看一些有趣的数据:1)提及GitHub(就是指有代码开放)的论文占比:ACL 有70 %的论文、 EMNLP 有69%,的论文、 NAACL有 68%的论文、 ICLR 有56%的论文、 NeurIPS有 46%的论文、ICML 有45%的论文、 AAAI 有31%的论文提及GitHub。如此来看,NLP领域的论文似乎大多都免费开放了论文代码。2)单篇论文作者最多有 24 位,论文是《 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases》(地址:https://arxiv.org/abs/1909.05378)3)标题最长的论文:《What if We Simply Swap the Two Text Fragments? A Straightforward yet Effective Way to Test the Robustness of Methods to Confounding Signals in Nature Language Inference Tasks》(地址:https://arxiv.org/abs/1809.02719)4)标题最短的论文:《Graph U-Nets》(地址:https://arxiv.org/abs/1905.05178) 参考来源:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2019/