【导读】脑洞问题:如果只看两个AI顶会,其他一概不管,那么最厉害的是哪些国家、哪些机构、哪些企业?按这个路子做出一个排行榜的话,又会是什么样子?(不许说野榜!)
还别说,专注科技界的风险投资公司Thundermark Capital 就年年做这个事,最近,这家公司又推出了他们一年一度的全球AI研究年度排名。
这次他们选择的两个顶会是:ICML 2021和NeurIPS 2021,一共3523篇论文(其中ICML为1184篇,NeurIPS为2339篇)。
由于篇幅有限,在表格中只列全球前20个AI研究排名的大学。部分大学表格内是缩写(不一定严谨),后附全称。
因为Thundermark Capital本身的失误,上图中把南洋理工大学标为中国的大学。相信新加坡的朋友们不会太介意……吧?
MIT=麻省理工学院;CMU=卡内基梅隆大学;UCB=加利福尼亚大学伯克利分校;UCLA=加利福尼亚大学洛杉矶分校;ETH=苏黎世联邦理工学院;UT Austin=得克萨斯大学奥斯汀分校;EPFL=洛桑联邦理工学院;KAIST=韩国科学技术院;UW=华盛顿大学;NYU=纽约大学;NUS=新加坡国立大学;Gatech=佐治亚理工学院;哥大=哥伦比亚大学;UofT=多伦多大学
这个排名的方法参考了Nature Index,这个指标的计算方法是这样的:
为了收集一个国家、一个地区或一个机构对一篇文章的贡献,并确保不会重复计算,Nature Index使用分数计算,综合考虑到每篇文章的作者份额。
计入Nature Index的每篇文章总分为 1,在每个人的贡献相同的情况下,由所有作者平均分享。比如一篇文章有10个作者,那么每个作者得到的分数为0.1。如果一位作者所属的机构不只一家,作者的分数会平均分配给这些机构。
最终,一个研究机构的总分,是旗下所有作者分配给该机构分数的总和。
国家/地区分数的计算过程与此类似,但由于一些机构有海外实验室,这些实验室将被计入所在国家/地区的总分,因此计算过程比较复杂。
说完了Nature Index,来说说这份报告的分数计算。
其实和Nature Index基本相同,唯一的区别是,这份报告将企业或机构的海外实验室的论文计入其总部所在的国家/地区,而不是其实际驻在国家/地区。
确实,这么算可能会有争议,但这种方法更好地反映了知识产权的分配和对总部(而不是对当地实验室)的利益累积。
以DeepMind为例,这是一家位于英国的人工智能研究实验室,2014年被总部位于美国的跨国公司谷歌收购。
按照上面的计算方式,DeepMind发表的论文会计入其目前的所有者——谷歌,也就是美国。这可能会让英国的朋友们失望了。然而,仅凭会议论文集,在地图上定位每个作者的位置过于复杂了,现在这个方法是唯一一致的作者身份处理方法。
希望这两个AI顶会的组织者今后能进一步提供作者的详细信息,这样就可以排出两个版本的榜单,一个是基于企业所有权结构的排名,另一个是基于作者所在地的排名。
如果一篇论文有五个作者——其中三个来自MIT,一个来自牛津大学,一个来自谷歌。首先,每个作者将得到五分之一的分数,即每人0.2分。因此,仅从这篇论文来看,MIT将获得3*0.2=0.6分,牛津大学获得0.2分,谷歌获得0.2分。
由于MIT位于美国,所以美国的分数增加0.6分。同样,由于牛津大学在英国,欧洲经济区+瑞士+英国地区将增加0.2分。
最后,谷歌是一家总部设在美国的跨国公司,因此美国的分数将额外增加0.2,总共获得0.8分。
如果一个作者附属于多家不同机构,在计算时会把对应分数平均分给每个附属机构。
比如上面说的这个例子,如果最后一位作者列出了两个附属机构,即谷歌和斯坦福大学,那么谷歌和斯坦福大学都将获得额外的0.2/2=0.1分。
从直观的角度出发,谷歌的指数为200,可以解释为谷歌在2021年的这两个AI会议上发表了200篇完整的论文。
关于参考数据集,榜单发布方认为,将ICML和NeurIPS的论文合并到同一个数据集中是公平的。
这两个会议在顶级AI研究人员中的感知威望(可以理解为「口碑」)接近。从研究机构的参与度,以及论文接受率上看,这两个会议的表现也在伯仲之间。(ICML 2021接受率为21.5%,NeurIPS 2021的接受率为20.1%)。
实际上,这份榜单选择ICML和NeurIPS这两个会议作为「机器学习」领域的评价标杆倒是有一定的道理。比如CVPR、ICCV这类顶会可能影响力更大,但它们都有明显侧重的子领域。
在中国计算机学会(CCF)发布的「中国计算机学会推荐国际学术会议和期刊目录」上,在人工智能子类别下共列出了7个A类会议,ICML和NeurIPS均榜上有名。
根据去年7月更新的谷歌学术指标( Google Scholar Metrics )对各行业顶会和期刊影响力的排名,NeurIPS和ICML和在「工程和计算机科学」类别中分别位列第4位和第7位。
在清华AMiner对计算机科学顶会的排行榜上,结果也差不多。NeurIPS排名第2,ICML位列第4.
根据Guide2Research梳理的顶会排名,NeurIPS排在第2,而ICML则可以排到第6。
虽然说了这么多,但综合来看这套评价标准并不能称得上有多严谨,但依然可以作为参考看上一看。
正如读者可见到的,在过去的两年里,中国在人工智能领域进行了大规模的研究,其论文出版指数每年增加了52%和53%--考虑到ICML和NeurIPS会议的竞争程度,这是一个非常令人印象深刻的成就。
因此,中国的顶级高校
清华大学从两年前的第15位上升到今天的第8位,超过了Facebook、UCLA、ETH、EPFL、普林斯顿和UT Austin等强大竞争者
。
另一所中国顶级大学北京大学,其AI研究的分数也紧跟清华大学,其论文出版指数落后一两年(目前为第16位)。
另一个巨大的进步来自于德国,在过去的两年里,德国的论文出版指数分别增加了42%和44%。
评分机构并未发现任何支撑此态势的、单一的明星大学或公司(德国的入榜顶级机构是排名第42位的图宾根大学)。
德国的AI研究增长势头,在地理上均匀分布于德国出名的马克斯-普朗克研究所及各地的技术大学间。
此外,韩国的论文出版指数在过去两年中分别提高了64%和32%。它在AI研究方面的仍才实力现在与瑞士相当(并略微超过)。
顺便提一下,韩国的地区邻居新加坡(尚未进入排名前十)表现惊人,在过去两年中,其论文出版指数提高了128%和55%,目前排名第11位。
按照这个速度,它可能会在短短几年内赶上日本(第10位)。
今天,一场关于美国和中国在AI领域占主导地位的战略竞赛状况的激烈辩论正在进行。
第一,
谷歌的AlphaGo成为第一个在无让子的情况下击败围棋九段职业选手李世石的计算机程序
;
第二,
奥巴马总统的政府发布了一项关于AI未来方向和考虑的战略,名为《为人工智能的未来做准备》
。
作为回应,中国在2017年提出了
《新一代人工智能发展规划》
,不仅提出了政策上的支持还有数十亿美元的研发投资。
据Thundermark Capital分析,由于中国的这种协同努力,美国在AI方面的技术优势一直在迅速消失:
2017年,美国对中国有
11
倍的领先优势;到2019年,美国下降到
7
倍的领先优势;2020年,美国只剩下
6
倍的领先优势;在写这篇文章时,美国的领先优势是
4
倍。
此外,艾伦人工智能研究所的分析发现,在被引用次数最多的前10%的论文中,中国的作者比例稳步上升。
人们可能会说,未来十年美国在人工智能方面的竞争力看起来并不乐观。
然而,Thundermark Capital认为,结果将取决于现代AI三个关键要素的进步的相互作用:
算法、硬件和训练数据
,要想在该领域占据主导地位,就必须把这三者都做好。
在未来几年里,美国仍会在AI算法方面拥有强大的领先优势,其基础是MIT、斯坦福大学、CMU和加州大学伯克利分校等世界级大学几十年的计算机科学进步。
此外,谷歌和Facebook等公司在AI学术会议上发表内部研究的开放性,为顶级AI研究者创造了一个繁荣的生态系统,他们现在在学术界和产业界之间无缝流动。
此外,美国是硅谷最初以硅为中心的定义的所在地,它一直处于硬件创新的前沿。
Thundermark Capital认为,在未来五到十年内,中国要想在先进的微处理器技术方面赶上美国是非常困难的,尤其是考虑到英特尔、AMD和英伟达所拥有的庞大专利组合的保护。
然而,当涉及到训练数据的可用性时,美国的优势是值得怀疑的。获取数据是更广泛的隐私与公共利益争论的一部分,美国倾向于选择前者,而中国则选择后者。
今天在中国,人工智能从数以亿计的街头摄像头中扫描人脸,阅读数十亿条微信信息,并分析数以百万计的健康记录。这种训练数据的可用性,加上中国的14亿人口,为中国创造了巨大的战略优势。
虽然难以得出结论,但作者仍然认为前两个因素(算法和硬件)将超过最后一个因素(数据的可用性),美国将在未来几年内保持其在AI能领域的领先地位。
最近,针对中国的进展,白宫宣布为人工智能和量子计算等研究领域注资10亿美元,以回应许多政策顾问的「美国在这些邻域落后于中国」的担忧。
参考资料:
https://thundermark.medium.com/ai-research-rankings-2022-sputnik-moment-for-china-64b693386a4
https://www.reddit.com/r/MachineLearning/comments/utjp01/r_ai_research_rankings_2022_sputnik_moment_for/