新智元推荐
来源:爱思美谱(ID:acemap_)
作者:傅洛伊 、姚宇航、吴承旸、崔家铭、王新兵
当下,随着互联网和人工智能技术的蓬勃发展,信息科学部的研究成果吸引了社会和学界的广泛关注,成为基金委各人才项目中不可或缺的一环。因此,有必要对信息科学部的分析和精准画像,深入探究学者变迁和项目的发展方向。
上海交通大学AceMap学术搜索组在对国内人才项目进行立体学术画像的基础上,着重对信息科学部进行深入剖析,研究信息科学部下各子学科合作关系和发展情况,搜集并研究学者从本科、硕士、博士到教职的机构变迁情况,提取人才项目关键词,分析学者科研方向,探究关键词在子学科、机构的分布情况,对于研究信息科学部学科划分、学者变迁和科研发展方向均具有参考意义。
图1信息科学部合作星云图
图1中的节点代表获评人才项目的学者,不同颜色代表获评时所在的信息科学部下属部门,红色代表一处(电子学与信息系统学科),蓝色代表二处(计算机科学学科),黄色代表三处(自动化学科),绿色代表四处(半导体、光学与光电子学科)。节点之间的连边代表合作关系,边越宽意味着合作次数越多,节点距离越近,意味着相似度更高、合作更紧密。依据合作关系可以明显将学者分为三个星系团(社区):三处中涉及控制理论和系统科学的学者位于图中上方,人数较少,与其他两个星团距离较远;从图中可以观察到有部分黄色和红色节点与蓝色节点合作紧密,和二处计算机方向学者共同位于图中左下角;一处和三处涉及电子、通信和半导体等研究,研究方向相近,彼此合作非常紧密,呈“你中有我,我中有你”模态,位于图中右下角。
通过学者的合作关系可以推知学者的研究领域,一些学者在某一学科申报项目,但本身研究方向可和另外部门的学者合作更加紧密。
图2信息科学部合作星云图局部放大图A
以南京大学周志华教授及其合作者为例。他们在信息三处申报项目,但图2同时显示他们与二处计算机方向合作紧密,意味着研究方向可能与计算机更为接近。实际中,周志华教授本人从事人工智能方向,担任计算机系教授。由于三处包含了人工智能方向,该方向和二处计算机方向关联紧密。
图3信息科学部合作星云图局部放大图B
类似地,再以信息一处戴琼海院士为例。从图3中可以看出其与二处的高文院士距离很近,可以推知二者研究方向很接近。实际中,戴琼海院士从事立体视觉和计算摄像学研究,高文院士致力于视频编码与分析,两者的研究方向具有高契合度。
通过对合作星云图的分析与学者所属部门划分相比能更加全面准确地刻画学者的合作关系和研究方向,对学者的研究领域有更直观的理解,同时对于学科划分有一定的参考意义。
图4人才项目学者机构变迁知识图谱
图4展示了工程与材料科学部、信息科学部、生命科学部、医学科学部、化学科学部、数理科学部、地球科学部、管理科学部等8个学部近年来优青、杰青、创新群体获评学者与所在机构的整体分布情况构建知识图谱,包含可以搜集到的部分学者(信息科学部)本科、硕士、博士毕业所在的学术机构。图中包括5617位学者和352所机构,其中代表学者的节点为红色,代表机构的节点则用黄色表示,本科、硕士、博士、优青、杰青、创新各自使用蓝色的节点代表,而八个学部则表示为绿色。
表1机构学者人数排行
本科 |
硕士 |
博士 |
优青 |
杰青 |
创新 |
清华大学(65) |
清华大学(33) |
清华大学(64) |
清华大学(38) |
清华大学(28) |
清华大学(6) |
北京大学(31) |
西安电子科技大学(21) |
北京大学(33) |
北京大学(17) |
北京大学(18) |
北京大学(6) |
西安电子科技大学(27) |
北京大学(20) |
上海交通大学(31) |
上海交通大学(16) |
上海交通大学(14) |
浙江大学(4) |
上海交通大学(25) |
上海交通大学(17) |
浙江大学(31) |
浙江大学(16) |
浙江大学(14) |
中国科学院自动化研究所(4) |
南京大学(23) |
东南大学(15) |
西安电子科技大学(28) |
中国科学技术大学(15) |
中国科学院半导体研究所(14) |
东南大学(4) |
浙江大学(23) |
北京航空航天大学(14) |
北京航空航天大学(25) |
哈尔滨工业大学(14) |
南京大学(13) |
中国科学院物理研究所(4) |
北京航空航天大学(19) |
华中科技大学(14) |
南京大学(24) |
北京航空航天大学(13) |
中国科学技术大学(11) |
上海交通大学(3) |
中国科学技术大学(19) |
浙江大学(13) |
中国科学技术大学(21) |
东南大学(10) |
北京邮电大学(11) |
北京邮电大学(3) |
东南大学(18) |
中国科学院半导体研究所(12) |
东南大学(20) |
电子科技大学(10) |
电子科技大学(11) |
中国科学院数学与系统科学研究院(3) |
华中科技大学(18) |
哈尔滨工业大学(11) |
中国科学院半导体研究所(19) |
复旦大学(10) |
华中科技大学(10) |
电子科技大学(3) |
表1列出了信息科学部本科、硕士、博士、优青、杰青、创新学者人数最多的10所学校。不难发现,C9高校占据了排行榜中的绝大多数。除此之外,北京航空航天大学、西安电子科技大学、东南大学、华中科技大学等非C9学校也在排行榜中占据了一席之地。在教育经历与成果的横向对比上可以看出,北京大学与清华大学在优青、杰青、创新群体的获评人数远超其他C9学校(浙江大学、中国科学技术大学、复旦大学、上海交通大学、南京大学等),体现出了学术影响力上的明显差异与一定程度上的平台优势。在本硕博的区域,清华大学的毕业人数居于首位,而北京大学与紧随其后的其他学校在毕业人数的差距则没有那么显著。该现象可以解释为:北京大学在教育上体量偏小,但不可否认的是其学术研究上对于人才培养的成果与清华大学平分秋色。
从机构的分布可以看出,获得优青、杰青、创新群体的学者在教育上的经历分布较为平均,有许多学者硕士甚至博士毕业于北美或者欧洲的一些院校,国内的院校也五花八门,这部分院校主要分布在图的左边和左上角,在教育中充当的是培养基本素质的角色。而获评的各人才项目则集中于特定的国内高校,说明许多优秀的学者在加入这些院校后做出了自己的成果,获得了国家自然科学基金委员会的认可。这部分学校分布在中间偏左的位置,除了C9和前面排行榜中提到的学校之外,也可以看到许多中国科学院的研究所,这些机构的人数无法与高校相提并论,但承担的都是前沿科技的研究,也取得了杰出的成就。
图5科学院院士与工程院院士教育经历的机构变迁螺旋图
图5以两院院士为例探究了众多学者教育经历的变迁,其中本科、硕士、博士所在学校分别用绿色、黄色、红色节点表示,而最外层的粉色节点则表示获评院士时所在的机构。通过观察可以发现,人才流动具有明显的集群效应,大部分的学者最终加入了C9高校,其中北京大学、清华大学、哈尔滨工业大学、浙江大学等尤为集中,与之前统计所推断出的平台优势相符。在学校的排名上,根据院士人数对所有院校进行顺时针排列后将每位学者本科硕士博士所在的学校相连接,可以看出,半径上的直线说明该学者从本科开始一直留在相同学校直到最后获评院士,曲线则代表其教育经历中从一个机构迁移到了另一个机构。在这种情况下,可以认为由内向外逆时针方向的曲线意味着前往排名更高的学校,反之亦然。总体上进行比较,很明显逆时针的曲线数量超过顺时针的曲线,即大多数学者集中到了排名靠前的学校,与先前的观察相符。
图6信息科学部关键词与机构关联图
图6在对各人才计划获评的项目名称进行自然语言处理与标签提取的基础上呈现信息科学部各处的关键词之间和其与学术机构之间的联系。图中各个学术机构用紫色的节点表示,红色的节点代表信息科学部一处的关键词,黄色代表二处,绿色代表三处,蓝色则代表四处,中间粉色的节点表示该关键词出现在了不止一个处的项目中,属于跨学科的领域。所有的学校根据获评项目的数量进行顺时针排列。从图中可观察到,清华大学获评数最多,第二梯队中,北京理工大学、北京邮电大学、北京航空航天大学、华中科技大学等与其他C9高校实力相当。对于单个机构进行观察,可以发现不同学校之间研究侧重点上的差异。例如与北京邮电大学相连接的边几乎全部都是红色,意味着该机构在科研方面重点着力于信息科学部的一处;而吉林大学与苏州大学连接的边则以蓝色占据绝对的主导地位,说明这两所学校的研究领域主要分布在四处。
图7关键词-年份对照图
依照1997-2018年,信息学部四个处当选的杰青的项目信息的数据,我们绘制了如图7所示的关键词-年份对照图。图中共涉及1997-2018间21个不同的年份,并按照时间的先后依次由青色向粉红色渐变显示。同时,我们根据杰青当选时的项目信息,特别是题目中的信息,我们提取出了366个关键词,以及关键词之间18831次在同一项目信息中的共同出现,依次按照信息学部的四个处信息来分别展示,即图中红色、蓝色、黄色、绿色分别代表该关键词的当选人分别属于一处至四处,而图中紫色的部分则说明这一关键词的使用是跨越了处的界限的,代表了一定程度上的交叉融合。其中,代表出现了交叉融合的紫色节点的个数共有15个,代表一处的红色关键词(节点)有94个,代表二处的蓝色关键词(节点)有78个,代表三处的黄色关键词(节点)有69个,代表四处的绿色关键词(节点)有110个。同时,图中关键词代表节点的大小,代表了这一关键词被提及的次数,而代表关键词的点与点之间的边的粗细,则代表了两者同时出现的次数的多少。而代表关键词的点与外围代表年份的点之间的连线,则说明该关键词在该年曾经被该处的某位当选的杰青所提及。
下面仅以一例来说明关键词-年份对照图的含义。例如对于黄色的三处,我们看到在比较早期,也就是外围时间环中粉色的部分,1998年前后出现了控制、图像处理、机器视觉三个关键词(同一年份词语排序不分先后),而对于这两个节点,我们通过其与图片中间连线,可以看出这两个关键词在中间的关键词关系图中,其节点大小都较大,说明这一关键词和其代表的研究方向,在后来的领域发展中,获得了较高的提及频率。事实上,通过对下面的关键词-年份-申请人的查找,我们可以看到这两个关键词对应的是1998年当选杰青的谭铁牛,而其当时的项目题目则是”图象处理与机器视觉”,契合了我们的关键词和对应的年份定位。
而在了解了图的含义后,通过对于图中的连线的分析,我们可以看到,早期的关键词信息相对而言比较少,而绝大部分的关键词和关键词被涉及的次数都是近十数年来才开始大规模出现的,一方面,这与早期杰青的数量相对较少有关,而另一方面,其也从侧面反应了信息学科近年来的爆发式发展和在不同领域上的不断深化和交叉融合。
而通过对于关键词之间的跨越界限和交叉融合来分析,我们可以看到诸如多媒体、网络、编码、控制等内容逐渐被扩展开来,一、二、三这几个处都有所涉及,事实上考虑到近几年来深度学习,图像识别等领域的火热,这也是近些年在这些领域上的学科交叉与融合的体现。
此外,通过对于处内关键词的词频的分析,我们也可以看到一些现象,例如图中左下角的绿色的四处部分,其早年间的关键词通常都是包括光学等基础理论,而近年来,则更加偏向于诸如量子等更加趋向于应用和前沿的词语,这也说明了这一学科理论的逐渐完善,和新领域的不断开拓。而类似的现象也发生在了一处的关键词之上,诸如微波、电磁场等关键词,其与外围年份对应的连边中,粉色系边的数量明显要多于青色系的数量,也即也体现出了明显的偏向于早年的特点。
图8关键词-年份-申请人对照图
而与之对应的,我们又同时绘制了如图8所示的关键词-年份-申请人对照图。图中呈螺旋放射状的节点是代表关键词的节点。类似的,节点由内向外依次由粉色逐渐过渡为青色,分别代表了1997-2018年这21年间的关键词变化。特别的,如果一个关键词在某年的某个处出现不止一次的话,我们则会将该年该词对应的节点放大。同样的,我们把当选的杰青,按照其当选时的处信息,按照红色、蓝色、黄色、绿色与一处至四处一一对应,放在了图的外围。而代表人和代表关键词的连线,则说明该人在该年当选杰青时,其项目信息涉及了这个关键词。其中,代表一处的红色点的杰青人数为135,代表二处的蓝色点的杰青人数为107,代表三处的黄色点的杰青人数为106,代表四处的绿色点的杰青人数为167。
通过分析每年的螺旋放射状的节点数量可以看出,在近二十余年的杰青评选中,通过横向对比各处所涉及的关键词的数量,可以看出四个处的关键词数量还是大致一致的。而纵向的依据每年关键词的数量上分析,可以看到尽管不同年份之间存有波动,但从整体趋势而言,年代越靠后的关键词数量越多,这也与上面关键词-年份对照图的直观印象形成了对应。
此外,节点大小则与我们通过谷歌学术上获取的总引用量相关。对于能够在谷歌学术上获取被引量数据的学者,我们将他们对应的外围节点大小与被引量的对数成正比,同时对于谷歌学术上没有被引量数据的学者,则以全体杰青被引量的平均值暂代。而通过对比几个处的学者的被引量,我们可以看出,一处的整体被引量相对而言较小,而其余三个处的被引量则基本保持相对一致。考虑到一处所涉及的学科的特殊性,这并不代表学者之间研究能力的高下,而仅仅是体现了学科之间的差异化分布。
随着信息化时代的到来,信息科学部正在蓬勃发展,得到了广泛的关注,通过对信息科学部人才项目的专家画像和分析,可以了解信息学部发展的整体情况、人才机构变迁的情况和不同子学科的发展趋势,对于信息学部下学者的关系研究和项目审理提供了重要参考。随着分析的不断深入,未来将利用整个人才项目组成的知识图谱构建专家系统,更进一步对各领域专家进行学术画像。
本文经授权转载微信公众号“爱思美谱”,ID:acemap_
新智元春季招聘开启,一起弄潮AI之巅!
岗位详情请戳:
【加入社群】
新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。