自 1956 年「人工智能」概念首次被提出,70 多年时光浇筑和岁月雕刻,以至今天「AI 无处不在」的繁荣景象。其中离不开的,更是一代代科研工作者的博积耕耘。
今年 1 月,AMiner 团队推出 AI 2000 榜单,旨在通过 AMiner 学术数据在全球范围内遴选过去十年间,人工智能学科最有影响力、最具活力的顶级学者,赞扬他们对于人工智能研究领域的卓越贡献。本次学术头条有幸对入围这一名单的北京邮电大学计算机学院副教授王啸进行了采访。
从事科学研究,离不开长久的坚持和持续的努力,但对王啸来说,付出的价值,取决于对目标的追求。他说:「在过去的科研经历中,我常常‘吾日三省吾身’,希望不断深入,探究本质。」
与「图」的不解之缘
谈到进入科研领域的契机,王啸似乎不同于许多人在摸索中前进,他表示:「其实从我进入科研生涯开始,就一直关注图(graph)这个领域。」
王啸博士就读于天津大学,2016 年毕业后进入清华大学担任研究员,再进入北京邮电大学成为教师。跟许多科研工作者一样,他认为自己真正开始投身科研,其实是从博士开始的。当时,他的主攻内容是社区发现(community detection),这是一种用来发现网络中的社区结构的问题。
当时学者们已经发现,社区与社区之间存在重叠现象,同时有一些异常点不会被包含在任一社区中,此外在每个社区内部,都可能存在比其他节点更关键的「中心节点」。然而,还没有一种模型能够同时较好地识别出上述三种结构。因此,王啸首先关注到的问题就是,如何从一个庞大的 graph 中一劳永逸地找到这种社区所共有的结构。
在导师操晓春老师和金弟老师的带领下,王啸将重叠社区、中心点和异常点的识别定义为基于非负矩阵分解(NMF)的优化问题,从而得到模型 CDNMF,该模型能够一次性识别出上述三种社区特征,具有优越的性能。因此,凭借刻苦的钻研,王啸从「不知道怎么做出高水平的研究」的科研小白不断成长,顺利发表了自己学术生涯开端的第一篇论文,开启了与「图」的不解之缘。
图 | CDNMF 模型用于识别社区特殊结构的结果:不同形状代表社区成员身份,不同颜色代表不同社区。中心点由黑色方框标记;有多种颜色的节点即重叠处;粉色节点为异常值。
时光荏苒,王啸始终沉醉于图的魅力之中。2016 年博士毕业后,他进入清华大学开始研究图表示学习,即如何学习图数据在低维空间中的向量表示。这期间,最让他印象深刻的是 2017 年完成的一项成果:当时,主要的网络嵌入方法通常选择保留社区微观结构,例如节点的一阶和二阶近邻。但王啸发现,保留网络最显著特征之一的中观社区结构对于提升表示学习性能也非常重要,于是,他们提出了一种新的模块化非负矩阵分解(M-NMF)模型,将社区结构纳入到网络嵌入(network embedding)的低维表示方法中,使节点的表示学习既能保持微观结构,又能保持社区结构。
图 | M-NMF 模型在华盛顿大学网络社区中的性能表现(最低约 43%),优于当时其他模型
近几年,王啸则重点关注图神经网络(GNN)的研究,2019 年,他发表了「HeterogeneousGraph Attention Network」一文,那时人们已经关注到了图神经网络,它能够将深度学习应用到图数据结构中,但主要还是集中在同质图。但对于包含不同类型节点和边的异质图,其异质性和丰富的语义信息给异质图神经网络的设计带来巨大的挑战。因此,王啸团队瞄准这一问题,提出了基于层次注意力机制的异质图神经网络 HAN,同时学习节点级注意力和语义级注意力,这几乎是第一项成功构建异质图神经网络的研究。直到今天,该论文还是他成果中引用量最高的一篇。
图 | HAN 总体框架。(a)所有类型的节点都被投影到一个统一的特征空间中,基于元路径的节点权重可以通过节点级注意来学习。(b) 联合学习每个元路径的权重,并通过语义注意融合语义特定节点嵌入。(c) 计算拟建 HAN 的损耗和端到端优化。
这项工作对于王啸来说,意义自然非凡:「后来的许多图神经网络研究者都关注到了它,这也是我自己比较喜欢的一个工作。总体来讲,基本上我的整个学术研究生涯都是围绕着图展开的。」
「虽然遇到了很多困难,但也很幸运」
成功之路,往往布满荆棘,踏上这条路时,有人苦于脚下的刺痛,也有人乐在其中。对王啸来说,科研旅途上的困难自不必说,但他更想铭记幸运之神的眷顾。
读博时刚开始做科研,王啸也有过迷茫,但更多地是庆幸:「我遇到这样一位手把手指导自己的老师——从讨论论文开始,到产生自己的想法再到实现最后的模型,包括每个实验的推进,操晓春老师和金弟老师都给予了我非常细致的指导。」在天大求学的时候,每天晚上金弟老师都会叫他一起跑步,跑步过程中都会多多少少聊上一些学术问题,那个时候他刚开始研究生涯,但这些紧密的交流从一开始就避免了他的很多弯路。每周与操老师高强度的组会,更是从一开始就打开了许多的思路。
后来在完成 M-NMF 模型这项成果的过程中,他坦言,这项工作是在清华杨士强老师团队开展的,刚开始加入到团队时,自己有很多的想法,与崔鹏老师和朱文武老师在组会时都有不断的讨论,但遗憾的是会被否决掉很多的想法。那时候也逐渐更加深刻地体会到自己很多的想法的确不够本质,而应该做最顶级的研究,解决最本质的问题。记忆很深刻的是当时组会上和一群师兄弟们讨论 M-NMF 这个想法,有种被「围攻」的感觉,一场讨论下来,出了一身汗筋疲力尽,工作还没有做出来就仿佛已经被众多评审人给评审透了。但经过了团队不断地产出观点-否定-再产出的磨人过程,虽然时间战线也拉得很长,但幸运地是,「我们没有产生放弃或动摇的念头,千锤百炼之后让我对工作也认识地更加深刻,自己内心要有信仰,到底什么是本质的问题,而本质的问题才是非常重要和值得深入探索的。」M-NMF 最终投稿一次就被顺利接收,而且很荣幸地得到了不少同行们的关注。
而身处日新月异的计算机研究领域之中,快节奏和激烈的竞争也无法避免,尤其是图表示学习这一块,近些年的关注度非常大。2019 年,王啸团队有关异质图的研究也经历了「冒险时刻」——「我们当时正在开展异质图神经网络 HAN 的研究,实际上当时同期也的确有很多同行们在研究这类新工作,幸运的是我们这项工作最后被顺利接收并发表出来。其实我们也有不少没有被顺利接收的与同行们同期做的工作,曾经有个工作我们开展的很早,但最后看到斯坦福大学的一个大牛组比我们先发表了相关的工作。虽有遗憾,但还是很荣幸看到我们研究的问题也正是优秀同行们在关注的问题,我们做的事情正在对标国际同行们的水准,我们应该是做了对的事情,做了好的工作。这也无形中让我们觉得有能力也有机会可以与国际顶级同行们扳手腕。」
值得一提的是,读博期间,王啸曾在圣路易斯华盛顿大学访学一年,回忆起这段经历,他表示,虽然经历了语言、环境等方面的小小不适应,但更陶醉于自由的科研氛围,遇到了许多优秀的同伴,也很幸运地得到了章伟雄老师的指导,他还清晰记得当时章老师在给他逐字逐句修改论文的时候,他在电脑旁边等待着随时和章老师讨论的情景,现在回头看当时写的论文,章老师应该是给予了很大的耐心了。
生有涯,而知无涯
求学、做研究、当老师,一路的多重转变中,王啸遇到了许多人的提点和帮助,从入门科研,到科研想法的各种讨论磨合,到最后论文一点一滴的修改。也正是深深受到恩师们、同行们的影响,所以在自己也成为一名老师后,他也希望能够在指导学生时「一点点的耐心去引导、纠正,尽自己所能,让他们尽量地少走一些弯路。」
面对年轻学生们如何进入科研工作的问题,王啸总结了科研必备「三件套」:
第一件「装备」就是学生应该重视和老师的紧密合作。正如他的亲身经历那样,老师的帮助和指导往往能够让年轻人们避开一些坑。许多年轻人刚开始都有很强的能力和追求,但由于缺乏经验,在遇到过多挫折和困难之后,都会对科研选择产生很大动摇。
因此,王啸也常常告诉自己的学生要积极主动地找老师沟通:「无论是学习科研方面,还是生活中的任何问题和想法,其实都可以跟老师讲,不要怕老师,因为作为老师,我们非常希望能够帮助到学生,这在另一方面也是我们的收获。」所以这其实是老师身上所肩负的责任。
第二件「装备」就是要有意识地培养学生的批判精神。一方面,年轻人要具备独立的判断和思考能力。但王啸更关注的是,怎样才能培养这种批判精神呢?因此他坚信老师应该发挥「领头羊」的作用。「师者,传道授业解惑也」——在平时的指导中,王啸常常和学生一起讨论「为什么?」,组会的时候甚至讨论到有些「杠精」。学生们可能会有些不理解,但是他认为通过不断提问方式,要让学生逐渐潜移默化地养成主动思考的方式。
第三件「装备」就是要有内心的信仰与坚持。科研的过程是坎坷的,是未知的。没有人的科研会一直是一帆风顺的。如果做好的科研,正如之前的吾日三省吾身,要时常问问自己,到底什么是本质问题,到底自己是不是在解决一个本质问题,自己是不是坚持在一个正确的道路之上。好的科研问题不分热门冷门,其实在于自己内心能不能真正说服自己是有价值的。正如他信仰着图这一形式对数据的大一统,对关系的刻画在任何建模中都有着极大的价值。即便遇到了困难,但是只要坚持,总会有希望。
最后,王啸也鼓励学生们「趁年轻,多多学习」。无论是继续深造还是工作实践,都离不开长久坚持的学习和自我提高,在负担较轻、环境较为单纯的情况下,心无旁骛地学习实际上是一种难得的机会,因此,他说:
「抓住这样的好时候,一定能攀上想要达到的山峰。」
个人简介
王啸,北京邮电大学计算机学院副教授,硕士生导师,鹏城实验室兼聘助理研究员。研究方向为图神经网络、数据挖掘与机器学习。
清华大学博士后,天津大学博士,美国圣路易斯华盛顿大学联合培养博士,获得 ACM China 新星提名奖,入选微软亚洲研究院铸星学者,CCF 高级会员。
共发表论文 70 余篇,总引用 4500 余次,其中 CCFA 类论文 40 余篇,ESI 高被引论文1篇,3篇论文单篇引用超过 700 次,1 篇提名 WWW 2021 最佳论文, 1 篇获得 ICDM 2021 最佳学生论文亚军,5 篇论文入选最有影响力论文榜单,成果被多次写入图深度学习标准库,如 PyTorch Geometric 和 DGL。出版教材一部,英文专著一部,著作章节一章。
担任 WWW/AAAI/IJCAI 的高级程序委员会委员。主持多项国家自然科学基金和 CCF-腾讯犀牛鸟科研基金。
个人主页:
https://www.aminer.cn/profile/xiao-wang/56063c4045cedb3396804359
https://scs.bupt.edu.cn/info/1090/1758.htm
https://wangxiaocs.github.io/
文章来源:学术头条