熊辉教授:数据挖掘就像医生诊疗,最新的疑难杂症才是我最感兴趣的

2018 年 12 月 27 日 AI科技评论

AI科技评论按,作为美国罗格斯-新泽西州立大学终身正教授,熊辉教授于今年年初加盟百度研究院,担任商业智能实验室主任。这一年间,他负责百度地图「智行」项目,「数读城市」项目,开发出《基于大数据的幸福城市指数》,带领团队拿下了管理界的最高奖项——哈佛商业评论「拉姆·查兰管理实践奖」全场大奖。在即将于美国夏威夷召开的 AAAI 2019 会议上,他带领团队中了四篇论文。

在百度这一年来的成果,只是熊辉教授漫漫研究长河中展现在大家面前的一小部分。在数据挖掘顶级会议 KDD-2017 上,熊辉教授中了九篇论文,在 IJCAI-2018 上,他中了五篇论文。虽然学术会议并不是衡量一个人学术水平的充分条件,但这些数据却是外界所能实实在在感受到的。

众所周知,学术界比较公认的一件事情是,在美国做教授非常难。目前,熊辉教授在美国已经毕业了 11 个博士生,大多数都任职于高校。

熊辉,美国罗格斯-新泽西州立大学终身正教授,百度商业智能实验室主任。本科毕业于中国科学技术大学,博士毕业于美国明尼苏达大学,目前为美国罗格斯-新泽西州立大学正教授 (终身教授)、RBS 院长讲席教授,并担任中国科学技术大学大师讲席教授。

熊辉教授主要研究领域涵盖数据挖掘、大数据、人工智能;获得的部分荣誉包括 ACM 杰出科学家,长江讲座教授,海外杰青 B 类(海外及港澳学者合作研究基金)。

日前,就如何选择科研课题与人才培养这两个问题,雷锋网 AI 科技评论与熊辉教授进行了一次探讨。熊辉教授把数据挖掘科学家比作医生,他的选题原则是,探索前人未曾发掘过的病历,以应用为导向,寻找出更加新颖、更加复杂的应用场景;在人才培养上,熊辉教授遵循十字箴言:兴趣、基础、态度、习惯、毅力。以下为雷锋网 AI 科技评论与熊辉教授的访谈内容。

数据挖掘行业就像医生诊疗,我会选择最新的疑难杂症进行研究

我从读硕士时就已经开始做数据挖掘研究,对数据进行分析研究与医生诊断病例很相似。医生在做各种各样的疾病研究时,需要了解病症,需要现场看到并了解病人。真正优秀的医生都是诊疗经验丰富的医生,他可以从实践中吸取很多经验。我们数据科学家的病人是数据,各行各业的数据就代表着患有不同疾病的病人。

在科研课题的选择上,我通常是从具体的应用场景入手。比如,我们做过 2B 的市场分析,移动推荐,金融大数据分析,城市计算和人力资源大数据分析,这些都是与应用相关的课题,是来自不同领域的应用。

我一直在寻求创新型的应用场景,这些应用场景得符合以下两个特点:

第一,必须要具有新颖度。我们这一行既然这么像医生,要想做创新性的研究,首先要找到那种没怎么被其他医生诊断过的疾病。

当出现一种新的病毒,比如 SARS 刚刚出现时,那将是我所感兴趣的问题。对于我们来说,「新的病人」没有被其他的数据科学家充分挖掘过,是一个全新的应用场景。我们首先开始在这方面做研究,所做的任何工作,都将是创新性的。

第二,应用场景必须要足够复杂,值得去研究。如果太简单,也不容易取得相对较高水平的技术进步。这里也以医疗为例,如果病毒过于简单,简单的抗生素就能把问题解决。

如果是其他行业,他们的选题可能不一定遵循这些规律,数据挖掘行业有其行业特殊性。在数据挖掘行业,我的经验就是,一旦涉及到人的行为,模型的复杂度就上去了。人的行为与很多传统的学习目标不一样,比如下围棋,现在深度学习、强化学习解决得很好,因为这些任务目标明确,规则也很明确。而在研究人的行为时,因为每个人都是差异化的,每个个体的目标都不明确,而且呈动态变化,所以这样的问题往往很复杂。

我选择的课题,无论是大数据人力资源管理,还是 to B 的市场分析,或者是行为轨迹数据分析,这些都是关于人的行为。拿人力资源管理举例,这里涉及到对人的选拔,对人岗的匹配,对优秀人才的挖掘,还有离职预测等研究;这些都涉及非常复杂的对人的理解。

我们做科研选题可以有两种路径,有些人做科研选题,感兴趣的是一种已经被定义的很好了的问题,这是一种选题方法。就我个人来说,我更加喜欢去研究一些相对来说比较新的问题,相对来说比较新的病例。当选题比较创新的时候,相对来说,也就容易产生新成果。

学生培养十字箴言: 兴趣、基础、态度、习惯、毅力

对于学生培养,我首先考虑的是选材。「巧妇难为无米之炊」,要有好的食材,才能够做出一桌好菜。

助理教授特别像一家刚刚创业的企业,资源非常缺乏。刚开始做助理教授的时候,你可能只有资源招收一个学生,在招生时就得特别小心;这就好比一家创业公司,你现在只有招一、两个员工的预算,也得特别小心。而且学生和员工还不一样,你认为员工不合适,可以立马开除,但学生的话,既然你已经招收,你要为他的未来负责。

我在很早的时候,对选学生定义了十个字原则:兴趣、基础、态度、习惯、毅力。

首先要有兴趣,对数据挖掘没兴趣,对行业没兴趣,对研究没兴趣的学生,我是不会去挑选的。

我会关心你曾经读过的书。比如我会问你,你喜不喜欢福尔摩斯,喜不喜欢看破案类小说,你有什么兴趣爱好,你是否喜欢历史。这些都可以展示学生对数据挖掘的兴趣。

其实数据挖掘就是从历史的数据中去理解现状和未来,破案就是从很多数据中找到蛛丝马迹。根据你的爱好和经历,可以判断出你是不是真的对数据分析感兴趣,是不是真的喜欢观察,从细微的事物中去找到本质。

第二,基础一定要好。做任何科研都要有很强的专业技能作为基础。

有些老师一定要选择名校的前几名学生,这样你的可选范围就特别小。我并不要求学生一定是前几名,高 GPA,我更在乎的是你的数学基础好不好,英文、写作水平怎么样,表达能力如何,知识面能不能达到我的要求。我相信中国、全世界的人才非常多,世界上前 10% 的人才,可能都非常优秀,值得培养。中上游的很多学生,尤其是好学校的中上游的学生,他们的基础通常已经够用,已经很扎实了。

如何判断学生的基础是否扎实?「猝然问焉而知其知」。比如你是学统计的,你来我这里面试,你肯定会以为我会面试你统计的知识,但既然我同意面试你,我基本上认为你的统计知识已经没有问题了,我会问你计算机的编程和算法知识。我并不是想刁难你,我也并不指望你能回答得很好,但是我希望你有解决问题的思路,在回答里带有逻辑性。

要是我突然问你这些内容,你一问三不知,那就说明你对这个领域知识的认识非常匮乏。你对统计的专业知识很了解,相当于站在山峰上,但一涉及到其他知识,你立马跌到山底,那样不行,我希望学生知识面全面些。

第三是态度,做研究、治学、做事的态度一定要好。

我考察学生,一定要看你能不能做小事。如何判断?「烦使之而观其能」,让你做很多繁杂的小事情,然后我就知道你的能力和态度了。

什么是繁杂的小事情?比如你读研究生,有没有帮老师写过 PPT,有没有帮老师写过科研报告、项目申报书,有没有帮老师评审文章。这些任务派下去之后,立马就有四个象限的结果。第一个象限,你什么事情都做了,而且做得很漂亮,还不抱怨,这就是我说的态度好,能力强的学生,这种学生是我想要的。第二种学生,事情都做了,做得也很漂亮,但是不停抱怨;这种学生有能力但态度有问题,不是我想要的。第三种学生,那些小事都做了,虽然做得不是很好,但是不抱怨,态度非常好,这种学生如果有其他优点,我也会考虑。最后一种学生我就肯定不会考虑了,既做不好事情,还有态度问题。

最后,习惯和毅力也很重要。优秀的人才要有良好的生活习惯、做事习惯和作息习惯;有毅力的人,可以坚持努力,可以走得更长远。

另外,从学生培养的角度,我会根据学生自身的特点为他们选择不同的研究方向。

每个学生的优点不同,能力、特点也各有侧重,比如有的人统计强,有的人数学强,有的人计算机能力强,为学生选择题目时,一定要能发挥出他们的长处。

同时,人的性格也不尽相同,我把学生分为金、木、水、火、土五种性格。

举个例子,有些人是火型性格,这种性格的人,你不能让他做很经典的问题。就像淘金,这个地方已经被很多批淘金者淘过了,你要是还想从中发现黄金,得找得更细,需要耐心。这样的课题如果你交给火型的人去做,就是把他给害了,但是你交给水型的人做,他们就有可能找到其中的瑰宝。

火型的人做事很着急,水型的人做事慢但是有耐心,很细致。那么什么样的项目适合火型人去做?一些全新的开拓型的项目,这种项目开始时竞争对手少,这个时候你就希望火型的而不是水型的学生去做,火型的学生可以快速推进项目,但是你要给他配一个木型的助手(木生火),火型的人做事不够仔细,需要木型的学生帮助保证研究结果的正确性和完整性。

点击阅读原文,查看专访数据挖掘领头人韩家炜教授:不要迷信权威,做学问要秉承「三个真实」

登录查看更多
0

相关内容

熊辉教授,现为香港科学技术大学(广州)人工智能学域主任,讲席教授(Chair Professor);曾担任美国罗格斯-新泽西州立大学杰出教授 (Distinguished Professor)、RBS 院长讲席教授;学术休假期间担任百度研究院副院长并主管 5 个实验室。他获得的部分荣誉包括 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、中国教育部长江讲座教授、中国国家基金委海外杰青 B 类(海外及港澳学者合作研究基金)、哈佛商业评论 2018 年“拉姆.查兰管理实践奖”-全场大奖、2017 IEEE ICDM Outstanding Service Award、ICDM-2011 最佳研究论文奖、和 AAAI-2021 最佳论文奖。
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
96+阅读 · 2020年1月21日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
周志华教授:如何做研究与写论文?
专知会员服务
153+阅读 · 2019年10月9日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
苦尽甘来:AI为更有效地治疗抑郁症带来希望
英伟达NVIDIA中国
10+阅读 · 2018年3月1日
【智能医疗】如何利用深度学习诊断心脏病?
产业智能官
8+阅读 · 2017年10月3日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年4月4日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
Top
微信扫码咨询专知VIP会员