如何搞数据科学?数据科学研究型人才培养的思考与实践

2022 年 4 月 24 日 专知

题目:数据科学研究型人才培养的思考与实践

关键词:数据科学;大数据专业;研究型人才

数据科学作为一门以统计学、机器学习等为理论基础的新兴学科,对人类的生产生活产生了深远影响,企业和社会也对数据科学人才有着广泛需求。高等学校如何培养数据科学人才,特别是研究型人才亟需探索行之有效的方法。本文系统性地总结与实践了数据科学研究型人才培养模式。首次探讨了数据科学研究型人才的培养定位与层次,并结合具体实践过程提出了数据科学人才的能力要求和培养方案,最后通过典型案例分析,表明在该培养模式下,对不同学生的具体培养过程以及取得的成果,从实践中表明该模式有助于培养出我国高水平数据科学研究型人才。

1 引言

随着大数据时代的到来,企业与社会亟需数据科学人才。2015年《国务院关于印发促进大数据发展行动纲要的通知》里指出“信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。”同时指出要加强专业人才培养,要“创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨界复合型人才。”

本文主要探索高水平数据科学人才培养的一般规律,主要面向 “211”级别高校的学生,他们具有一定动手能力和较强的探索欲。这类学生具有广大的受众面,是大学生的主体。除此之外,本文重点讨论数据科学领域的硕士和博士研究生培养,不同研究领域的学生具备的能力要求和培养过程也存在较大区别。

2 能力要求与培养过程

总体来讲,数据科学研究型人才的培养层次可以分为以下三方面:技术人才,应用人才,跨学科人才。目前笔者重点聚焦于前两种层次人才培养。对于技术人才,重在培养学生在数据科学领域的科学思维与科研技能,基于一套科学合理的科研逻辑,建立一套从提出问题,分析问题,解决问题,科研写作的研究体系。对于应用人才,重在培养学生在数据科学实际应用中的解决问题的技能,培养学生结合实际应用,解决实际场景中的问题。对于跨学科人才,则是面向多学科,多领域融合目标对学生进行培养,学生不仅需要计算机技能,还需要结合其他领域的知识,解决不同领域与学科中数据分析处理的问题。

2.1 数据科学人才的能力要求与培养方案

根据数据科学家的能力要求,高水平数据科学人才需要具有综合能力。总体能力要求如图1所示。(1)扎实的数学基础。掌握基本的数学方法和工具,能够将实际问题建模为数学问题。(2)较强的计算机能力。能够熟练编程,用算法解决实际问题。(3)丰富的领域知识。能够将领域知识转化为计算机语言,将领域知识融入到算法设计中。

针对数据科学家的能力要求,需要进行了针对性的培养。

(1)扎实的数学基础。数据科学领域紧密相关的数学知识包括:线性代数、概率论、优化理论和图论。虽然学生在大学阶段都学习过这些数学知识,但尚缺乏在实践中运用和进一步理解。在研究生阶段,我们可以通过学习机器学习和人工智能相关的知识,来真正理解和运用这些数学基础。我们也鼓励学生参加数学建模竞赛,培养学生利用数学解决实际问题的能力。

(2)较强的计算机能力。大学计算机类的本科生已经掌握基础的编程能力和基本的计算机应用能力,但是还不具备解决实际问题的能力。通过引导学生做数据科学方面的研究达到:将真实的有价值数据科学问题建模为机器学习(数学)问题;利用人工智能算法(主要是机器学习)创造性解决复杂真实问题的能力。进行实验验证,并撰写论文或专利。我们也鼓励学生参加数据挖掘竞赛,锻炼学生的动手能力。

(3)丰富的领域知识。领域知识是和要解决的问题紧密相关的,可以通过快速学习和掌握解决问题的基本方法来快速理解一个新领域。通过分析数据可以快速掌握数据的特点和行业基本知识;和专业人士合作也是快速掌握领域知识的有效方法。

数据科学家还需要一些其他能力:沟通交流和总结表达。在做研究过程中和学生充分沟通交流,共同确定研究问题,探索解决方案。我们也要求学生将研究工作撰写成学术论文,并投寄到领域顶级会议或期刊,并且积极宣传工作。这些活动可以培养学生的沟通交流和总结表达能力。

2.2 培养过程

培养过程的总体流程如图2所示。

(1)基础能力准备

对刚上研究生的研一同学而言(也可以是保研的大四学生),需要花半年左右的时间培养数据科学的基础能力,学习数据挖掘和机器学习的基础知识。一些难度适中的书籍和课程包括但不限于:李航的《统计学习技术》和Andrew Ng的机器学习课程。我们要求对常用的机器学习算法能够真正理解,能够推导公式,并能够根据实际问题作出改进。与此同时,我们要求学生阅读数据挖掘和机器学习领域的最新论文,了解前沿技术和热点问题,为科研做好准备。我们也鼓励学生参加合适的数据挖掘竞赛。通过竞赛,灵活掌握、运用机器学习方法,真正懂得如何用技术解决实际问题。

(2)研究能力培养

到了研一下学期,就要开始进入数据科学领域的研究工作,需要一年半左右的时间培养学生研究能力。希望通过一年半的时间,完整做1-2个研究工作,发表1-2篇高水平学术论文或申请专利。

经过近半年的论文阅读,学生对研究的领域已经有所了解。对于有研究想法的同学,老师可以引导学生深入思考,自主发现有价值的研究问题;对于没有研究想法的同学,老师可以让学生继续阅读思考,也可以指定有望做出成果的研究问题。一方面,可以通过大量阅读最新的前沿论文,发现发展趋势,找到研究问题;另一方面,可以通过工业界的实际反馈,找到技术难点。我们需要花大力气找到有价值的真问题,这是成功研究的基础。同时也不能花费太多时间,以免学生产生急躁情绪或自我怀疑。这个时间大概1-3个月。在这个过程中,老师需要全程参与,和学生充分沟通,并且真正懂得前沿,能够发现问题。

下一阶段就是解决问题。确定好问题后,需要找到创新性的解决方法。可以设计渐进式的解决方案。先考虑基本方法是怎样的,存在什么不足,如何改进。针对不同问题,采用合适的解决方法。最好采用最新技术,并且根据问题特点,做针对性改进。这一阶段对学生能力要求较高,产生的结果差异也很大。有些学生可能1-2个月就做出来了,有些学生可能花4-5个月,甚至做不出来。老师需要帮助学生设计模型,找到卡壳问题,提出解决思路;也要鼓励学生多向其他师兄弟学习,多向专业人士请教。

最后是撰写学术论文,尽力投寄到好的期刊和会议。学生需要根据论文要求,定义好问题,写明白方法,做完善的实验。这一阶段也对学生能力提出了很高要求,花费的时间也差异较大,在老师的帮助下,一般需要1个月左右。学生的写作能力差异较大,培养也更为困难,培养周期也更长。在这一阶段,老师的作用很关键。老师需要判断工作的水平,选择合适的期刊和会议。根据计算机学科的特点,老师会鼓励学生投寄高水平的国际会议;但是盲目选择难度太大的会议,造成屡投不中,会损害学生的积极性。对于刚开始做研究的同学,写作水平普遍达不到高水平论文的要求。老师需要花费很大的精力指导学生写作,甚至亲自重写论文。从培养学生的角度,建议让学生花更多的时间撰写和修改论文。

(3)实践能力检验

到了研究生二年级下学期,可以派驻学生参与企业实习,在实际工作中培养实战能力。经过上述培养,学生能够完成1-2个研究工作,并发表了高水平论文(CCF B类以上,即中国计算机学会推荐的B类期刊和会议),并且具有较强的动手能力和求知欲,就可以派驻到企业实习。

学生去企业需要花1-2个月时间熟悉企业业务和数据,并且提炼出要解决的问题。企业需要充分配合,积极合作;老师需要帮助学生提炼问题,提出解决思路。然后,花1-3个月时间设计模型并验证。学生需要设计并实现可行的解决方案;企业需要判断方案的合理性和有用性,并提供相应的支持;老师也要对方案提出建议和指导。最后,花1-2个月总结模型、落地应用,撰写论文和专利。

3 案例分析

在过去的5年时间里,实验室每年都有2-3名学生按照这种培养模式,成为了优秀的数据科学人才。在这期间培养的10多名学生(主要是硕士生),发表数据科学领域的高水平论文(CCF A/B类)40多篇;参与了阿里AIR,腾讯犀牛鸟、美团北斗等企业合作项目,发表CCF A/B类应用论文20多篇,申请专利20余项。这些学生大多进入头部互联网企业,成为算法研究员或算法工程师。下面介绍一些典型的案例。

2016级的胡同学是北京邮电大学的免试研究生。从大学第四年开始,先跟随高年级学长学习机器学习,并开始学习做研究。在研究生阶段,笔者带着他从事异质网络表示学习方面的研究,先后在TKDE2018和KDD2019发表论文。在研二暑假期间,派他到蚂蚁集团进行实习,历时3个多月,率先采用异质图神经网络解决互联网套现用户检测问题,在AAAI2019发表论文并申请专利。该技术在蚂蚁集团内部累计落地十多个业务场景,其中包括智能客服(在标签推荐场景CTR提升12.8%)、可疑账户识别(准确率提升11.4%,覆盖率提升21.4%)、支付(IOT广告场景累计CTR提升2.81%)等。该同学后来入职蚂蚁集团,工作表现非常优秀,两年内从P5晋升到P7。

2017级的陆同学是来自南京邮电大学的免试研究生。在研究生阶段,从事动态图表示学习方面工作,先后在AAAI19等发表工作。在研二暑假期间,派他到微信进行实习,历时4个多月,采用图神经网络解决社交关系对新闻推荐的影响,发表论文并申请专利。后来,派他到新加坡管理大学实习8个月,先后在KDD2020、AAAI21等发表论文。他因此也获得2020年腾讯犀牛鸟精英人才优秀奖(排第二),并入职微信担任研究员。

2019级的王同学来自于北京化工大学,考研进入实验室。在研究生阶段,从事网络信息传播方面工作。在老师的指导下,在TNNLS等发表工作。在研二暑假期间,派他到高德进行实习,采用对比学习方法做知识图谱推荐,工作计划投寄到SIGIR2022。




北邮 GAMMA Lab 公众号
主编:石川
责任编辑:王啸、杨成
编辑:刘佳玮

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“数据科学” 就可以获取数据科学专知资料合集》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资料
登录查看更多
1

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【AI+康养】《2021中国智慧老龄 创新案例集》,78页pdf
专知会员服务
32+阅读 · 2022年4月6日
制造业数字化转型路线图,67页pdf
专知会员服务
77+阅读 · 2021年10月11日
专知会员服务
87+阅读 · 2021年8月11日
专知会员服务
42+阅读 · 2021年3月28日
中国智适应教育行业白皮书,31页pdf
专知会员服务
72+阅读 · 2021年2月20日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
操作系统课程教学理论与实践如何有机融合?
中国计算机学会
0+阅读 · 2022年6月9日
图书选题征集 | 计算机科学前沿丛书·教材系列
中国计算机学会
0+阅读 · 2022年5月28日
CCCF精选|智能时代计算机专业教育创新探索
中国计算机学会
0+阅读 · 2022年5月26日
高峰对话 | 主动破圈or倒逼破圈?产学研如何"跨界共创"?
微软研究院AI头条
0+阅读 · 2021年6月24日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年7月24日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
17+阅读 · 2022年1月11日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
37+阅读 · 2021年9月28日
Arxiv
10+阅读 · 2020年11月26日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
VIP会员
相关VIP内容
【AI+康养】《2021中国智慧老龄 创新案例集》,78页pdf
专知会员服务
32+阅读 · 2022年4月6日
制造业数字化转型路线图,67页pdf
专知会员服务
77+阅读 · 2021年10月11日
专知会员服务
87+阅读 · 2021年8月11日
专知会员服务
42+阅读 · 2021年3月28日
中国智适应教育行业白皮书,31页pdf
专知会员服务
72+阅读 · 2021年2月20日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年7月24日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员