近期,由清华大学研究生院和数据科学研究院(以下简称:数据院)共同开设的清华大学大数据能力提升项目《大数据系统基础》实践项目期末答辩在清华大学六号教学楼顺利举行。20位企业导师作为评审参与答辩成绩评分,他们的评分与数据院副院长、授课教师王建民和授课教师徐葳拥有同样的比重,企业导师和授课教师从数据思维的运用、分析工具使用的成熟度、项目成果质量等方面分别考察一个学期以来同学们的学习、实践成果。
回顾过去的四个月,提供课程实践项目的企业和跨学科组队共同完成项目的学生在相互的沟通磨合之中一起成长进步。去年9月,数据院面向对数据分析技术有实际需求的企业为该课程广泛征集实践项目,社会反响强烈。随后数据院针对报名企业组织了项目征集答辩会,近30家企业代表纷纷登上讲台从各自的企业情况、项目背景和需求三方面做了简要介绍。经过选课学生和授课老师的激烈“择选”,最终21个项目入选该课程。经过11月中期答辩的考验和锤炼(期中答辩报道),同学们对授课老师和企业导师针对性的点评和指导进行了充分的消化吸收,本次期末答辩同学们的表现可圈可点,王建民老师表示:“与期中答辩相比,可以看出同学们利用工具进行数据分析的水平显著提高,这离不开团队成员的相互协作,更离不开企业导师的大力支持,感谢大家对这门课的付出。”
各小组代表答辩中
三尺讲台,各组纷纷彰显“真功夫”
期末答辩是对同学们《大数据系统基础课》实践项目最终成果的考核,考察同学们是否能很好地将大数据理论知识的积累转化为项目的实践能力,做项目的过程中同学们运用所学知识,在企业导师的指导下也取得了一定的成果。李宣静同学是天津瑞能电气“风机故障检测”项目组的主要答辩人,她表示:“我们都是第一次接触实际的风机故障识别问题,对业务的理解是我们遇到的第一个挑战。当时企业没有数据监测平台来实现产品的全生命周期管理,对于没有业务背景的我们来说,做工作等同于‘盲人摸象’。这是我们遇到的第二个挑战,也是机会切入点。”随着对企业需求的充分了解,小组同学决定从挖掘风机运行数据下手获取业务经验。他们利用卷积神经网络和2014年诞生的专注于梯度提升算法的机器学习函数库XGBoost,整合了192类故障及发生频次,最终实现了故障自动诊断分析识别和风机发电功率预测等功能,并搭建了风机状态监测平台(监测平台:http://101.5.211.17:8000/index/),实现了故障自动诊断分析识别和风机发电功率预测等功能。
来自工业工程系的王明哲同学所在的由艾漫数据提供的“自然语言处理技术在文娱行业应用”项目组。他坦言:“我们组的同学来自工业工程系、机械工程系、微电子系等,没有一位人文社科专业背景的同学。平时接触的工业企业居多,这个来自文娱行业的项目对我们来说也是一个很大的挑战。”基于深厚的理工科背景,他们迅速在本学期内学习了文娱行业的基本运营规律,并且第一次尝试在实践中应用自然语言处理技术。他们采用深度网络与传统词典及规则集相结合的业内目前最先进的算法模型,建立了基于语句级标注训练的模型,目前模型精度为75%左右(预计模型极限精度为80%左右);随后,小组同学紧跟热点,选择研究了奚梦瑶维密秀摔倒事件前后共计10天的微博评论,对数据进行处理并进行可视化的展示,完成了对目标明星、品牌的网络美誉度分析和社交媒体爬取的舆情数据分析。
企业导师和任课老师认真听取汇报
跨学科组队,优势互补,充分协作
每个答辩小组都是由AB班(A班:非信息类学生,B班:信息类学生)学生共同组队完成,跨学科和跨专业的学习也是该课程实践项目的一大特色。组内同学根据自己的优势,分工各有不同。来自医学院A班的崔曦雯同学所在的小组完成的是人人贷公司提供的《基于手机通讯录的欺诈检验》项目,“企业方的邱老师为我们的项目推进付出了很多精力,详细分析了我们并不太了解的互联网金融行业的现状及发展趋势。我们A班的同学逐渐将项目需求和思路明确下来,并与B 班同学进行了背景调研并对研究采用的技术路线进行了探讨,在B班同学带领下我们进行了关于graph embeding以及概率传播的尝试,过程中也遇到了数据量过大导致的计算缓慢、可视化方案设计与制定等实际问题。在合作过程之中,我确实发现A班和B班同学不同的长处。A班的同学擅长了解客户需求、发现业务痛点、确定项目方向。B组同学擅长工程实现。我们意识到,A班同学提出的需求不是都会被B班满足,但大家总能在协作中完成任务。整个学期下来,大家都收获了真实环境下做项目的协作方法,更能体会到企业里产品经理岗和技术岗的协作经验。这些经验对我们将来走入工作岗位太有帮助了!”崔同学有感而发。
“实践出真知”,企业导师为同学们点赞
在大数据系统基础这门课上,同学们不但掌握了大数据管理的工具平台、开发环境和基本原理,培养了数据思维,应用创新能力也得到了显著提升,同学们的表现更是得到了企业导师的充分肯定。百度项目的企业导师孙光明表示:“在扎实的数据技术能力之外,让我们十分惊喜的是同学们敏锐的数据洞察力。他们对脱敏样本数据进行分析后,最终迅速锁定‘基于搜索数据做信息推荐系统’这一选题,使我印象非常深刻。因为这个选题正好恰恰是契合了互联网行业‘信息分发2.0’时代的核心。同学们的项目答辩给我在日后的业务布局中也提供了一种非常新颖的思路。非常惊叹于学生们敏锐的视角,也感谢数据院提供平台,能让我接触90后的想法,我非常受启发。”
企业导师、国家发展改革委员会城市和小城镇改革发展中心智慧城市所所长黎明讲到:“在本次合作项目中,来自建筑、电气等不同背景的同学们利用各自的专业知识,以大数据技术手段对北京市内的充电网络进行了较为客观精准的评价。同学们所做的工作为今后北京市乃至全国范围内的充电网络规划评价体系构建奠定了初步解决基础。”
企业导师也对课程实践项目给出了建设性的意见,比如对于项目的规划和整体推进要更具计划性、提前拟定进度表,督促项目组分阶段推进等。
数据科学研究院始终致力于突破传统的教学方式,在大数据能力提升项目中运用更好的、更让学生接受的方式传递数据理念和技术知识。在《大数据系统基础》课中引入来自业界的真实数据和项目正是成功探索之一。本课程将信息类和非信息类的学科组队,以团队的形式做项目,使得跨学科的学生在组内进行充分交流、互相学习、各自发挥专长。课程引入20多个丰富又真实的企业数据并让学生和用户进行交流,使学生在进入职场之前就有机会了解社会和企业对大数据技术解决问题的需求。其项目数量之多、企业支持力度之大,是全国乃至世界少见的教学模式探索,收效颇丰。
校企师生答辩后合影
本门课程重点介绍大数据管理的工具平台、开发环境、基本原理。使得学生熟悉典型大数据工具与平台的特性,掌握大数据处理的基本开发方式,巩固和加深大数据分析的基础知识。 本课程的主要内容包括: 大数据软件栈、虚拟化、系统管理、数据清洗、数据存储、处理框架、内存计算、文档数据、NoSQL/NewSQL数据库、图数据、流数据、分析框架、数据分割、以及一致性。
本门课程主要希望通过对一系列与大数据相关的计算机系统知识的学习和动手实践,让学生理解大数据分析系统的软硬件架构,了解目前可用的工具和技术上存在的挑战。考虑到A班学生群体中有相当多的经管、社科及公共管理专业学生,A课程注重讲授大数据系统工具的概念、应用场景以及商业价值。B班学生群体以信息类专业学生为主,注重讲授大数据系统的原理、开发及实现。在介绍典型系统工具使用的基础上,通过分析其实现原理与设计理论,增强学生大数据平台与工具的应用与开发能力。培养学生在工作中应用与选择适合大数据工具的能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。
校对:林亦霖
为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错。
若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包。
同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。
感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。