招募 | 清华大学大数据研究中心2023年度课程实践项目合作单位

2022 年 11 月 7 日 THU数据派


  
  
    
来源:数据派THU

  本文为约3982字,建议阅读8分钟

本文介 绍了清华大学大数据研究中心


一、大数据研究中心简介

清华大学大数据研究中心于2018年9月成立,是清华大学建设世界一流大学、鼓励大数据领域的学科交叉的重要举措,是深入推进科研体制机制改革的重要里程碑。大数据研究中心发挥清华大学多学科的优势,面向全球数字经济转型的迫切需求,服务国家大数据发展战略,聚焦信息科技前沿,促进数据科学理论、大数据技术与大数据领域应用等多个层次的深度交叉与融合发展,建设国际数据科学与大数据技术创新研究平台。突破大数据系统软件性能瓶颈,研究自主可控的领先关键技术,形成产学研用的国家大数据系统软件创新平台,力争为跨学科尖端人才的培养及数据科学技术的进步做出贡献。

清华大学大数据研究中心为校级虚体跨学科交叉科研机构,充分发挥清华大学多学科优势, 凝聚学校相关领域的科研力量,实现大数据领域核心理论与关键技术的重大突破,成为在大数据领域具有国际影响力的世界一流科研机构。

依托院系 :软件学院
共建院系 :化工系、能动系、电机系、计算机系、车辆与运转学院、经管学院、社科学院、卫健学院、医学院、环境学院、北京信息科学与技术国家研究中心

二、《大数据系统基础》简介

《大数据系统基础》是清华大学大数据能力提升项目的基础模块必修课,开设于春季学期。课程主要是设计与实现一个数据分析系统架构,并基于这一系统架构完成数据分析任务;主要内容包括:大数据生命周期、大数据软件栈、系统实践DWF、数据存储HDFS、时序数据IoTDB、数据质量分析过程与实战、Python语言、内存计算Spark、结构化数据SparkSQL、流计算Flink、系统实践FloK。组织形式是学生根据项目具体需求,组建院系交叉融合的项目小组,在校内导师和企业导师的共同指导下完成项目任务。该课程注重大数据系统应用,重点讲授大数据系统工具的概念、应用场景以及商业价值,通过对一系列与大数据相关的计算机系统知识的学习和动手实践,让学生理解大数据系统的软硬件架构、目前可用的工具、技术上存在的挑战,培养学生在工作中应用与选择大数据工具的能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。

课程自开设以来就深受学生欢迎,其最大特色是突破了传统的教学方式,学生通过自行组队,以小组的形式在实际的企业项目中运用所学知识动手完成实践任务。今年,经过授课教师的严格把关和层层遴选,课程共引进了近20家来自业界的真实项目,行业数据多样化,领域涉及工业、石油化工、保险、交通、健康医疗和智慧城市等。

部分成果展示: 协作的力量——2021-2022年度《大数据系统基础》成果展示

三、合作方式

在实践教学过程中,来自全校理、工、文、商、医不同学科专业背景的学生自由组队,分工明确,以数据驱动的“真问题,真数据”、校内外双导师制的共同指导下完成大数据实践项目任务。

企业提供的项目主要研究方向涵盖大数据系统(偏系统架构)

即提出一个对于大数据系统系统架构的需求,描述例如应用场景,数据量至少百万级,已有数据的存在形式,企业现有业务流程,期望的流程等。通过与学生交流,检查学生的阶段性成果,并评估学生的进展并给予反馈,方便学生进行下一轮的迭代。项目中尽量应用课程所教授的内容,如:大数据软件栈、系统实践DWF、数据存储HDFS、时序数据IoTDB、数据质量分析过程与实战、Python语言、内存计算Spark、结构化数据SparkSQL、流计算Flink、系统实践FloK等相关知识。

欢迎企业积极贡献项目和数据,并指派特定的企业导师指导学生完成相应项目!

四、合作项目时间、地点及形式

1、时间:2023年2月中-2023年6月中旬(春季学期),共计15周,需要企业导师每周抽出4小时左右指导学生完成项目工作;部分优秀项目可直接入选成为《大数据实践课》(夏季学期)的合作单位/实践基地,共计8周,学生全时参与实践,详见(http://bigdata.tsinghua.edu.cn/Content/2022/03-29/1742311177.html)。

2、地点及形式:清华大学校内,边上课边完成实践项目,可线上指导。

具体时间如下:


五、参与项目学生构成

非信息学院(机械、数学、物理、热能、经管、社科学院、土木等)的硕士研究生、博士研究生,5-7人交叉混合组队。

六、授课教师


王建民 :清华大学软件学院  院长、教授、博导。大数据系统软件国家工程实验室执行主任。国家杰出青年科学基金获得者、国家政府特殊津贴获得者。

研究领域为大数据与知识工程,具体包括, 工业大数据,大数据系统软件,非结构化数据管理技术与系统,产品生命周期管理技术与系统。2008年以来在IEEE TKDE、IEEE TSC、WWWJ等期刊和SIGMOD、VLDB、ICDE、AAAI、ACM Multimedia、CVPR等国际会议与期刊上发表(录用)学术论文近200篇;申请中国发明专利授权近100项。2018年负责研制的“清华数为”工业互联网时间序列数据库IoTDB进入国际Apache开源社区。


宋韶旭 :清华大学软件学院  副教授、博导。专注于数据质量、数据清理、数据集成等领域的研究。主持国家自然科学基金项目、国家重点研发计划项目课题。在TODS、VLDBJ、TKDE、SIGMOD、VLDB、ICDE、KDD 等CCF-A类期刊和会议上发表论文40余篇。授权专利10余项。担任PVLDB编委,JDIQ特约编辑,VLDB、ICDE、KDD、SIGIR、IJCAI等国际会议程序委员会委员,中国计算机学会数据库专业委员会执行委员,获得VLDB 2019、CIKM 2017杰出评审奖。


闻立杰 :清华大学软件学院  长聘副教授、博导。专注于流程挖掘、大数据处理与分析、自然语言处理等领域的研究。主持国家自然科学基金项目、国家重点研发计划项目课题。

在ACL、AAAI、SIGIR、SIGKDD、ASE、EMNLP、BPM、CAiSE、IEEE TSC等发表论文170余篇。获国家发明专利、软件著作权十余项,获业务流程管理领域国际顶级会议BPM 2015最佳学生论文奖(亚洲首次,中国唯一)。流程挖掘论文已被收入国际教材和学术专著,流程管理领域译著3部。现任国际会议ACL、AAAI、EMNLP、CAiSE、ICSOC、BPM程序委员会委员,中国业务流程管理大会CBPM指导委员会执行主席、IEEE流程挖掘工作组XES标准化小组委员(中国唯一)。

七、企业收获

1. 参与清华大学大数据能力提升项目人才培养;
2. 联合清华师生共同解决企业实际需求;
3. 企业有机会储备清华大数据研究生方向人才;
4. 有机会与清华大数据领域老师在科研项目领域深度合作;
5. 优秀团队导师,有机会获得“优秀企业导师证书”;
6. 优秀项目可有机会获得清华大学大数据研究中心官方媒体渠道的专题宣传;
7. 部分优秀项目可直接入选成为《大数据实践课》的合作单位;
8. 有机会成为清华大学大数据研究中心的实践基地。

八、需要合作单位配合与指导内容

1. 提供实际项目需求及该项目的【数据样本或数据测试集】,指派企业导师,提交【信息收集表】内容;
2. 根据项目实际需求,指导学生完成行业和市场分析等背景调研,指导学生确立项目的系统架构设计、数据处理与分析方法的选择及应用,并进行系统和算法性能评估;
3. 参与项目的中期和期末答辩,对学生小组的项目成果进行评价。
4. 提供其他与项目所需的数据、资料等,并提供力所能及的支持。

九、往期实践回顾

企业导师项目宣讲现场

学生期末答辩现场

评委老师合影

优秀团队证书

往届合作企业(部分)

九、申请要求及流程

企业需在规定时间内提交申请材料,在春季学期开学前通过评审的企业统一面向学生宣讲,学生选择项目并组队后到企业实践。同时,需企业提供以下配合及指导内容:

1. 提供实际项目需求及该项目的【数据样本或数据测试集】,指派企业导师,提交【信息收集表】内容。

2. 根据项目实际需求,指导学生完成行业和市场分析等背景调研,指导学生确立项目的系统架构设计、数据处理与分析方法的选择及应用,并进行系统和算法性能评估。

3. 需要企业导师每周抽出4小时左右指导学生完成项目工作,并参与项目的中期和期末答辩,对学生小组的项目成果进行评价。

4. 提供其他与项目所需的数据、资料等,并提供力所能及的支持。

5. 具体时间安排如下:

注:项目实践时间以学校通知为准。


6. 申请方式:企业导师扫描下方的二维码或点击链接(https://f.kdocs.cn/w/LrTZsSfR/)提交申请信息,项目征集截止日期为11月30日。(如数据样本内存较大可将样本提交至:sjkxyjy@mail.tsinghua.edu.cn,邮件主题:“企业名称-《大数据系统基础》实践项目(2022-2023学年度)”。)项目经遴选评审后,录用项目采用确认邮件通知。

欢迎各界企业报名垂询

联系人:王老师
咨询电话:13671092927(王老师)、010-62773971
咨询邮箱:sjkxyjy@mail.tsinghua.edu.cn


——END——


登录查看更多
0

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
分布式系统稳定性建设指南2022年(100页pdf)
专知会员服务
23+阅读 · 2022年6月24日
《数据科学导论》教学资源案例入围优秀课程配套资源
专知会员服务
23+阅读 · 2022年5月9日
《金融大数据术语》行业标准,24页pdf
专知会员服务
53+阅读 · 2022年2月28日
上海市智能网联汽车发展报告,25页pdf
专知会员服务
36+阅读 · 2022年2月10日
数据中心产业图谱研究报告,41页pdf
专知会员服务
53+阅读 · 2022年1月31日
第五届中国软件开源创新大赛正式开启
中国计算机学会
0+阅读 · 2022年4月22日
浙江省政协委员、专委会常委范渊在2022年浙江省两会提案
CCF计算机安全专委会
0+阅读 · 2022年3月8日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年9月30日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年7月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
3+阅读 · 2011年3月31日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
11+阅读 · 2021年12月8日
Arxiv
46+阅读 · 2021年10月4日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年9月30日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年7月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
3+阅读 · 2011年3月31日
Top
微信扫码咨询专知VIP会员