2017年7月22-24日,由ACM数据挖据中国分会(KDD China)联手西南交通大学倾力打造的2017年KDD Summer School在成都西南交通大学九里校区圆满落幕。此次活动由KDD China主办,西南交通大学承办,并得到了四川省教育厅的大力支持。杨强教授、周志华教授担任本期Summer School的名誉校长,郑宇教授担任学术主任,李天瑞教授担任组织主任。活动邀请多位国内外顶级学者,从数据挖掘和机器学习的角度组织前沿培训课程,深入讲解数据挖掘基础算法及前沿应用,并有多位KDD2017录用paper作者现场分享研究成果。活动从核心内容到设施配置再到后勤服务都堪称顶级水准,数百人共同享受KDD的学术饕餮盛宴。
活动海报
活动主会场
7月22日上午8点40分,开班仪式正式启动,由KDD China秘书长郑宇教授主持。西南交通大学副校长张文桂致开幕词,张校长对各位学者及学员们的到来表示热烈欢迎,强调了本次暑期学校对于我国大数据基础研究的重要意义。接着四川省教育厅副厅长汪小帆致辞,他对参与本次暑期学校的各位专家学者们表示衷心的感谢,希望今后能多在四川举办此类学术活动,并欢迎专家学者常来四川开展学术研究工作。本次暑期学校名誉校长周志华教授向学员们介绍了ACM及KDD China的基本情况及服务宗旨,展示了KDD China组织的往届学术活动。最后组织主任李天瑞教授简要介绍了西南交通大学信息科学与技术学院及四川省云计算与智能技术高校重点实验室的情况,并对参加暑期学校的所有学者和专家表示热烈的欢迎,祝愿全体学员在三天的学习中能够收获满满。
KDD China秘书长郑宇教授在主持开班仪式
西南交通大学副校长张文桂教授致辞
四川省教育厅副厅长汪小帆教授致辞
KDD Summer School名誉校长周志华教授致辞
KDD Summer School组织主任李天瑞教授致辞
本期Summer School主题“数据驱动智能”围绕当前人工智能、机器学习及大数据研究领域展开探讨,邀请了8位知名学者以及13位入选KDD 2017大会论文的作者,针对数据挖掘的基础算法和前沿应用展开深入讲解。在三天的时间内,他们向200多名学员分享了多个领域的前沿研究成果。另外主办方特别设置了入选KDD2017的论文海报交流环节,给学员们提供了与顶级会议论文作者面对面的交流机会。
下面就来回顾一下本次Summer School中他们演讲的主要内容(按分享时间顺序总结,排名不分先后)。
刘兵:Building Lifelong Learning Machines (打造终身学习的机器)
刘兵,伊利诺伊芝加哥分校教授,AAAI /ACM/IEEE Fellow,Web挖掘研究领域国际知名专家,著有Web Data Mining和Sentiment Analysis and Opinion Mining等多部计算机精选教材,论文被引用4万余次(H-Index 77,Google学术),其研究成果受到多家国际媒体报道(如,纽约时报,洛杉矶时报等),分别于2014、2015获得KDD Test-of-Time Paper Award。
作为本次Summer School的开场报告,刘兵教授的讲解围绕终身学习展开,以自然语言处理为实例,解释了打造终身学习机器的动机和必要性,并与多任务学习、迁移学习等终身学习相关的研究领域进行了对比,给出了终身学习的定义和主要特征:即持续性学习,存储知识和更新知识,并能够帮助未来的学习。他介绍了其团队在终身监督学习和终身无监督学习的最新研究工作,旨在解决情感分析、观点挖掘等重要课题。最后,他给出了终身学习的挑战和未来研究的展望。
PhilipYu: On Fusing Heterogeneous Data Sources
PhilipYu, 清华大学数据科学研究院院长,ACM/IEEE Fellow,ACM Transactions on Knowledge Discovery from Data (TKDD)主编,曾任IEEE Transactions on Knowledge and Data Engineering (TKDE)主编,2013年获IEEE技术成就奖,2016年获SIGKDD Innovation Award。
Philip Yu教授的报告主要从数据融合的视角对数据挖掘进行讲解,他从相同实体不同类型信息、相似实体不同信息以及不同实体但可以通过复杂网络相连接的信息等三个方面对异构数据源挖掘进行了详细说明,讲述了跨社交网络的数据融合技术。在对详细技术的说明后,他从推荐系统、地点预测、神经疾病诊断、情绪检测、交通流预测等领域对数据融合的应用进行阐述,最后他指出数据越来越被认为是最有价值的资产,对大数据的探索有利于打破旧有的商业模式并创造出新的模式,高效的学习需要在深度和广度上下功夫,而融合技术在整合知识广度上具有不可替代的作用。
郑宇:Urban Computing(城市计算)
郑宇,微软亚洲研究院主任研究员、CCF杰出会员、美国计算机学会杰出科学家、ACM数据挖掘中国分会(KDD China)秘书长、上海交通大学讲座教授、香港科技大学客座教授、人工智能国际权威期刊(SCI一区刊物)ACM TIST主编。
郑宇教授的报告主要探讨了时空数据挖掘与多源数据融合,介绍了城市计算的主要内容。针对时空数据挖掘部分,主要介绍了城市计算中的城市数据管理,并探讨了城市数据的分析与挖掘等问题。以城市大数据为例探讨时空数据(区别于文本、语音和视频数据)的特性,以及深度学习技术在时空大数据上的使用和设计方法。分享了基于深度学习的城市人流量预测的案例。针对多源数据融合部分,郑宇认为在大数据中相对于“大”来说,更难更有意思的是多源数据融合。多源数据融合的方法按照已有的工作可以分成Stage-based data fusion、Feature-level-based data fusion和 Semantic meaning-based fusion三个方法。第一类基于阶段性方法,先用一种数据再用另一种数据;第二类基于特征拼接的方法,主要包括传统的特征串联加上一些正则化方法和深度学习方法;第三种方法基于语义信息的方法,主要包括多视角、概率依存关系、相似度和基于迁移学习的方法。在城市计算应用方面,郑宇教授分享了基于大数据的空气质量预测、小鱼天气和基于大数据的贵阳市交通与能耗监控系统等实例。
薛贵荣:棋类游戏中的AI技术
薛贵荣,博士,天壤网路科技有限公司创始人及CEO,国家科技部云计算专家组成员。原阿里巴巴旗下阿里妈妈首席数据科学家,曾任职于上海交通大学计算机系,担任北航软件学院大数据专业特聘博士,ACM WWW Internet Monetization领域主席。
薛博士以风靡大众的游戏世界作为切入,对深度强化学习在游戏中的应用进行了深入的剖析与展望。游戏的可重复性为深度强化学习提供了完美的实验测试环境,他先介绍了目前重要的开发测试平台,并概述了围棋AI的历史发展脉络,详解了AlphaGo的训练架构。因AlphaGo并未开源代码,他独家分享了天壤科技复现AlphaGo过程中在软硬件两方面的技术攻关难点,并介绍了天弈围棋AI对此进一步提升的思路。最后对深度强化学习在无人驾驶、机器人控制、量化金融、城市管理等现实应用场景进行了展望。
崔鹏:网络表征学习:探索网络分析新范式
崔鹏,清华大学副教授,博士生导师,IEEE TKDE及ACM TOMM编委,KDDChina委员,获得ICDM15最佳学生论文奖、ICME14最佳论文奖等多项国际会议论文奖,中国科协首届青年人才。
崔鹏副教授主要分享他们团队在网络表征上和社会动力学领域的科研成果,他认为社交网络的出现是人类历史上首次大规模地分析并了解人群演化机理的契机;崔教授对现有的网络结构表示提出了新的解说,简述了网络表征向量(Network embedding)1.0,并详述了网络表征向量2.0;在进一步讨论未来网络表征的发展方向中,他指出网络研究还应该考虑更丰富的结构和更完备的属性,从简单网络到复杂网络、从静态网络到动态网络,还需要从表征向量空间上做更多的考量。此外,他通过对因果性(Causality)与相关性(Correlation)分析的详细对比,介绍了因果分析的优势和研究前景。
张敏灵:多标记机器学习
张敏灵,东南大学教授,博导,教育部青年长江学者,国家自然科学基金优秀青年科学基金获得者,中国计算机学会青年科学家奖获得者,KDD China委员,CCF人工智能专委会常务委员,CAAI机器学习专委会秘书长。
张教授的报告对多标记学习进行了综述。首先简要介绍多标记学习的基本概念和解决多标记问题的两类算法:Problem transformation methods 和 Algorithm adaptation methods。接着介绍与多标记学习相关的一些主题,包括Evaluation metrics,Binary Relevance 和 Missing label 等。最后给出多标记学习的一些扩展问题,主要有多示例多标签学习,偏标记学习和标记分布学习。
陈恩红: 教育大数据和智能推荐系统
陈恩红,教授,中国科学大学计算机学院副院长,中国计算机学会会士,国家杰出青年基金获得者,KDD China委员,语音及语言信息处理国家工程实验室副主任,大数据分析及应用安徽省重点实验室主任。获数据挖掘领域顶级会议KDD2008最佳应用论文奖、ICDM2011最佳研究论文奖、SDM2015最佳论文提名奖等,获2012年教育部自然科学二等奖。
陈恩红教授对教育大数据、推荐系统以及两者的结合,即教育大数据智能推荐系统等三个方面进行了分享,他指出大数据除了能在电商、军事、医疗等方向发挥作用外,在教育行业也不可或缺,例如利用校园卡隐性补助贫困生、拖延症问题研究等。教育数据能够挖掘出学生学业面临的现状并提出对应解决方案,目前教育推荐还需要同教育学领域的知识进行深度结合来解决结果精度、可解释性等问题。
杨强:迁移学习研究进展
杨强,香港科技大学,新明工程学讲座教授,计算机与工程系主任,大数据研究所主任。AAAI/IEEE/AAAS/IAPR Fellow。过个国际期刊编委,ACM TIST和IEEE大数据期刊的创始主编。ACM数据挖掘中国分会(KDD China)主席。中国人工智能学会副理事长及国际人工智能协会AAAI和IJCAI常务理事。
作为本次Summer School的压轴特邀演讲嘉宾,杨教授对迁移学习的进展进行了非常精彩的讲述。作为近年来机器学习的研究热点问题,迁移学习受到了学者们的广泛关注。他指出迁移学习的研究出发点有三个,首先是我们希望在一个新的领域中只具有小数据的情况下,如何借助过去的大数据的经验;第二点是在场景改变后,我们期望机器学习也能够像软件工程的软件那样具有较高的可靠性;第三点是我们如何将云端的通用模型迁移到个性化的终端。迁移学习的本质是找出两个领域中的不变量(即两个领域的共性)。迁移学习的好处在于:1、达到同样的学习效果时使用迁移学习比不使用迁移学习所需要的数据量更少;2、拥有相同的数据量时使用迁移学习比不使用迁移学习的学习效果更好。
杨教授对实现迁移学习的四种方法依次进行了举例说明,包括了样本迁移、特征迁移、模型迁移和关系迁移。最后对深度迁移学习和传递式迁移学习进行了详细的分析,利用迁移学习的实际应用加深学员们对迁移学习的理解。
除了以上知名学者们的倾情讲解,13位来自全国各地的KDD 2017最新录用论文的作者为大家奉上了最新鲜出炉的顶尖学术成果。他们有的来自工业界:360、华为等研究机构;有的来自学术界:香港科技大学、清华大学、北京航空航天大学、电子科技大学等高校的青年学者。他们都详细地分享了自己的论文并同学员进行了墙报交流。其中,论文技术包括时下热度最高的深度学习、迁移学习、多任务学习、半监督学习等等;应用场景从推荐到计算广告再到城市计算,覆盖生活的每个角落,为学员拓宽了知识,开阔了视野。
KDD 2017论文分享
KDD 2017论文墙报交流
现场精彩瞬间分享
座无虚席
全神贯注
思想碰撞
与刘兵教授交流
与郑宇教授交流
与薛贵荣博士交流
杨强教授给学员们签名
领取结业证书
大合照(部分学员和讲者)
长按二维码关注 KDD China
会员加入,请点击“阅读原文”