AI科技评论报道,2019年10月17日-19日,CNCC 2019在苏州金鸡湖国际会议中心举办,雷锋网作为战略合作媒体,对大会进行全程报道。在18日上午的特邀报告中,数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“Broad Learning:A New Perspective on Mining Big Data”(广度学习:大数据挖掘的新视角)的分享。当前大家普遍对深度学习了解较多,而事实上对于数据我们不仅要挖得深,还需要挖得广。例如对于网页数据,深度学习能够单独学习文本数据或图像数据等里面的特性。但是真实的网页可能同时包含文本、图片、音频、链接等等的数据。事实上,我们讲的大数据并不是说所有数据都很大,只是整体很大而已。更多的情况是,我们拥有许多不同来源的(小)数据,它们之间相互有或多或少地联系。如果能够将这些不同的数据源整合在一起,那么我们将挖掘出更多有价值的信息。俞士纶教授认为,首先我们应当认同这样一个观点,即所有类型的数据都是可用的,换句话说就是没有没价值的数据。问题的关键就在于我们如何将这些数据融合在一起。那么如何做呢?这就需要「广度学习」了。所谓「广度学习」,俞士纶教授认为其本质就是如何将各种各样的数据整合在一起,以获取更多的信息。在采访中,俞教授向AI科技评论强调说,广度学习在研究上的侧重点是数据,而深度学习的侧重点则在于模型;换句话说深度学习的「深」是指对数据训练的模型层数深;而广度学习的「广」是指我们训练模型的数据类型广。这两个概念侧重的点不同,但可以结合在同一个模型当中。要做好「广度学习」,俞教授认为需要以下三步:
俞士纶,美国伊利诺伊大学芝加哥分校(UIC)特聘主任教授、美国计算机学会(ACM)及美国电气电子工程师学会(IEEE)院士(Fellow),清华大学特聘教授。他曾于美国IBM Watson研究中心工作多年,创建了世界知名的数据挖掘及数据管理部,是IBM公司拥有专利最多的人之一。作为国际数据库和数据挖掘等领域的先驱之一,作为国际数据挖掘和数据管理领域的顶尖学者,曾担任多个著名国际期刊主编、副主编以及多个顶级国际学术会议的程序委员会主席和委员,在国际著名学术期刊与重要国际学术会议(如SIGKDD、SIGMOD,WWW、AAAI等)上发表论文970余篇,专利300余项,在谷歌学术上的H-index高达138。自1981-2018年Philip S. Yu的研究成果有1094项,2018年全球计算机科学和电子领域排名第九,华人排名第二。Philip S. Yu的主要研究兴趣包括数据挖掘、隐私保护发布和挖掘、数据流、数据库系统、互联网应用和技术、多媒体系统、并行和分布式处理以及性能建模。