数据挖掘巨擘俞士纶:真实数据源不止一个,学习不仅要有深度还要有广度

2019 年 10 月 19 日 AI科技评论



深挖洞,广积粮!

作者 | Camel

排版 | 唐里

AI科技评论报道,2019年10月17日-19日,CNCC 2019在苏州金鸡湖国际会议中心举办,雷锋网作为战略合作媒体,对大会进行全程报道。
在18日上午的特邀报告中,数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“Broad Learning: A New Perspective on Mining Big Data”(广度学习: 大数据挖掘的新视角)的分享。
当前大家普遍对深度学习了解较多,而事实上对于数据我们不仅要挖得深,还需要挖得广。 例如对于网页数据,深度学习能够单独学习文本数据或图像数据等里面的特性。 但是真实的网页可能同时包含文本、图片、音频、链接等等的数据。
事实上,我们讲的大数据并不是说所有数据都很大,只是整体很大而已。 更多的情况是,我们拥有许多不同来源的(小)数据,它们之间相互有或多或少地联系。 如果能够将这些不同的数据源整合在一起,那么我们将挖掘出更多有价值的信息。
俞士纶教授认为,首先我们应当认同这样一个观点,即所有类型的数据都是可用的,换句话说就是没有没价值的数据。 问题的关键就在于我们如何将这些数据融合在一起。 那么如何做呢? 这就需要「广度学习」了。
所谓「广度学习」,俞士纶教授认为其本质就是如何将各种各样的数据整合在一起,以获取更多的信息。
在采访中,俞教授向AI科技评论强调说,广度学习在研究上的侧重点是数据,而深度学习的侧重点则在于模型; 换句话说深度学习的「深」是指对数据训练的模型层数深; 而广度学习的「广」是指我们训练模型的数据类型广。 这两个概念侧重的点不同,但可以结合在同一个模型当中。
要做好「广度学习」,俞教授认为需要以下三步:
  • 首先,定义并获取相关的有用数据源,也即找到对你的问题有用的数据。
  • 其次,设计一种模型来将异质数据源信息融合起来。
  • 最后,基于模型整体的需求从各种数据源中深度地去挖掘信息。
而从具体的技术路线角度来看,俞士纶教授认为广度学习的类型大致可以分为三类:
  • 首先是在同一个实体上有不同类型信息的学习。这种类型的广度学习包括 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。

  • 其次是在不同的但类型相似的实体上信息的学习。这包括 Transfer Learning。

  • 另外是在有复杂网络类型关系的不同类型实体信息的学习。这包括基于融合的异质信息网络(HIN)。

对于广度学习,最为关键的任务主要有两个: 信息融合和知识发现。 因此对应的就有两个基本的挑战,其一是发现什么数据是有用的,如何将这些数据融合在一起; 其二就是要明白想要挖掘什么(并不是所有数据对特定的知识发现都有用),以及如何从融合的数据中挖掘出有用的知识。
这有很多例子。
例如药物发掘。 新药上市通常很贵,原因在于研发新药的成本非常高,发现一个新药之前可能失败成千上万次。 但如果我们能够用大数据的技术来做预测,把那些不成功的案例删除掉,那么就能够在很大程度上降低新药研发的成本。 但是,决定一种药物能否治疗一种疾病,并不仅仅是看药物的化学成分的; 事实上,这需要很多种不同类型的信息或数据。 例如基因信息、器官组织信息、药物传播临床试验信息等。 传统的数据挖掘方法仅仅能够针对一种信息进行深度挖掘,但事实上若想要取得较好的效果,则需要将多种信息综合起来。 下面这张图融合了多个不同数据之间的关系,这在本质上是一个异质网络。
在这张图上,可以定义所谓的Meta-Path,来表示两个数据之间的关系:
比如两个数据虽然不一样,但相互有影响,那么就可以直接连在一起; 两个化学药品,如果它们有相同的副作用,那么就可以说它们有关系。 这种关联可以帮我们来决定一个药物是否可能有用。
再例如,在电影推荐中,传统的方法往往只是根据用户的打分信息进行推荐,但事实上用户是否喜欢一部电影往往还取决于更多的因素,例如用户的个人背景、用户的朋友圈以及其他因素(例如电影是某个导演拍摄或某个演员主演等)都会影响用户是否观影以及观影体验。
类似于前面的例子,也可以采用相似的方法将不同的信息进行融合来提高推荐的准确性。

俞士汶教授认为,在大数据时代数据是最为宝贵的资源。 对个人和企业来讲,对大数据的挖掘将是一次颠覆性的机会; 大数据有四个「V」,所以对大数据的挖掘同时也是一种挑战。 俞教授在报告中则主要是解决大数据的Variety,也即通过融合异质数据源来进行广度学习。 真实生活中的数据一般都不是只有一个数据源,而是要融合多个数据源才行。 因此有效的学习应当同时需要广度和深度。


点击“阅读原文”进入 AI 研习社

登录查看更多
0

相关内容

俞士纶,美国伊利诺伊大学芝加哥分校(UIC)特聘主任教授、美国计算机学会(ACM)及美国电气电子工程师学会(IEEE)院士(Fellow),清华大学特聘教授。他曾于美国IBM Watson研究中心工作多年,创建了世界知名的数据挖掘及数据管理部,是IBM公司拥有专利最多的人之一。作为国际数据库和数据挖掘等领域的先驱之一,作为国际数据挖掘和数据管理领域的顶尖学者,曾担任多个著名国际期刊主编、副主编以及多个顶级国际学术会议的程序委员会主席和委员,在国际著名学术期刊与重要国际学术会议(如SIGKDD、SIGMOD,WWW、AAAI等)上发表论文970余篇,专利300余项,在谷歌学术上的H-index高达138。自1981-2018年Philip S. Yu的研究成果有1094项,2018年全球计算机科学和电子领域排名第九,华人排名第二。Philip S. Yu的主要研究兴趣包括数据挖掘、隐私保护发布和挖掘、数据流、数据库系统、互联网应用和技术、多媒体系统、并行和分布式处理以及性能建模。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
91+阅读 · 2020年6月28日
专知会员服务
116+阅读 · 2020年6月12日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
133+阅读 · 2020年3月25日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
【中科大徐童】多模态语义理解与关联
专知会员服务
83+阅读 · 2019年12月7日
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
清华朱军教授:机器学习未来的几大挑战与目前进展
DeepTech深科技
4+阅读 · 2018年10月29日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
推荐几个让你受益匪浅的学习类公众号
EGONetworks
6+阅读 · 2017年12月9日
10.24......送你10个快速提升技术水平的公众号
机器学习算法与Python学习
3+阅读 · 2017年10月23日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
6+阅读 · 2018年3月25日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
91+阅读 · 2020年6月28日
专知会员服务
116+阅读 · 2020年6月12日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
133+阅读 · 2020年3月25日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
【中科大徐童】多模态语义理解与关联
专知会员服务
83+阅读 · 2019年12月7日
相关资讯
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
清华朱军教授:机器学习未来的几大挑战与目前进展
DeepTech深科技
4+阅读 · 2018年10月29日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
推荐几个让你受益匪浅的学习类公众号
EGONetworks
6+阅读 · 2017年12月9日
10.24......送你10个快速提升技术水平的公众号
机器学习算法与Python学习
3+阅读 · 2017年10月23日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
相关论文
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
6+阅读 · 2018年3月25日
Top
微信扫码咨询专知VIP会员