孟小峰:机器学习与数据库技术融合

2018 年 9 月 6 日 计算机研究与发展


由深度学习驱动的新一代人工智能变革给传统计算系统带来巨大冲击。机器学习和数据库作为两种截然不同的技术呈现出不断结合的趋势。一方面来说,个人和企业的业务场景表现出对机器学习技术日益迫切的需求,其趋势表现在各类机器学习平台的快速发展,但机器学习的专业性很强,要充分发挥其作用,需要大量资金和训练有素的工程团队。机器学习系统应当如何从传统数据库研究中获取新灵感,实现机器学习算法的易用性和可解释性?从另一方面来看,最近硬件技术得以快速发展,但更多的集中计算部件对加速机器学习技术而非传统数据库技术更为有效。如何有效地结合机器学习进一步优化数据管理系统?机器学习与数据库技术互相结合促进优化是非常重要的。然而,这方面的许多基本问题还有待探索,包括数据库化的机器学习系统、机器学习化的数据存储、索引和查询处理、可解释的机器学习等。

据此,我们提出数据智能的概念,即:数据库化的机器学习(DB4ML),建立体系化的机器学习框架和易用的机器学习应用设计相结合的智能处理体系;机器学习化的数据库技术(ML4DB),利用机器学习方法完成传统数据库操作以提升数据处理效率;可解释的机器学习(IML),对数据处理的智能过程要保证公平性、可问责、可解释等需求。

数据库化的机器学习

当前社会已步入“数据黄金时代”,但要充分挖掘这些数据,就需要资金充足和训练有素的工程团队。如下图所示,在一个机器学习系统中,真正的机器学习代码仅占很小一部分,而大部分工作都消耗在环境配置、数据收集和校验等工作上。

如何使复杂的机器学习具有易用性?即机器学习应用过程中应当不再需要PhD、不需要数据库系统的专家,也不需要了解最新硬件。这种对用户技术能力要求较低的计算机产品在之前也曾产生过,如数据库领域的SQL。

研究案例:视频检索系统NoScope(斯坦福大学)

因此,斯坦福DAWN(Data Analysis for What’s Next)项目提出领域专家构建机器学习工具的问题。其技术栈如下图所示。这里主要介绍视频检索系统NoScope。随着神经网络的发展,YOLOv2成为目前性能最好的视频挖掘算法。但其依赖于大规模训练数据和深层网络,无法满足现实应用中的计算需求。

如果针对特定查询和对象,训练定制化NN(Specialized Neural Network, Specialized NN),实验效果会更佳。同时,由于网络结构简单,后者的训练成本也更低。视频处理算法多以“帧”为单位。相邻两帧的差异一般很小,如果每一帧都分析,就会产生大量重复工作。因此,NoScope使用差异检测器检测帧之间的区别。如下图所示,从第0帧中去除背景,就可以得到目标对象公共汽车,从而便利“公共汽车”相关检索。实验表明,与定制化NN相比,差异检测器耗时更少。

定制化NN可解决特定对象的特定查询问题,但扩展性不够;差异检测器可在去背景后加速鉴别目标对象,但如何去背景?因此,YOLOv2必不可少。为了进行合理的模型选择,NoScope提出了如上图所示的Cost-Based模型选择算法。

综上,视频检索问题可理解为:视频->检测器->标签。如果可将视频内容转换为关系,并存储于数据库中,就可以使用SQL语句进行查询。假设检索台北视频中的公共汽车数,就可使用下图所示SQL语句。同时,NoScope可通过SQL优化进一步提高性能。 

研究案例:知识图谱构建系统KGBuilder(中国人民大学)

与机器学习相比,数据库的另一大特点在于系统性。如何进一步将相对孤立、零散的机器学习技术系统化,充分发挥系统耦合性带来的优势?因此,便有了系统化的机器学习这一观点(SysML),具体包括两方面的内容:在设计具体的机器学习算法过程中应当从系统的角度出发,以提高系统整体性能为目标;同时,在设计系统架构过程中,也应当考虑系统设计是否充分发挥了机器学习的性能。

KGBuilder是一个知识图谱构建系统,主要包括命名实体识别(NER)、关系抽取(Relation Extraction)和知识图谱补全(Knowledge Graph Completion)三部分。这三个部分本身都是相对独立的机器学习任务,输入都是原始的字符,如文本、实体和关系等。但在系统构建过程中,我们注意到,三者在进行参数训练过程中,都对实体、关系和文本进行了embedding。因此,如图所示,我们可以将上一步骤的embedding输出作为下一步骤的输入。这样,既可以保留部分训练的语义信息,提高实验效果;同时,又可以减少迭代次数,降低实验成本。

由此可见,在系统设计过程中考虑机器学习算法本身的特征,将机器学习系统化,有助于实现系统效能提升。这也与机器学习应用于系统的初衷,即提升用户对系统的整体体验不谋而合。

机器学习化的数据库

数据库的性能优化已经进入了一个瓶颈期。一方面,Oracle和PostgreSQL等产品级数据库持续稳定的运行,说明经典数据库的算法已经趋于完善,且基于这些算法的性能优化也已达到了很好的程度,如PostgreSQL上查询的L1缓存命中率为97.74%,进一步优化的空间逐渐收窄。另一方面,随着机器学习技术井喷式的发展,新硬件的迭代速度也越来越来,但更多集中在计算部件,如众核处理系统、高性能协处理器、GPU处理器和智能化处理器等,到2025年GPU性能可以再提高1000倍,这些可喜的成绩似乎并不是给数据库准备的。众所周知,数据库是典型的访存密集型系统。它将如何借助这次新硬件发展的“东风”,实现数量级的性能加速?方式之一便是结合机器学习技术改造自身。

研究案例:机器学习化B树RMI(Google)

在传统索引结构中,B树索引可用于范围查询,Hash索引可用于点查询,布隆过滤器可用于存在检测。本质上,这些索引都是给定key返回key的位置,如图所示(作为传统索引,右为机器学习化的索引)。这些索引在指示相应位置时,实际上是根据索引规则“构造”了一种结构,然后将数据“填入”结构中,从而实现数据检索功能。它们都未考虑数据本身的分布特征:如果把key值看作特征,那位置就是预测值,如果能学习到分布特征,就能“恢复”key与位置的关系,从而使用机器学习方法实现数据检索功能。

如下图所示(左为传统B树,右为机器学习化的B树),以B树为例,将索引看作模型:B树索引每一个节点都是数据全集的一段有序序列,通过不断地取出子节点序列搜索,最终可以将key映射到排序数组中的位置。机器学习化B树的每一个节点都是父节点模型中的一段局部模型,通过一步步的迭代计算将key值最终映射到排序数组中的位置。

综上,机器学习化B树的优点是:(1)需要的存储空间比B树小,因为机器学习化B树仅存储模型,而非原始数据;(2)将访存密集型的B树搜索转化为了模型的迭代计算,便于新型计算部件的加速。

可解释的机器学习

目前,机器学习在视觉和医疗等领域已经取得了飞速进展。人们在为其欢呼的同时,也发现了它暴露出来的问题——不公平性和不可解释性。《数学杀伤性武器(Weapons of Math Destruction)》一书的出版详细阐述了机器学习带来的负面影响。该书指出我们的生活越来越依赖于算法,但是这些算法往往却不透明、不受管制,且不可测试,甚至在算法本身错误的情况下依然可以使用。书中列举的众多案例表明机器学习也会学习到人类社会中的偏见。因此,需要对机器学习决策过程进行解释和问责,这也正是消除机器学习负面作用的挑战所在。

研究案例:可解释的鸟类分类(加州大学)

机器学习算法一般需要利用待处理对象的特征进行训练,从而完成分类、聚类或者预测等任务。决策树和K近邻等算法都可以很明显地表明哪个或哪些特征会影响当前学习结果,而另外一些算法如深度神经网络就无法揭露影响结果的关键特征或因素。一种比较成功的尝试是根据反类(Counterfactual Class)发现模型预测的关键影响因素。

这里将以上图为例说明这一过程。模型学习的训练数据集往往来源于人工标注。但是,在具体标注过程中,人们未必会解释相应原因。论文[5]提出可以通过Counterfactual Class来完成具体的模型解释。这里以唐纳雀的判断为例进行说明。首先,通过可解释模型对正例特征进行挖掘,得到黑色翅膀和尖喙等候选关键因素;然后,依据候选关键因素,查找Counterfactual Class;最后,对比模型生成的Counterfactual Class 和人工标注的负例,得到真正的关键因素。

·

总之,目前主流的可解释机器学习方法主要关注特征,即哪些特征会对最终学习结果产生更直接的影响,而如何利用可视化技术更直观地展示出关键特征的影响也越来越引起人们关注。同时,如何处理敏感特征以保证算法公平性和可问责,都将成为未来一定时期内解决可解释性问题的关键所在。

总结

数据智能包括数据库化的机器学习、机器学习化的数据库,以及可解释的机器学习。它们一方面体现了大数据处理技术的需求和发展趋势,另一方面也要求人工智能更符合人类的共同价值观和利益,三者缺一不可,相辅相成。此文仅是数据智能相关思考的起点,要真正发挥其作用,我们还需进行更充分地研究和探索,包括数据库化的机器学习系统、可解释的机器学习、机器学习化的数据存储、索引、查询处理等。

2019年2月《计算机研究与发展》将推出“数据智能:机器学习与数据库系统”专题(特约编辑:孟小峰、李飞飞、陈云霁)(链接http://crad.ict.ac.cn/CN/news/news64.shtml),主要侧重数据库化的机器学习、机器学习化的数据库、数据智能系统架构和机器学习系统架构等方面,这将涉及到数据管理、机器学习技术等多个交叉学术领域,为相关领域的研究者提供更多的沟通和交流的机会,探讨数据智能的基础理论研究及其应用,讨论该领域内最新的突破性进展,交流新的学术思想和新方法,展望未来的发展趋势。

参考文献

[1]Sculley D, Holt G, Golovin D, et al. Hidden TechnicalDebt in Machine Learning Systems[J]. Advances in Neural Information ProcessingSystems, 2015:2494-2502.

[2]Kang D, Emmons J, Abuzaid F, et al. NoScope:Optimizing Neural Network Queries over Video at Scale[J]. Proceedings of theVldb Endowment, 2017, 10(11):1586-1597.

[3]Redmon J, Farhadi A. YOLO9000: Better, Faster,Stronger[J]. 2016:6517-6525.

[4]Kraska T, Beutel A, Chi E H, et al. The case forlearned index structures[C]//Proceedings of the 2018 International Conferenceon Management of Data. ACM, 2018: 489-504.

[5]Lisa Anne Hendricks, Ronghang Hu, Trevor Darrell,Zeynep Akata. Generating Counterfactual Explanations with Natural Language.Proceedings of the 35th International Conference on Machine Learning,Stockholm, Sweden, PMLR 80, 2018

[6]孟小峰, 慈祥: 大数据管理:概念、技术与挑战. 计算机研究与发展. Vol 50(1) : 146-169, 2013.

[7]孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展, Vol 52(02):231-246,2016. 

[8]孟小峰. 大数据管理概论[M]. 北京: 机械工业出版社, 2016.


登录查看更多
14

相关内容

专知会员服务
81+阅读 · 2020年6月20日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
82+阅读 · 2020年3月4日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
已删除
将门创投
9+阅读 · 2018年12月19日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
如何系统地学习数据挖掘?
数据库开发
10+阅读 · 2017年10月22日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关资讯
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
已删除
将门创投
9+阅读 · 2018年12月19日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
如何系统地学习数据挖掘?
数据库开发
10+阅读 · 2017年10月22日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
Top
微信扫码咨询专知VIP会员