大数据时代下,面对不断膨胀的数据信息、复杂多样的应用场景、异构的硬件架构和参差不齐的用户使用水平,传统数据库技术很难适应这些新的场景和变化. 机器学习技术因其较强的学习能力,逐渐在数据库领域展现出了潜力和应用前景. 论文首先给出一个高效、高可靠、高可用、自适应性强的数据库系统需要涵盖的方面,包括数据库运维、数据存储、查询优化等.其次,讨论机器学习算法与数据库技术结合过程中可能面临的挑战,包括训练数据少、训练时间长、泛化能力有限、适应性差四个方面.然后,综述数据库技术与机器学习结合的现状以及具体技术.其中,重点介绍数据库自动调参、查询基数估计、查询计划选择、索引和视图自动选择五个方向.自动调参技术包括启发式算法、传统机器学习、深度强化学习三类.启发式算法从离散的参数空间中通过抽样探索最优子空间,可以有效提高调参效率,但是难以保证在有效资源限制内找到合适配置;传统机器学习算法在经过降维的参数空间中学习系统状态到指定负载模板的映射关系,一定程度上提升模型的适应性;深度强化学习在高维参数空间中迭代的学习调优策略,并利用神经网络提升对高维数据的处理能力,有效降低训练数据的需求.查询基数估计包括面向查询和面向执行计划两类.面向查询方法利用卷积神经网络学习表数据、查询条件、连接条件之间的关系,然而在不同场景下需要大量训练而且泛化能力差;面向执行计划方法在物理算子层面做级联的代价估计,一定程度上提高对不同查询的适应能力.查询计划选择包括深度学习和强化学习两类.深度学习方法融合数据库估计器的代价值和数据特征,提高对每种计划代价估计的精度,但是结果严重依赖估计器的表现;强化学习基于最终目标迭代生成查询计划,降低方法对查询代价的依赖性.自动索引推荐包括分类器、强化学习、遗传算法三类.分类算法根据离散的表特征分析不同索引的创建开销和效率,通过结合遗传算法,提高对复合索引的推荐效率;强化学习进一步提供增量式索引推荐的效率,实现在线索引选择.自动视图选择包括启发式算法、概率统计、强化学习三类.启发式算法通过在视图构建的有向无环图上做贪心探索,提高选择效率,然而适应性差;基于概率统计的算法将视图选择形式化成一个0-1选择问题,有效降低图的探索开销;强化学习方法将视图的创建和删除统一成动态选择过程,基于强化学习的训练策略进一步提高选择效率.最后,从八个方面展望机器学习将给数据库带来的革命性突破。

成为VIP会员查看完整内容
53

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
专知会员服务
187+阅读 · 2021年2月4日
专知会员服务
29+阅读 · 2021年1月9日
专知会员服务
230+阅读 · 2020年12月15日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
48+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年8月20日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
专知会员服务
160+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
综述 | 机器视觉表面缺陷检测
计算机视觉life
8+阅读 · 2019年8月2日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
神经网络架构搜索(NAS)综述 | 附AutoML资料推荐
多媒体大数据分析研究进展综述导读
专知
8+阅读 · 2018年3月19日
Arxiv
0+阅读 · 2021年3月2日
Arxiv
1+阅读 · 2021年2月28日
Arxiv
0+阅读 · 2021年2月26日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
5+阅读 · 2018年10月11日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关VIP内容
专知会员服务
187+阅读 · 2021年2月4日
专知会员服务
29+阅读 · 2021年1月9日
专知会员服务
230+阅读 · 2020年12月15日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
48+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年8月20日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
专知会员服务
160+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
相关资讯
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
综述 | 机器视觉表面缺陷检测
计算机视觉life
8+阅读 · 2019年8月2日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
神经网络架构搜索(NAS)综述 | 附AutoML资料推荐
多媒体大数据分析研究进展综述导读
专知
8+阅读 · 2018年3月19日
相关论文
Arxiv
0+阅读 · 2021年3月2日
Arxiv
1+阅读 · 2021年2月28日
Arxiv
0+阅读 · 2021年2月26日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
5+阅读 · 2018年10月11日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2017年4月12日
微信扫码咨询专知VIP会员