题目

A Survey on Large-scale Machine :大规模机器学习综述

关键词

机器学习,综述调查

摘要

机器学习可以提供对数据的深刻见解,从而使机器能够做出高质量的预测,并已广泛用于诸如文本挖掘,视觉分类和推荐系统之类的实际应用中。 但是,大多数复杂的机器学习方法在处理大规模数据时会耗费大量时间。 这个问题需要大规模机器学习(LML),其目的是从具有可比性能的大数据中学习模式。 在本文中,我们对现有的LML方法进行了系统的调查,为该领域的未来发展提供了蓝图。 我们首先根据提高可伸缩性的方式来划分这些LML方法:1)简化计算复杂度的模型,2)优化计算效率的近似值,以及3)提高计算的并行性。 然后,根据目标场景对每种方法进行分类,并根据内在策略介绍代表性方法。最后,我们分析其局限性并讨论潜在的方向以及未来有望解决的开放问题。

简介

机器学习使机器能够从数据中学习模式,从而无需手动发现和编码模式。 尽管如此,相对于训练实例或模型参数的数量,许多有效的机器学习方法都面临二次时间复杂性[70]。 近年来,随着数据规模的迅速增长[207],这些机器学习方法变得不堪重负,难以为现实应用服务。 为了开发大数据的金矿,因此提出了大规模机器学习(LML)。 它旨在解决可用计算资源上的常规机器学习任务,特别着重于处理大规模数据。 LML可以以几乎线性(甚至更低)的时间复杂度处理任务,同时获得可比的精度。 因此,它已成为可操作的见解的大数据分析的核心。 例如,Waymo和Tesla Autopilot等自动驾驶汽车在计算机视觉中应用了卷积网络,以实时图像感知周围环境[115]; 诸如Netflix和Amazon之类的在线媒体和电子商务站点从用户历史到产品推荐都建立了有效的协作过滤模型[18]。总而言之,LML在我们的日常生活中一直扮演着至关重要的和不可或缺的角色。

鉴于对从大数据中学习的需求不断增长,对此领域的系统调查变得非常科学和实用。 尽管在大数据分析领域已经发表了一些调查报告[12],[33],[54],[193],但它们在以下方面还不够全面。 首先,它们大多数只专注于LML的一个观点,而忽略了互补性。它限制了它们在该领域的价值,并无法促进未来的发展。例如,[12]专注于预测模型而没有发现优化问题,[33]在忽略并行化的同时回顾了随机优化算法,[193]仅关注了 大数据处理系统,并讨论系统支持的机器学习方法。 其次,大多数调查要么失去对所审查方法的洞察力,要么忽视了最新的高质量文献。 例如,[12]缺乏讨论模型的计算复杂性的讨论,[33]忽略了处理高维数据的优化算法,[120]将其研究限于Hadoop生态系统中的分布式数据分析。 从计算角度回顾了200多篇Paperson LML,并进行了更深入的分析,并讨论了未来的研究方向。 我们为从业者提供查找表,以根据他们的需求和资源选择预测模型,优化算法和处理系统。 此外,我们为研究人员提供了有关当前策略的见解,以更有效地开发下一代LML的指南。

我们将贡献总结如下。 首先,我们根据三个计算角度对LML进行了全面概述。 具体来说,它包括:1)模型简化,通过简化预测模型来降低计算复杂性; 2)优化近似,通过设计更好的优化算法来提高计算效率; 3)计算并行性,通过调度多个计算设备来提高计算能力。其次,我们对现有的LML方法进行了深入的分析。 为此,我们根据目标场景将每个角度的方法划分为更精细的类别。 我们分析了它们促进机器学习过程的动机和内在策略。 然后,我们介绍了具有代表性的成就的特征。此外,我们还回顾了混合方法,这些方法共同改善了协同效应的多个视角。 第三,我们从各个角度分析了LML方法的局限性,并根据其扩展提出了潜在的发展方向。 此外,我们讨论了有关LML未来发展的一些相关问题。

本文的结构如下。 我们首先在第2节中介绍了机器学习的一般框架,然后对其有效性和效率进行了高层次的讨论。在第3节中,我们全面回顾了最新的LML方法并深入了解了它们的好处和优势。 局限性。 最后,在第5节结束本文之前,我们讨论了解决第4节中的局限性和其他有希望的未解决问题的未来方向。

成为VIP会员查看完整内容
64

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
75+阅读 · 2020年8月31日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
最新《图嵌入组合优化》综述论文,40页pdf
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
【综述】交通流量预测,附15页论文下载
专知
22+阅读 · 2020年4月23日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
Arxiv
12+阅读 · 2020年8月3日
Arxiv
45+阅读 · 2019年12月20日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
5+阅读 · 2018年10月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
VIP会员
相关VIP内容
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
75+阅读 · 2020年8月31日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
相关资讯
最新《图嵌入组合优化》综述论文,40页pdf
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
【综述】交通流量预测,附15页论文下载
专知
22+阅读 · 2020年4月23日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
相关论文
微信扫码咨询专知VIP会员