项目名称: 关于大数据处理分布式学习算法的可行性理论研究
项目编号: No.11401462
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 数理科学和化学
项目作者: 常象宇
作者单位: 西安交通大学
项目金额: 22万元
中文摘要: 进入大数据时代,经典的统计机器学习算法面临着两个基本的挑战,即如何设计能够适应于大数据的统计机器学习算法,以及如何分析这样算法的可行性。针对第一个问题,有大量的文献研究了如何利用分而治之的策略把经典的统计机器学习算法推广为分布式学习算法。但是这样的分布式学习算法对于大数据处理是否是可行的仍然没有完整的理论研究。 因此,本项目将聚焦于研究统计机器学习方法应用于大数据的两个基本问题:第一,从理论上对于分布式学习算法研究其可行性,特别的对于分布式回归算法,分布式K均值聚类算法,分布式随机块算法提供可行性理论;第二,针对一些特定的还不能应用于大数据的非分布式学习算法(例如基于随机块模型的社区发现算法)设计分布式学习算法。
中文关键词: 分布式学习;学习理论;大规模数据;高维聚类;
英文摘要: Classical statistical machine learning algorithms encounter two fundamental challenges in the big data age, namely how to design machine learning algorithms that can be applied to big data process and how to provide a theoretical analysis framework for th
英文关键词: Distributed Learning;Learning Theory;Big Data;High-dimesional Data Clustering;