项目名称: HDFS读、写性能概率建模与模型迁移方法研究

项目编号: No.61502379

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 自动化技术、计算机技术

项目作者: 董博

作者单位: 西安交通大学

项目金额: 20万元

中文摘要: HDFS性能建模是云计算领域研究热点之一。HDFS性能具有独特的概率分布特征,蕴含着有用的信息。但当前尚未开展HDFS性能概率建模研究;并且HDFS性能建模主要使用单一建模方法,性能模型迁移方法的研究处在起步阶段。为此,本项目研究一种“实验建模、分析建模与迁移学习结合”的HDFS读、写性能概率建模方法。.首先,基于HDFS工作机理,对文件大小域(0, BS]范围的文件大小(BS代表块长),采用实验建模,提出基于“特征指标值预测-概率密度还原”的性能概率密度函数估计方法;对文件大小域(BS, +∞)的文件大小,采用分析建模,提出基于概率密度叠加的性能建模方法。其次,对新平台的HDFS性能概率建模,提出基于实例迁移的HDFS性能概率建模方法。.以上方法能够建立不同平台HDFS读、写性能在文件大小域的概率模型,减少建模成本、提高建模效率,对其它数据密集型文件系统性能建模具有借鉴意义。

中文关键词: Hadoop分布式文件系统;性能建模;概率建模;迁移学习

英文摘要: Performance modeling for Hadoop Distributed File System (HDFS) has attracted significant attentions. Through a lot of experiments, we have investigated that HDFS performance has a unique probability distribution, which contains useful information. However, there is no research on probabilistic modeling for HDFS performance. Moreover, HDFS performance modeling is mainly based on a single modeling method, such as experimental modeling or analytical modeling, each of which has its own weakness. Model transferring between different platforms is still a challenge for HDFS performance modeling. Thus, this project aims to propose an “experimental modeling + analytical modeling + transfer learning”-based probabilistic modeling method for HDFS performance.. First, for file sizes in the range of (0, BS], experimental modeling methodology is used for HDFS performance modeling. Specially, a “Probability Density Estimation” method is proposed, which has two steps: (1) predicting characteristic index values and (2) restituting probability density function. Second, for file sizes in the range of (BS, +∞), analytical modeling methodology is used, and a “Probability Density Superposition”-based performance modeling method is proposed. Then, for HDFS performance modeling of a new platform, transfer learning methodology is used, and an “instance-based transfer learning” method is proposed to build approximate probabilistic models.. The proposed methods can build probabilistic models for HDFS performance of different platforms, and will reduce the cost of modeling and improve the efficiency of modeling. Moreover, the methods can also be useful for other data-intensive file systems.

英文关键词: HDFS;Performance Modeling;Probabilistic Modeling;Transfer Learning

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
31+阅读 · 2022年2月7日
图神经网络前沿进展与应用
专知会员服务
144+阅读 · 2022年1月24日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
27+阅读 · 2021年11月8日
专知会员服务
68+阅读 · 2021年10月17日
专知会员服务
40+阅读 · 2021年9月7日
专知会员服务
14+阅读 · 2021年3月26日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
专知会员服务
46+阅读 · 2020年10月20日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
Spark & Hive 云原生改造在智领云的应用
CSDN
0+阅读 · 2022年4月8日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
Kaggle知识点:伪标签Pseudo Label
AINLP
39+阅读 · 2020年8月9日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
10+阅读 · 2018年2月17日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
31+阅读 · 2022年2月7日
图神经网络前沿进展与应用
专知会员服务
144+阅读 · 2022年1月24日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
27+阅读 · 2021年11月8日
专知会员服务
68+阅读 · 2021年10月17日
专知会员服务
40+阅读 · 2021年9月7日
专知会员服务
14+阅读 · 2021年3月26日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
专知会员服务
46+阅读 · 2020年10月20日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
相关资讯
Spark & Hive 云原生改造在智领云的应用
CSDN
0+阅读 · 2022年4月8日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
Kaggle知识点:伪标签Pseudo Label
AINLP
39+阅读 · 2020年8月9日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【迁移学习】迁移学习在图像分类中的简单应用策略
相关基金
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员