Scientific datasets are known for their challenging storage demands and the associated processing pipelines that transform their information. Some of those processing tasks include filtering, cleansing, aggregation, normalization, and data format translation -- all of which generate even more data. In this paper, we present an infrastructure for the HDF5 file format that enables dataset values to be populated on the fly: task-related scripts can be attached into HDF5 files and only execute when the dataset is read by an application. We provide details on the software architecture that supports user-defined functions (UDFs) and how it integrates with hardware accelerators and computational storage. Moreover, we describe the built-in security model that limits the system resources a UDF can access. Last, we present several use cases that show how UDFs can be used to extend scientific datasets in ways that go beyond the original scope of this work.


翻译:科学数据集以其具有挑战性的存储需求和转换信息的相关处理管道而闻名。 其中一些处理任务包括过滤、 清理、 汇总、 常规化和数据格式翻译 -- -- 所有这些都产生更多的数据。 在本文中, 我们为 HDF5 文件格式提供了一个基础设施, 使得能够将数据集值包含在苍蝇上: 任务相关脚本可以附加在 HDF5 文件中, 并且只有在数据集被应用程序读取时才执行。 我们提供了关于支持用户定义功能的软件架构( UDFs) 的细节, 以及如何将其与硬件加速器和计算存储集成。 此外, 我们描述了限制UDF 访问的系统资源的内置安全模型。 最后, 我们用几个案例来说明如何使用UDFs来扩展科学数据集, 其方式超出了这项工作的最初范围 。

0
下载
关闭预览

相关内容

结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
已删除
将门创投
3+阅读 · 2018年6月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
0+阅读 · 2021年11月15日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
VIP会员
相关VIP内容
结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
已删除
将门创投
3+阅读 · 2018年6月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员