When processing large medical imaging studies, adopting high performance grid computing resources rapidly becomes important. We recently presented a "medical image processing-as-a-service" grid framework that offers promise in utilizing the Apache Hadoop ecosystem and HBase for data colocation by moving computation close to medical image storage. However, the framework has not yet proven to be easy to use in a heterogeneous hardware environment. Furthermore, the system has not yet validated when considering variety of multi-level analysis in medical imaging. Our target criteria are (1) improving the framework's performance in a heterogeneous cluster, (2) performing population based summary statistics on large datasets, and (3) introducing a table design scheme for rapid NoSQL query. In this paper, we present a backend interface application program interface design for Hadoop & HBase for Medical Image Processing. The API includes: Upload, Retrieve, Remove, Load balancer and MapReduce templates. A dataset summary statistic model is discussed and implemented by MapReduce paradigm. We introduce a HBase table scheme for fast data query to better utilize the MapReduce model. Briefly, 5153 T1 images were retrieved from a university secure database and used to empirically access an in-house grid with 224 heterogeneous CPU cores. Three empirical experiments results are presented and discussed: (1) load balancer wall-time improvement of 1.5-fold compared with a framework with built-in data allocation strategy, (2) a summary statistic model is empirically verified on grid framework and is compared with the cluster when deployed with a standard Sun Grid Engine, which reduces 8-fold of wall clock time and 14-fold of resource time, and (3) the proposed HBase table scheme improves MapReduce computation with 7 fold reduction of wall time compare with a na\"ive scheme when datasets are relative small.
翻译:当处理大型医疗成像研究时,采用高性能网格计算资源变得非常重要。 我们最近提出了一个“ 医疗成像处理为服务”网格框架, 提供利用阿帕奇 Hadoop 生态系统和 HBase 进行数据共置的前景。 然而, 框架还没有被证明容易在多种硬件环境中使用。 此外, 考虑到医学成像的多种多层次分析, 系统还没有被验证。 我们的目标标准是:(1) 改善框架在一个多样化的组群中的性能;(2) 进行大型数据集的人口化简要统计;(3) 引入快速 NoSQL查询的表格设计方案。 在本文件中, 我们为Hadoop 和 HBase 提供一个后端接口程序应用程序, 将数据共享到医疗成像处理。 然而, 在使用上、 Retrivey、 loadal 平衡器和Mapedweed 模板时, 数据集汇总7 统计模型模型模式被讨论和实施。 我们引入一个基于快速数据查询的 HBase produde 模型, 用于快速的 NSQL 查询。 快速、 5153 R 图像, 和 比较的模型的服务器内部模型的模型, 在大学数据库数据库数据库数据库中, 的模拟数据库中, 将使用一个模型进行模拟的模拟的模拟的模拟的模拟的模拟的模型, 和模拟的模拟的模型, 使用一个模拟的模型的模型的模型的模拟的模型, 和模拟的模型的模拟的模型被使用一个模拟的模型被使用, 使用, 和模拟的模型, 和模拟的模拟的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的