面向大数据处理框架的JVM优化技术综述

当前，以Hadoop、Spark为代表的大数据处理框架，已经在学术界和工业界被广泛应用于大规模数据的处理和分析.这些大数据处理框架采用分布式架构，使用Java、Scala等面向对象语言编写，在集群节点上以Java虚拟机（JVM）为运行时环境执行计算任务，因此依赖JVM的自动内存管理机制来分配和回收数据对象.然而，当前的JVM并不是针对大数据处理框架的计算特征设计的，在实际运行大数据应用时经常出现垃圾回收（GC）时间长、数据对象序列化和反序列化开销大等问题.在一些大数据场景下，JVM的垃圾回收耗时甚至超过应用整体运行时间的50%，已经成为大数据处理框架的性能瓶颈和优化热点.本文对近年来相关领域的研究成果进行了系统性综述：（1）总结了大数据应用在JVM中运行时性能下降的原因；（2）总结了现有面向大数据处理框架的JVM优化技术，对相关优化技术进行了层次划分，并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点；（3）探讨了JVM未来的优化方向，有助于进一步提升大数据处理框架的性能.

http://www.jos.org.cn/jos/article/abstract/6502

成为VIP会员查看完整内容