随着IT存储、处理、计算和传感技术的发展,大数据已经成为一种新的生活规范。直到最近,计算机才能够捕获和分析各种领域的各种大规模数据——人、行为、信息、设备、传感器、生物信号、金融、交通工具、占星学、神经学等。几乎所有行业都准备好迎接大数据的挑战,并希望挖掘有价值的信息,以获得解决挑战的洞见。
本课程将提供基本知识,使学生能够处理这些挑战。这门学科本质上涉及许多领域。由于它的重要性和广泛的影响,新的软件和硬件工具和算法正在迅速出现。数据科学家需要跟上这种不断变化的趋势,以便能够为现实世界的挑战创造最先进的解决方案。
这门大数据分析课程首先要介绍应用概述、市场趋势和需要学习的东西。接下来,我将介绍基础平台,如Hadoop, Spark,以及其他工具,如Linked Big Data。之后,本课程将介绍几种数据存储方法以及如何上传、分发和处理它们。包括HDFS、HBase、KV存储、文档数据库、图形数据库。本课程将继续介绍在不同平台上处理分析算法的不同方法。接下来,我将介绍大数据分析中的可视化问题和移动问题。学生将掌握大数据分析的基本知识,以应对各种现实世界的挑战。
之后,课程将聚焦于讨论大型机器学习方法,这是人工智能和认知网络的基础。本课程将讨论基于不同硬件平台优化分析的几种方法,如Intel & Power芯片、GPU、FPGA等。讲座的最后将介绍大数据的未来挑战,特别是正在进行的大数据关联问题,包括图形、图形模型、时空分析、认知分析等。