在2017/2018学年,我介绍了didactic cycle。我一直在做一个新的讲座:大数据工程(正式名称:大数据处理工程)。你可能会问:为什么不简单地用“大数据”呢?工程学术语真的有必要吗?我认为大数据与“经典”数据集有很大不同。你应该考虑它的方式与你过去处理的数据不同。如果你能应用你熟悉的日常技术,就没有必要谈论不同类型的数据;你仍然只考虑数据。前缀“big”表示你处理的数据不再是“典型”数据。如果不典型,为什么要使用典型的技术来处理它?这就是重点。大数据作为一种数据类型,需要不同的程序来处理它们。所有实际的方面都是不同的。你可能会说大数据处理工程是不同的。这就是为什么这个tile是大数据处理工程。我不想再写一本关于大数据的书,你可以(再次)找到别人已经在某处提供的相同信息。每个人都在谈论大数据,但没有人谈论大数据工程。没有人会说你感知这类数据的方式一定不同。你可以找到大量的大数据博客,以及人们解决问题的例子,这些问题可能使用老式的数据处理方法可以解决。这不是大数据。在本书中,我将说服你,对于大数据,你必须改变思考数据的方式。如果你觉得不必这样做,说明你的数据量不大。最多有很多数据,但不是大数据。