51个你需要知道的大数据术语

2017 年 9 月 18 日 CSDN大数据 Sarah Davis

↑ 点击上方蓝字关注我们,和小伙伴一起聊技术!


每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。


你认为我们还应该添加哪些术语?请在评论中告诉我们。


A


算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。


Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。


Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。


Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。


Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。


Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。


人工智能:机器做出决策、执行模拟人类智力和行为任务的能力。


B


大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。


Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。


商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。


C


集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。


约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。


D


数据工程:收集、存储、处理数据,以便数据科学家查询。


数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。


数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。


数据整合:组合不同来源数据并为用户提供统一视图的过程。


数据湖:一种以原始格式保存原始数据的存储库。


数据挖掘:通过检查和分析大型数据库来生成新信息的做法。


数据实现:将变量严格定义为可衡量因素的过程。


数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。


数据处理:机器检索、变换、分析或分类信息的过程。


数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。


数据沼泽:没有适当治理的数据湖就会变成数据沼泽。


数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。


数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。


设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。


G


GPU加速数据库:摄取流数据所需的数据库。


图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。


H


Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。


I


摄取:从任意数量不同的来源中摄取流数据。


M


MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。


Munging:将数据从原始格式手动转换或映射到便于使用的格式。


N


正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。


规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。


P


解析:将数据(如字符串)分割成更小的部分进行分析。


持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。


Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。


R


R:一种主要用于数据可视化和预测分析的开源语言。


实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。


关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。


弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。


S


碎片:数据库的单独分区。


智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。


流处理:数据的实时处理。数据被连续、并发和记录处理。


结构化数据:具有高度组织的信息。


T


分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。


遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。


转换:将数据从一种格式转换为另一种格式。


U


非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。


V


可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。


Z


区域:数据湖中的特定区域,服务于特定目的。


原文:51 Big Data Terms You Need to Know

作者:Sarah Davis

译者:牟云飞


长按识别二维码享更多精彩

登录查看更多
1

相关内容

Apache 是一个开放源代码的网页服务器,可以在大多数电脑操作系统中运行,由于其跨平台和安全性被广泛使用,是最流行的 Web 服务器端软件之一。 同时 Apache 也是一个专门为支持开源软件项目而办的一个非盈利性组织。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
专知会员服务
124+阅读 · 2020年3月26日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
80+阅读 · 2020年3月4日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
成为顶尖机器学习算法专家需要知道哪些算法?
云栖社区
5+阅读 · 2018年10月13日
6大最常用的Java机器学习库一览
AI前线
4+阅读 · 2018年10月9日
Scikit-learn玩得很熟了?这些功能你都知道吗?
大数据文摘
4+阅读 · 2018年5月13日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
35+阅读 · 2019年11月7日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
专知会员服务
124+阅读 · 2020年3月26日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
80+阅读 · 2020年3月4日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
相关资讯
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
成为顶尖机器学习算法专家需要知道哪些算法?
云栖社区
5+阅读 · 2018年10月13日
6大最常用的Java机器学习库一览
AI前线
4+阅读 · 2018年10月9日
Scikit-learn玩得很熟了?这些功能你都知道吗?
大数据文摘
4+阅读 · 2018年5月13日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员