| 全文共2545字,建议阅读时长3分钟 |
转载公众号:人工智能爱好者俱乐部
微信号:aifans-club
作者:依依
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据的特点
具体来说,大数据具有4个基本特征:
一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
“每一场科学革命——从哥白尼的日心说模型到统计学和量子力学的兴起,从达尔文的进化和自然选择学说到基因理论——都是由于一件事,也只是由于一件事导致的,那就是数据的获取。”
这是达纳法伯癌症研究所生物统计学和计算生物学教授约翰·夸肯布什昨天主题演讲中令人大开眼界的开头。他也是哈佛大学陈曾熙公共卫生学院的教授,拥有诸多学术成果。
毫无疑问,这一数据概念如今正推动着医疗卫生行业几乎各个方面的转型。夸肯布什在费城的MedCity Converge大会上指出,每家医院平均每年会产生大约665TB的数据,其中五分之四都是以图片、视频或医嘱的零散形式存在的。
不过严重限制人们利用这些信息的因素,不是“大数据”,而是“混乱数据”。
总体来看,在那些可能有海量有用数据可供发掘的地方,我们没有为那些真正希望使用这些数据的人提供方便之门。那些数据可能很难或很直接地获取,或是信息量不足,或是格式不对。还有可能数据不完整,或没有使用兼容的储存“标准”(我们似乎有数不清的互相不能兼容的标准)。或者在多维度的领域里,数据只记录了一个维度的信息。(他说:“生物系统是个复杂的自适应系统,拥有许多活动的部件,我们只是刚刚了解了一些皮毛
另外,这些数据并不能真正给出终端用户想要寻求的答案,这一点似乎是出人意料的普遍误解。换句话说,现有的数据没有目的性。
以人口统计数据为例,这是政府和学术机构常规收集的数据。夸肯布什表示:“统计学会使用人口数据,而医学研究也会依赖人口数据。但医疗护理却是通过个体数据推动的。所以当我们把(我们的数据研究)用于临床时,必须考虑如何让个体数据以有意义的格式储存而为人所用。”
他说,最终的目标应该是“利用不直观的数据,建立直观的图形化呈现”,从而让非数据科学家“不必坐在终端机前输入一系列晦涩的指令,就能对其展开研究”。
夸肯布什表示:“在你考虑让数据为人所用时,要做的就是建立接口,让人们能够接触并理解数据,用他们自己的想法使用数据。”
如果不这么做,我们所有的大数据就只是大型的二进制数据块和越来越大的数据服务器。
怎么阻止这种情况发生?夸肯布什坦率地说,将这些未经处理的数据变成可用数据的动机,不是提高医疗水平或让人们过得更好。驱动力将是所有科学中最重要的一种:经济学。如果我们真的打算有所进展,就必须证明,将这种数据和信息整合起来会有利可图。”
注:文章部分素材来源于网络,依依编辑整理,供大家学习参考!
有缘的人终会相聚,慕客君想了想,要是不分享出来,怕我们会擦肩而过~
《【调查问卷】“屏幕时代,视觉面积与学习效率的关系“——你看对了吗?》
本文编辑:慕编组成员(leo)