大数据的能与不能(深度详解大数据的特点及作用以及其局限性)

2017 年 10 月 18 日 MOOC 依依

| 全文共2545字,建议阅读时长3分钟 |


转载公众号:人工智能爱好者俱乐部

微信号:aifans-club

作者:依依


什么是大数据?


大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。 



大数据的特点


具体来说,大数据具有4个基本特征:


一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。


二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。


三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。


四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。


大数据的作用


第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。


大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。


第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。


第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。


对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。


第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。


大数据的局限性


“每一场科学革命——从哥白尼的日心说模型到统计学和量子力学的兴起,从达尔文的进化和自然选择学说到基因理论——都是由于一件事,也只是由于一件事导致的,那就是数据的获取。”


这是达纳法伯癌症研究所生物统计学和计算生物学教授约翰·夸肯布什昨天主题演讲中令人大开眼界的开头。他也是哈佛大学陈曾熙公共卫生学院的教授,拥有诸多学术成果。

毫无疑问,这一数据概念如今正推动着医疗卫生行业几乎各个方面的转型。夸肯布什在费城的MedCity Converge大会上指出,每家医院平均每年会产生大约665TB的数据,其中五分之四都是以图片、视频或医嘱的零散形式存在的。


不过严重限制人们利用这些信息的因素,不是“大数据”,而是“混乱数据”。


总体来看,在那些可能有海量有用数据可供发掘的地方,我们没有为那些真正希望使用这些数据的人提供方便之门。那些数据可能很难或很直接地获取,或是信息量不足,或是格式不对。还有可能数据不完整,或没有使用兼容的储存“标准”(我们似乎有数不清的互相不能兼容的标准)。或者在多维度的领域里,数据只记录了一个维度的信息。(他说:“生物系统是个复杂的自适应系统,拥有许多活动的部件,我们只是刚刚了解了一些皮毛

另外,这些数据并不能真正给出终端用户想要寻求的答案,这一点似乎是出人意料的普遍误解。换句话说,现有的数据没有目的性。


以人口统计数据为例,这是政府和学术机构常规收集的数据。夸肯布什表示:“统计学会使用人口数据,而医学研究也会依赖人口数据。但医疗护理却是通过个体数据推动的。所以当我们把(我们的数据研究)用于临床时,必须考虑如何让个体数据以有意义的格式储存而为人所用。”


他说,最终的目标应该是“利用不直观的数据,建立直观的图形化呈现”,从而让非数据科学家“不必坐在终端机前输入一系列晦涩的指令,就能对其展开研究”。


夸肯布什表示:“在你考虑让数据为人所用时,要做的就是建立接口,让人们能够接触并理解数据,用他们自己的想法使用数据。”


如果不这么做,我们所有的大数据就只是大型的二进制数据块和越来越大的数据服务器。

怎么阻止这种情况发生?夸肯布什坦率地说,将这些未经处理的数据变成可用数据的动机,不是提高医疗水平或让人们过得更好。驱动力将是所有科学中最重要的一种:经济学。如果我们真的打算有所进展,就必须证明,将这种数据和信息整合起来会有利可图。”


注:文章部分素材来源于网络,依依编辑整理,供大家学习参考!



有缘的人终会相聚,慕客君想了想,要是不分享出来,怕我们会擦肩而过~

预约、体验——新维空间站

《【会员招募】“新维空间站”1年100场活动等你来加入》

有缘的人总会相聚——MOOC公号招募长期合作者

《【调查问卷】“屏幕时代,视觉面积与学习效率的关系“——你看对了吗?》


本文编辑:慕编组成员(leo)


产权及免责声明 本文系“MOOC”公号转载、编辑的文章,编辑后增加的插图均来自于互联网,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时内审核处理。


了解在线教育,
把握MOOC国际发展前沿,请关注:
微信公号:openonline
公号昵称:MOOC

 

登录查看更多
1

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
专知会员服务
112+阅读 · 2020年6月12日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
专知会员服务
123+阅读 · 2020年3月26日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
103+阅读 · 2020年3月22日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
智能交通大数据最新论文综述-附PDF下载
专知会员服务
104+阅读 · 2019年12月25日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
【知识图谱】大数据时代的知识工程与知识管理
产业智能官
22+阅读 · 2019年7月3日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
【大数据】工业大数据在石化行业的应用成功“落地”
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
10+阅读 · 2019年2月19日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
专知会员服务
112+阅读 · 2020年6月12日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
专知会员服务
123+阅读 · 2020年3月26日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
103+阅读 · 2020年3月22日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
智能交通大数据最新论文综述-附PDF下载
专知会员服务
104+阅读 · 2019年12月25日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
相关资讯
【知识图谱】大数据时代的知识工程与知识管理
产业智能官
22+阅读 · 2019年7月3日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
【大数据】工业大数据在石化行业的应用成功“落地”
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
相关论文
Arxiv
101+阅读 · 2020年3月4日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
10+阅读 · 2019年2月19日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员