星环科技CEO孙元浩:大数据进入3.0时代

2019 年 9 月 20 日 数据猿

欢迎关注数据猿

数据猿官网 | www.datayuan.cn

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区


本文刊发于工信部主管,中国电子技术标准化研究院主办的《信息技术与标准化》杂志,2019.5期《大数据技术与应用专刊》。

自计算机诞生以来,信息技术潜移默化的影响着人类生活的方方面面。尤其是近十余年来,大数据、人工智能、云计算等技术蓬勃发展,让人们的生活方式每隔几年就产生天翻地覆的改变。由大数据的汇聚,分布式技术释放计算能力开始,技术不断延伸发展,大数据、人工智能与云计算的边界越来越模糊,三类技术不断互相影响与融合。大数据3.0时代正是这些前沿技术不断结合,真正赋能各行各业的伟大时代。



大数据1.0时代

2006年的Apache基金会仿照谷歌在2003年发表的Google File System论文建立了Hadoop开源项目,用来解决大规模的数据存储和离线计算的难题。首先诞生的是分布式文件系统HDFS和分布式计算框架MapReduce。HDFS至今仍被沿用,MapReduce则随着硬件成本的降低,逐渐被基于内存的计算框架取代。但MapReduce在那时的条件下,已经是最适合的思路,意义非凡。

随后在2007年的时候,Apache Hadoop项目仿照谷歌的BigTeble开发了HBase,一个分布式的大型NoSql数据库。除此之外还有Apache Hive,Hive可以使用类SQL语言查询存放在HDFS上的数据。Hive利用这种语言最终被转化为MapReduce,实现SQL查询。

从2006到2009年这个阶段,以MapReduce计算框架为代表,大数据技术广泛应用于大规模结构化数据的批处理。具体的应用场景是互联网公司用这些技术做用户行为分析和精准营销。这个阶段我们称之为大数据的1.0时代,1.0时代的大数据技术只在大型互联网巨头中有所应用,技术难度非常高。


大数据2.0时代

大数据进入2.0时代的标志,是Spark核心计算引擎的出现。Spark的出现主要是由于MapReduce在需要短时间响应的交互式分析场景下表现的并不够好,人们需要一个更加高效的计算框架。从2009年Spark诞生到2015年Spark在这场战争中逐步胜出,以Spark为主流的计算引擎已经广泛的替代了MapReduce。这个阶段有两个重要变化:
一方面是大数据开始从过去做日志用户行为分析转为记录化数据处理,所有的大数据公司开始在Hadoop之上打造SQL引擎,或者在Hadoop之上打造分布数据库。 2012年开始竞争进入到白热化阶段,随后两年中出现20多个基于Hadoop的SQL引擎,解决结构化数据问题。 2015年竞争后只留下了4个,当中星环的批处理数据库Inceptor基本上可以说赢得这场竞争,成为支持SQL最完整、性能最好的分析型数据库。
第二方面,实时数据处理方面。 这个时期物联网技术开始蓬勃发展,大量的传感器数据需要及时处理,此时出现了多种流计算引擎。 到2015年 Flink、Storm、Spark Streaming等几个产品成为主流。 星环的流处理引擎Slipstream在2014年开始上线,可以在低延时计算框架上面支持复杂的SQL引擎以及机器学习。 如今也成为流处理技术上功能最完善,性能最强的实时流处理产品。
大数据2.0时代是一个百花争鸣的时代,更多的玩家参 与到了技术角逐中,诞生了很多全新的技术,能解决更多业务场景下的实际问题。


大数据3.0时代

至2015年,结构化数据的处理问题已经基本解决,此后人们开始把关注焦点转到了非结构化数据处理上面,特别是图像、视频、语音、文本的处理。人们将此前在非结构化数据表现出众的深度学习技术与大数据技术相结合。除此之外,人们又试图用深度学习这样新的思路去解决过去MapReduce和Spark已经解决的问题,如结构化数据处理等问题。大家希望有一个统一计算框架来处理,从结构化数据到非结构化数据的所有的问题。
随着时间和业务不断的发展,人们提出了新的需求,是否能将大数据这种分布式的架构部署在云平台上,更好的实现数据共享,解决数据孤岛和烟囱开发等难题。
至此,大数据技术、人工智能技术、云计算技术开始融合。大数据3.0时代要求在同一个平台当中,满足各种不同层次的大数据需求。大数据技术,解决了深度学习计算力和训练数据量的问题,开始产生巨大的生产价值;同时,大数据技术通过将传统机器学习算法分布式实现,向人工智能领域延伸;此外,随着数据不断汇聚在一个平台,通过容器技术,在容器云平台上构建大数据与人工智能基础公共能力,将人工智能、大数据与云计算进行融合。

登录查看更多
0

相关内容

孙元浩,星环科技创始人兼CEO,上海市信息化专家委员会大数据专业委员会委员,毕业于南京大学计算机系。在大数据和人工智能的行业应用领域拥有多项技术成就和多年丰富经验,曾任英特尔亚太研发有限公司数据中心软件部亚太区CTO。2013年创办星环科技,致力于提供企业级容器云计算、大数据和人工智能核心平台的研发和服务。
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
专栏 | 微软研究院:NLP将迎来黄金十年
大数据文摘
4+阅读 · 2018年12月2日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【人工智能】人工智能5大商业模式
产业智能官
15+阅读 · 2017年10月16日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2018年10月5日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
VIP会员
相关资讯
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
专栏 | 微软研究院:NLP将迎来黄金十年
大数据文摘
4+阅读 · 2018年12月2日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【人工智能】人工智能5大商业模式
产业智能官
15+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员