偶数科技打造新一代分析型数据库,可以更好的支持AI应用场景

2018 年 5 月 16 日 拓扑社 窦悦怡

拓 扑 社

传 递 企 业 服 务 价 值


本文是拓扑社对微软加速器·北京第11期入选项目的专题报道。


微软加速器·北京第11期的入选企业的重点是人工智能与产业落地应用结合,以人工智能底层技术平台作为创业方向。这些校友企业都是企业服务类创业公司,覆盖大数据、人工智能、物联网、区块链等技术,并在医疗、政府、零售、建筑等行业中获得标杆客户。这些领域也是拓扑社持续关注的方向。


偶数科技 创始人  常雷


拓扑社(ID:tobshe)5 月16 日报道

文:窦悦怡


传统的数据库都是以Oracle、IBM、SAP为代表的交易型数据库,这类型数据库主要是针对基本的、日常的事务处理,例如,银行传统的手工记账便是典型的应用场景。

 

而进入大数据和人工智能时代,企业每天产生的数据量正呈爆炸式增长,面临海量的数据,传统数据库的IT架构和处理技术已经逐渐无法适应巨大的数据处理需求。


其次,企业对数据价值越来越重视,数据分析成为了十分重要的一环,但传统的交易型数据库难以实现大数据量、复杂性的数据分析需求,可扩展性也不足。这时候,企业亟待寻找新的解决方案,实现由数据驱动的精细化运营,其中分析型数据库已经成为近年的热点。

 

今天,拓扑社(ID:tobshe)介绍的偶数科技,成立于2016年,是一家专注于新一代分析型数据库的初创企业。2017年10月曾获得红杉资本中国、红点创投中国基金的数千万A轮融资。

 

创始人CEO常雷,2008年毕业于北京大学计算机系,曾任EMC高级研究员及EMC/Pivotal研发部总监,同时也是Apache HAWQ 创始人,长期专注于大数据与云计算领域,对企业级数据管理有很深的理解。

 

-分析型数据库,支持多种应用场景-

 

拓扑社了解到,新一代的数据库是一种分析型OLAP数据仓库系统,侧重企业决策支持,提供直观易懂的查询结果。

 

相对于传统的交易型数据库,分析型数据库具有以下优势:首先,分析型数据库支持复杂的分析操作,存储的数据时间跨度长,数量级的性能提升,解决了传统数据库不能交互式实时处理大数据的问题。



其次,分析数据库可以对数据进行在线统计、数据在线分析、实时查询等发掘信息数据价值的工作。第三,存储与计算分离的松散耦合架构,可以原生支持容器云平台,传统数据库的紧耦合架构不适合新型容器云平台。此外,分析型数据库能够更好的支持AI应用场景。

 

简单来说,分析型的数据库中的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据库以后,一般情况下将被长期保留,也就是数据库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

 

同时,分析型数据库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

 

“新一代的分析型数据仓库可扩展性的节点可以达到几千个,同时支持的应用场景也非常广泛,包括机器学习、传感器等收集到的数据都可以支持,这些是在传统数据库架构下是实现不了的。”

 

常雷也补充到,人工智能与分析型数据库是相辅相成的,人工智能离不开数据和算法,分析型数据仓库的基础架构,以及高可扩展性、实时性的优势,使其最贴近数据,具备与人工智能相结合的优势。

 

对于数据库本身来说,传统的数据库都是非自动化的数据处理,通过人工智能对数据库改造,会使数据库更智能,进而可以拓展更多应用场景,指导企业进行更有效的数据分析。

 

拓扑社认为,传统数据库向新型数据库转型,无论是对企业还是服务商来说,都存在一定的挑战,尤其是传统的数据库的架构是CPU模式,如果企业要想转向新一代高性能分析型数据库,需要把基础架构调整为利用CPU新指令以及新的硬件模式(包括GPU和FPGA等),调整前需要企业花去大量的时间重新编写代码,设计架构、调整代码。

 

-新一代数据仓库引擎

SIMD执行器性能提升一个数量级-

 

谈到数据库,肯定离不开Hadoop这种开源技术,同时Hadoop延伸出来很多数据仓库技术,例如Hive、Impala、Spark SQL、HAWQ等。

 

常雷介绍道,伴随着互联网公司的崛起,新一代数据仓库也随之兴起。总体来说,新一代的数据仓库可以分为三大类。第一大类:SQL on Hadoop。如Spark SQL、Hive、HAWQ、Presto,因为它的存储基本都在HDFS。第二类叫SQL on Object Store。如基于亚马逊的S3搭建的SQL on Object Store。

 

第三大类是从前面两类系统里发现一些缺陷后又演化出来的系统,称之为SQL on Hybrid Storage,有自己的原生存储,同时也支持HDFS和S3等其他存储,代表性系统包括HAWQImpala

 

其中,HAWQ是Apache开源社区的孵化项目,包括彭博社、阿里等在内的大型企业都在使用并在开源社区为其贡献代码,而偶数科技正是依据这个系统进行产品布局的

 

目前,偶数科技主要提供两款产品,开源版的Apache HAWQ和企业版的Oushu Database。据悉,Oushu Database是基于HAWQ打造的新一代数据仓库引擎其优势在于采用了MPP和Hadoop结合的创新MPP++技术架构,高可扩展,遵循ANSI-SQL标准,具有极速执行器,提供PB级数据交互式查询能力。



同时,Oushu Database提供对主要BI工具的描述性分析支持和高级机器学习功能。兼容Oracle,Greenplum Database和PostgreSQL,可以轻松取代传统数据仓库和其他SQL-on-Hadoop引擎。

 

此外,Oushu Database支持原生Kubernetes容器平台,帮助企业无缝迁移到最新的云计算平台。

 

常雷解释道,将简单的无状态应用(比如Web服务器)迁移到容器比较简单,但将大数据平台迁移到容器却面临很多技术挑战。将Oushu Database和云平台结合带来应用和服务一体化,很容易做弹性扩容,自恢复和滚动升级,同时,Oushu Database在资源管理和自动化运维也带来很多便捷。

 

去年9月偶数科技发布了Oushu Database 3.0版本产品 。据悉,3.0版本对执行器进行了完全重新设计,充分利用了最新CPU的每一个特性,如SIMD指令等,可以做到性能的极致。其次,支持ORC外部存储格式,结合新的SIMD执行器,外部存储的性能可以提升10-50倍

 

此外,传统数据仓库连接外部数据往往都是使用Connector形式,性能很慢,从而导致用户需要使用先导入外部数据再查询的方式,数据需要在多个系统存储多份,浪费了多倍存储空间。

 

结合新一代SIMD执行器,新版本可插拔存储框架使得数据库可以直接高性能访问外部数据,查询外部数据的性能和查询内部数据类似。

 

目前,Oushu Database已经在政府、金融、电信、电力、军工、制造业、物联网、互联网等行业广泛应用,助力政府机构与大型企业构建了全新的大数据平台。

 

比如,银行内各业务的数据孤岛效应严重、以及外部非结构化数据的整合不力等。金融行业需要高性能的数据仓库支持,Oushu Database可支持结构化数据的处理和非结构化数据的整合能力,可有效满足反欺诈等场景的数据处理。

 

在盈利模式上,偶数科技的产品是根据CPU/节点/容量收取账号年费客单价在数十万到数百万之间不等


而获客方面比较灵活,有从开源社区对接过来的客户,也有与微软进行战略合作,共同切入某垂直领域,还有直销团队。企业版客户已经达到数十家,代表性用户有国家电网、中兴深圳市国税等。

 

-主编点评-

 

加入微软加速器后,微软在技术和产品上给了偶数科技极大的支持。基于微软Azure云平台,偶数科技成功开发了Oushu云数据仓库服务。其次,微软针对校友企业的CEO和CTO提供了相应的技术、市场和财务等培训课程,提升他们在管理等方面的能力。

 

第三,微软加速器会把优质的客户资源输送给偶数科技,目前已经为偶数对接了霍尼韦尔、太平保险集团以及兴业银行等大型客户。


另外,微软加速器还会提供品牌宣传、媒体采访、市场活动、融资对接等资源,还会牵线搭桥,与众多校友建立生态联系,互通有无。



END



声  明


本文为拓扑社(ID:tobshe)原创稿件,转载须在文章开头明显处注明来源拓扑社(ID:tobshe)及作者名字。如不遵守,拓扑社将向其追究法律责任。

 

拓扑社报道中所涉及的融资金额均由企业方提供,拓扑社不保证其数字真实性,仅供参考。

 

投稿、寻求报道或商务合作,请发邮件至 tobshe@itjuzi.com,或联系拓扑君(ID:tobsir),标注公司-职务-姓名,谢谢。


热点回顾

创业速递


资本观点


登录查看更多
0

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
36+阅读 · 2020年4月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
300+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
2018年边缘计算行业研究报告
行业研究报告
11+阅读 · 2019年4月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
明略数据发布行业AI大脑“明智系统2.0”
人工智能学家
5+阅读 · 2018年9月11日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
36+阅读 · 2020年4月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
300+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
相关资讯
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
2018年边缘计算行业研究报告
行业研究报告
11+阅读 · 2019年4月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
明略数据发布行业AI大脑“明智系统2.0”
人工智能学家
5+阅读 · 2018年9月11日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
Top
微信扫码咨询专知VIP会员