易观OLAP算法大赛结果揭晓,开源组黑马放大招!

2017 年 10 月 28 日 Analysys易观 易观



100+天激烈赛程,40+国内顶级技术豪门对决,历经研发内部测试、正式环境测试和易观数据正式环境跑benchmark三大阶段。10月28日,易观OLAP算法大赛优胜名单出炉!

 

40+技术门派比武

 

易观OLAP大赛可谓国内算法界“武林大会”,英雄帖一发出就引起互联网各大技术门派积极响应。

 

吸引来自美团点评、阿里云、小米、链家、搜狗、科大讯飞、联通、原速数据、anal、AggreData、GBase 、Kyligence、PingCAP、LinkDoc、iflytek、hulu、Truxing、上海睿民、热云数据、润乾、帆软软件、咪咕音乐、杭州玳数科技、乐见、科大讯飞、上海跬智、千丁互联、北京健科云网、乐享天下、牛办科技、北京邮电大学、北京交通大学等40多家知名企业、科研单位和个人报名参加。

 

6组算法新人王诞生

 

本次易观OLAP算法大赛分为商业组和开源组两个组别进行,从7月开放报名到10月正式环境跑benchmark。经过重重考验,终于决出6组易观OLAP算法新人王:

 

商业组三甲:


第一名:PingCAP

PingCAP 是国内第一家开源的新型数据库公司,其产品分布式高可用数据库 TiDB 支持水平扩展,兼容MySql,支持分布式事务,是大数据时代理想的数据库集群和云数据库解决方案之一。在本次比赛中,PingCAP使用自主研发的 Magic 引擎,使用多层pipeline、智能并发等技术,以极致速度对数据进行暴力扫描,实现了良好的计算效果,因此获得商业组第一名的好成绩。

 

第二名:帆软软件

帆软团队在本次参赛使用的是帆软自主研发的直连分布式引擎。分布式存储系统基于Alluxio和HDFS,采用列式存储方案,以Spark作为基础,基于流式计算,辅以高性能查询算法,为直连引擎提供强劲的查询支持。面对亿级数据和多维度复杂场景时,直连分布式引擎能大幅提高有序漏斗的计算的效率和准确性。

 

第三名:GBase

GBase此次参赛用的是自己的产品GBase 8a MPP Cluster。GBase 8a采用行列混合存储,可处理PB级别以上的结构化数据。同时采用先进的数据压缩算法,有效提高IO性能。在数据处理上采用完全并行的MPP + Share Nothing的分布式架构,支持高并发,因此在有序漏斗的实时计算中效率较高。

 

易观OLAP算法大赛商业组颁奖仪式

 

开源组三甲:


第一名:广州向量线科技 韦万和李本旺

在开源组比赛中韦万和李本旺另辟蹊径,向北取经。使用目前国内鲜为人知的俄罗斯神级开源软件ClickHouse参赛。利用ClickHouse超强分析性能和灵活的架构特点,使得集群间节点的计算完全并行化,同时优化底层的存储和上层的计算细节,挖掘CPU cache、向量化执行和具体算法优化方面的潜力。将有序漏斗的计算时间从原始的24秒提高到0.5秒。凭借在时效和精度上近乎完美的表现,成为本届大赛最大黑马,获得开源组第一名。

 

第二名:美团点评 孙业锐

美团点评团队基于自身的业务优势经验,设计了本次参赛的解题思路。用bitmap快速过滤和基于时间戳序列匹配的算法,利用Apache Spark、Alluxio等开源框架快速落地实现,使用了一系列工程优化方法,在每日数百亿条日志和百万属性的数据集上,实现有序漏斗的秒级查询。在易观正式数据环境中,在26亿数据,400万用户,几十个属性的场景下,美团点评团队最低运算时间仅0.341秒。

 

第三名:北京邮电大学 卢跃凯

易观OLAP算法大赛还吸引了来自计算机名门高校的个人选手。北京邮电大学的研究生卢跃凯,采用了HDFS作为储存,将Spark作为数据预处理和核心过滤算法实现。借鉴最长递增子序列的存储和更新思想,将查找每个用户转化率的时间复杂度变为了0(n),提升了漏斗计算的效率。

 

易观OLAP算法大赛开源组颁奖仪式

 

开源组10万元现金奖励

 

易观OLAP大赛为每组前三名的团队颁发获奖证书,同时开源组第一名还将获得10万元现金奖励。据悉,获得开源组第一名的韦万和李本旺将用奖金来注册自己的公司,对算法技术进行更深入的研究。

 

赛制公正具有含金量

 

依托易观海量数据支撑,本次易观OLAP算法大赛在“有序漏斗”的实时计算效率和精确度上得到了突破性的好成绩。同时也离不开严谨公正的赛制安排。

 

本次OLAP算法大赛在4台UCloud云主机16核、16G内存、SSD数据盘300G硬件的环境下进行。比赛时现给出8个不同的场景,同时开始计时,每个场景的运行时间须在8分钟以内,8个场景总体比赛时间在1小时内,以此考察参赛团队在不同场景下的实时计算精度和用时效率。每个场景根据事件的数量、事件的复杂程度、事件的属性、时间窗口的大小等差异赋予不同的权重。总分为单个场景乘以该场景权重的累加所得。在8个场景中,运行时间最短且精确度最高的队伍获胜。在正式数据环境开跑阶段,还进行全程录像,确保比赛成果的含金量。

 

作为易观A10峰会的重要项目,OLAP算法大赛不仅为技术黑马提供大展拳脚的道场,同时还为行业挖掘出更多技术型人才和更优秀解决方案。做技术领域的“伯乐”,让世界看到更多“黑马”,易观致力于推进大数据应用创新。未来,易观OLAP大赛取得的成果将用于数据产品的研发当中,从技术应用层面实践“数以致用”。




想体验数据驱动用户精细化运营?


任何关于易观方舟的问题


长按下方二维码即可咨询




点击文末“阅读原文”   了解A10峰会详情

2017易观A10大数据应用峰会


2017年10月27日-28日 


中国 北京 海航万豪酒店


诚邀您参与 A10我们不见不散




 “阅读原文”,了解A10峰会详情
登录查看更多
1

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
FlyAI算法竞赛:百万现金奖励实时瓜分
AINLP
5+阅读 · 2019年4月1日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年8月21日
VIP会员
Top
微信扫码咨询专知VIP会员