2020年10月31日,DataFunTalk举办大数据架构系列:数据计算与存储实践专题论坛,邀请来自京东、字节跳动、快手、小米、快看漫画、微博等公司的10位嘉宾,为大家进行详细介绍。
01
论坛信息
分享地点:DataFunTalk直播间
02
03
内容摘要
包勇军先生于2014年加入京东,加入前在百度、字节跳动等互联网公司担任技术专家。目前任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员,京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发,AI算法平台建设,AI算法在广告系统中的研发和应用,推荐策略、数据和推荐系统的研发工作。
包勇军先生是数据系统和算法等领域的专家,具备前沿视野;在相关领域的顶级会议和期刊发表多篇论文,并拥有多项专利;精通数据算法和平台技术在电商业务数字化中的落地应用,对于大数据底层架构设计及平台建设有丰富的实战经验。在SIGKDD/NeurIPS/RecSys/CVPR/ICCV等会议中发表多篇论文。
付海涛
听众收益:
1.了解京东Flink计算平台容器化的方案和经验
2.了解京东Flink的优化与改进
3.未来展望与规划
新技术/实用技术点:
Flink容器化实践经验、任务调度优化、SQL扩展、资源弹性伸缩和智能诊断等。
胡英谦
听众收益:
1. 图数据库在业界的一些使用场景
2. 大规模分布式图数据库的设计与难点
新技术/实用技术点:
分布式图数据库
钱勇
钱勇,京东数科图计算团队技术负责人,带领团队自主研发“图计算”全系列产品线,包括:单机图计算引擎JoyGraph、分布式流式图计算引擎ReJoyGraph和一站式图可视化建模和分析平台“图灵”,支撑京东数科、商城的风控、反欺诈、广告营销、舆情等20+业务线,目前在线图数据存储总量2千亿+,图数据分析规模千亿边+/天。
听众收益:
1. 如何设计与实现分布式流式图计算系统,实现单图千亿边规模级的流式图计算
2. 大规模流式图数据如何存储
3. 流式图数据如何计算
4. 如何处理增量数据
5. 了解工业界图计算的应用热点
新技术/实用技术点:
分布式流式图计算
房孝敬
快手 | 大数据架构师
2017年加入快手,负责快手大数据资源调度方向,包括超大规模分布式资源调度,分布式计算,AI架构等。此前曾在阿里,腾讯,负责搜索&大数据系统研发工作,hadoop/spark/k8s社区的contributor。
分享主题:快手超大计算集群调度优化实践
演讲提纲:
1. 快手Yarn集群的业务场景与规模
2. 高性能可插拔调度器-kwai scheduler介绍
3. 离线ETL,Adhoc查询,实时处理,训练场景下调度策略优化实践
4. 调度方向未来规划
周康
小米 | 高级软件工程师
听众收益:
了解小米大规模的Hive的实践与优化
了解小米的SparkSQL多租户近实时查询方案
开源技术在企业的实际应用
黄涛
京东 | 大数据架构师
京东大数据架构师,Hadoop/Ozone Contributor。从2017年初加入京东以来,一直从事 Hadoop 存储相关的研发工作。同时维护 JDJDK 在大数据场景的落地。
内容摘要:随着京东业务的不断发展,京东的数据量越来越大,京东大数据存储平台作为底层的支撑平台,集群规模一步步由数百到数万规模的演化, 经历了单集群破万、多集群融合、跨机房集群融合、跨部门数据分享、异构数据集成等等的技术挑战。此次分享主要涵盖在面对业务多元化发展,降本增效,零采购的背景下, 京东大数据平台结合原先的技术积累,通过自研实现京东全域存储,落地实现了数据路由、跨域数据分享平台和自动化的冷存储管理。同时结合业务特点对各个存储引擎进行优化,最终达到降本增效的目的。
听众收益:
了解京东大数据存储平台的性能优化和稳定性建设实践,全域数据存储方案,以及冷数据自动化管理
新技术/实用技术点:
基于资源利用率的限流机制保证集群稳定性,快速读写切换加速业务效率,基于RBF实现全域数据存储方案,稳定的冷数据管理方案提高存储效率
屈世超
快看漫画 | 数据开发负责人
内容摘要:公司经常遇到业务数量、业务复杂度爆发式增长的情况,传统的数仓理念和团队组织很难深入满足业务的数据诉求。在这种场景下,快看漫画探索基于数据仓库为业务开发赋能的方法,为业务开发提供了统一的数仓接入使用标准和易用的开发能力,推动业务开发能用、会用数仓,灵活快速的解决业务实际问题。
听众收益:
1. 数仓建设中的痛点;
2. 业务需求爆发式增长场景的解决方案;
新技术/实用技术点:
自助式数仓系统建设的方案
王日宇
京东 | 大数据架构师
内容摘要:介绍京东实时数据仓库技术的过去和未来,使用delta lake完成离线数据的增量更新,建设批流一体开发分析体系简化传统数据仓库架构,以及京东的业务场景在数据湖上的落地经验和技术挑战
听众收益:
可以了解到数据仓库的发展历程,以及数据湖技术在京东实际场景的需求背景和落地经验,批流统一架构带来的机遇和挑战,
新技术/实用技术点:
实时数据仓库,数据湖,批流统一
曹富强
微博 | 高级开发工程师
内容摘要:主要分享微博数据计算平台:「实时计算平台」「离线计算平台」「实时多模态内容理解」「在线机器学习」等系统的架构和应用场景
新技术/实用技术点:
基于Flink搭建的新一代实时计算平台在实时多模态内容理解和在线机器学习的应用。
李阳
京东 | 资深研发工程师
内容摘要:介绍京东的OLAP服务的发展历程,如果从0开始建设OLAP服务,如何针对不同业务场景进行OLAP技术选型。
听众收益:
了解如何针对百亿甚至千亿级别数据的即席分析、如何提高数据的时效性、如何优化查询延时。
新技术/实用技术点:
ClickHouse、Doris、实时大数据分析
关于 数据智能部落:
🧐分享、点赞、在看,给个三连击呗!👇