大数据架构系列:数据计算与存储专题论坛

2020 年 9 月 29 日 DataFunTalk

2020年10月31日DataFunTalk举办大数据架构系列:数据计算与存储实践专题论坛,邀请来自京东、字节跳动、快手、小米、快看漫画、微博等公司的10位嘉宾,为大家进行详细介绍。

01

论坛信息

本期主题: 2020数 据计算与存储实践论坛
活动主办: DataFunTalk
活动出品: 包勇军 京东零售数据算法委员会会长
分享嘉宾: 付海涛、胡英谦、钱勇、房孝敬、周康、黄涛、屈世超、王日宇、曹富强、李阳
分享时 间: 10月31日,09:00-18:30

分享地点:DataFunTalk直播间

02

日程安排

03

内容摘要

出品人:包勇军
京东零售数据算法委员会会长

包勇军先生于2014年加入京东,加入前在百度、字节跳动等互联网公司担任技术专家。目前任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员,京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发,AI算法平台建设,AI算法在广告系统中的研发和应用,推荐策略、数据和推荐系统的研发工作。

包勇军先生是数据系统和算法等领域的专家,具备前沿视野;在相关领域的顶级会议和期刊发表多篇论文,并拥有多项专利;精通数据算法和平台技术在电商业务数字化中的落地应用,对于大数据底层架构设计及平台建设有丰富的实战经验。在SIGKDD/NeurIPS/RecSys/CVPR/ICCV等会议中发表多篇论文。

付海涛

京东  |  高级技术专家
拥有多年 中间件、互联网云平台和大数据开发经验,对分布式计算、容器、微服务有较深入的理解。 2 018 年加入京东,主要负责实时计算引擎 storm、flink的相关优化和开发工作。
分享主题: 京东Flink优化与技术实践
内容摘要: Fl ink是目前流式处理领域的热门引擎,具备高吞吐、低延迟的特点,在实时数仓、实时风控、实时推荐等多个场景有着广泛的应用。 京东于2018年开始基于Flink+K8s深入打造高性能、稳定、可靠、易用的实时计算平台,支撑了京东内部多条业务线平稳度过618、双11多次大促。 本次讲演将分享京东Flink计算平台在容器化实践过程中遇到的问题和方案,在性能、稳定性、易用性等方面对社区版Flink所做的深入的定制和优化,以及未来的展望和规划。

听众收益:

1.了解京东Flink计算平台容器化的方案和经验

2.了解京东Flink的优化与改进

3.未来展望与规划

新技术/实用技术点:

Flink容器化实践经验、任务调度优化、SQL扩展、资源弹性伸缩和智能诊断等。

胡英谦

字节跳动 | 基础架构工程师
18 年加入字节跳动, 参与了 ByteGraph   从设计到开发上线的全过程,支持了诸多 业务场景接入 ByteGraph 落地。 资深 Go 语言爱好者和贡献者。
分享主题: 节跳动自研图数据库实践
内容摘要: 图数据库的应用场景和解决方案,以及字节跳动内部分布式图数据库 ByteGraph   的设计要点和部分使用场景。

听众收益:

1. 图数据库在业界的一些使用场景

2. 大规模分布式图数据库的设计与难点

新技术/实用技术点:

分布式图数据库

钱勇

京东数科 | 图计算团队技术负责人

钱勇,京东数科图计算团队技术负责人,带领团队自主研发“图计算”全系列产品线,包括:单机图计算引擎JoyGraph、分布式流式图计算引擎ReJoyGraph和一站式图可视化建模和分析平台“图灵”,支撑京东数科、商城的风控、反欺诈、广告营销、舆情等20+业务线,目前在线图数据存储总量2千亿+,图数据分析规模千亿边+/天。

分享主题: ReJoyGraph分布式流式图计算实践
内容摘要: 京东数科在从离线图计算走向流式图计算过程中所面临的挑战和解决方案,分布式流式图计算产 Re JoyGraph 的设计要点。

听众收益:

1. 如何设计与实现分布式流式图计算系统,实现单图千亿边规模级的流式图计算

2. 大规模流式图数据如何存储

3. 流式图数据如何计算

4. 如何处理增量数据

5. 了解工业界图计算的应用热点

新技术/实用技术点:

分布式流式图计算

房孝敬

快手 | 大数据架构师

2017年加入快手,负责快手大数据资源调度方向,包括超大规模分布式资源调度,分布式计算,AI架构等。此前曾在阿里,腾讯,负责搜索&大数据系统研发工作,hadoopsparkk8s社区的contributor。

分享主题:快手超大计算集群调度优化实践

内容摘要: 快手作为数据驱动公司,随着业务快速发展,单集群规模从几百台增长到几万台。 在超大规模场景下,如何解决资源调度性能问题? 离线,实时和训练场景下对调度策略有不同的要求,我们做了什么优化? 面对海量任务,调度层面如何为核心作业提供 SLA保障? 本次分享会详细介绍快手大数据架构团队在这方面的实践经验和一些思考。

演讲提纲:

1. 快手Yarn集群的业务场景与规模

2. 高性能可插拔调度器-kwai scheduler介绍

3. 离线ETL,Adhoc查询,实时处理,训练场景下调度策略优化实践

4. 调度方向未来规划

周康

小米 | 高级软件工程师

小米计算平台 OLAP平台负责人,曾就职于百度、搜狐和安天移动安全。 主要负责维护Hive、SparkSQL、Kylin等系统,提供元数据服务和 ad-hoc 场景的方案。
分享主题: SQL on Hadoop在小米的实践与优化
内容摘要:
  • 小米SQL on Hadoop的技术选型和架构
  • 小米的使用经验、改进和架构演进
  • Ad-hoc场景下的SparkSQL多租户查询服务
  • 未来的计划

听众收益:

  • 了解小米大规模的Hive的实践与优化

  • 了解小米的SparkSQL多租户近实时查询方案

新技术/实用技术点:

开源技术在企业的实际应用

黄涛

京东 | 大数据架构师

京东大数据架构师,Hadoop/Ozone Contributor。从2017年初加入京东以来,一直从事 Hadoop 存储相关的研发工作。同时维护 JDJDK 在大数据场景的落地。

分享主题: 京东大数据存储演化之路

内容摘要:随着京东业务的不断发展,京东的数据量越来越大,京东大数据存储平台作为底层的支撑平台,集群规模一步步由数百到数万规模的演化, 经历了单集群破万、多集群融合、跨机房集群融合、跨部门数据分享、异构数据集成等等的技术挑战。此次分享主要涵盖在面对业务多元化发展,降本增效,采购的背景下, 京东大数据平台结合原先的技术积累,通过自研实现京东全域存储,落地实现了数据路由、跨域数据分享平台和自动化的冷存储管理。同时结合业务特点对各个存储引擎进行优化,最终达到降本增效的目的。

听众收益:

了解京东大数据存储平台的性能优化和稳定性建设实践,全域数据存储方案,以及冷数据自动化管理

新技术/实用技术点:

基于资源利用率的限流机制保证集群稳定性,快速读写切换加速业务效率,基于RBF实现全域数据存储方案,稳定的冷数据管理方案提高存储效率

屈世超

快看漫画 | 数据开发负责人

曾就职于小米、 Everstring ,现担任快看漫画数据开发负责人。 对于大数据平台建设和开发、服务架构设计、用户增长和数据分析有丰富经验。 0 1 搭建了快看漫画数据团队,带领团队支持了 7 个业务线的数据需求。
分享主题: 快看漫画数仓赋能业务实践

内容摘要:公司经常遇到业务数量、业务复杂度爆发式增长的情况,传统的数仓理念和团队组织很难深入满足业务的数据诉求。在这种场景下,快看漫画探索基于数据仓库为业务开发赋能的方法,为业务开发提供了统一的数仓接入使用标准和易用的开发能力,推动业务开发能用、会用数仓灵活快速的解决业务实际问题。

听众收益:

1. 数仓建设中的痛点;

2. 业务需求爆发式增长场景的解决方案;

新技术/实用技术点:

自助式数仓系统建设的方案

王日宇

京东 | 大数据架构师

2 018 年加入京东大数据离线计算引擎开发团队,聚焦京东实时数据湖方案设计和应用场景落地,对 SPARK内核和SQL执行优化方面拥有丰富的研发经验,对大规模分布式计算体系有深入的了解。
分享主题: 京东在实时数据仓库开发的实践

内容摘要:介绍京东实时数据仓库技术的过去和未来,使用delta lake完成离线数据的增量更新,建设批流一体开发分析体系简化传统数据仓库架构,以及京东的业务场景在数据湖上的落地经验和技术挑战

听众收益:

可以了解到数据仓库的发展历程,以及数据湖技术在京东实际场景的需求背景和落地经验,批流统一架构带来的机遇和挑战,

新技术/实用技术点:

实时数据仓库,数据湖,批流统一

曹富强

微博 | 高级开发工程师

曹富 强,微博机器学习研发中心 - 高级开发工程师。 现负责微博机器学习平台 - 数据计算,主要涉及实时计算 Flink Storm ,离线计算 Hive Spark 等。 目前专注于 Flink 在微博机器学习场景的应用,为机器学习提供框架,技术,应用层面的支持。
分享主题: 微博数据计算平台架构及应用

内容摘要:主要分享微博数据计算平台:实时计算平台」「离线计算平台」「实时多模态内容理解」「在线机器学习」等系统的架构和应用场景

新技术/实用技术点:

基于Flink搭建的新一代实时计算平台在实时多模态内容理解和在线机器学习的应用。

李阳

京东 | 资深研发工程师

京东资深研发工程师,拥有超过 1 0 年研发经验,擅长 olap相关服务研发及分布式系统设计。
分享主题: 京东 OLAP 实践之路

内容摘要:介绍京东的OLAP服务的发展历程,如果从0开始建设OLAP服务,如何针对不同业务场景进行OLAP技术选型。 

听众收益:

了解如何针对百亿甚至千亿级别数据的即席分析、如何提高数据的时效性、如何优化查询延时。

新技术/实用技术点:

ClickHouse、Doris、实时大数据分析

04
沙龙报名
识别二维码,免费报名
——END——

关于 数据智能部落:

数据智能部落 为 DataFunTalk 专属活动发布平台。将为您提供专业的沙龙、论坛、峰会、LIVE信息聚合服务,第一时间推送最新的工业界技术实践活动。目前平台累计举办100+线下沙龙,50+线上直播,有超过500位嘉宾在我们的平台分享过。

🧐分享、点赞、在看,给个三连击👇 

登录查看更多
0

相关内容

耶鲁大学《分布式系统理论》笔记,491页pdf
专知会员服务
44+阅读 · 2020年7月29日
专知会员服务
78+阅读 · 2020年6月20日
轻量级神经网络架构综述
专知会员服务
95+阅读 · 2020年4月29日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
分布式智能计算系统前沿
中国计算机学会
18+阅读 · 2019年10月8日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
报名 | 知识图谱前沿技术课程(苏州大学站)
PaperWeekly
12+阅读 · 2017年11月27日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
0+阅读 · 2020年11月25日
Arxiv
8+阅读 · 2018年1月25日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
Top
微信扫码咨询专知VIP会员