文章作者:Hoh Xil
出品平台:DataFunTalk
导读:7月25-26日,9:30-18:00,汇集了2020大数据、AI最新技术实践的线上大会DataFunCon将如期举行。本次大会由20余位知名专家学者出品,设置了18场专题分享,有超过80位一线资深技术专家参与分享。
大会名称:DataFunCon
大会主题:2020大数据、AI的最新技术实践
指导单位:北京智源人工智能研究院
活动主办:DataFunTalk
联合主办:人民邮电出版社 | 异步社区
钻石赞助:阿里云开发者社区、网易大数据
铂金赞助:腾讯大数据、微众AI
举办日期:7月25-26日,9:30-18:00
03
04
出品人:陈炜于
阅文集团 | 智能业务中心高级总监
徐函秋
小米 | 大数据部武汉用户画像负责人
李嘉晨
贝壳找房 | 资深算法工程师
贝壳用户画像的背景与现状
算法在用户侧的创新实践
核心问题的演进与背后思考
下游业务应用与赋能
王琛
神策数据 | 用户画像研发部 & 武汉研发中心负责人
嘉宾简介:王琛先生是神策数据研发部架构师及分布式查询引擎技术负责人,负责神策分析的技术规划、基础构建等工作,对大数据分析处理、分布式系统架构等方面有比较深刻的理解和实践经验,在大数据、机器学习、后端项目开发等多个领域都有深入研究。著有《深度学习原理与 TensorFlow 实践》一书。
张长江
网易 | 数据部技术专家
姚凯飞
句逗科技 | 联合创始人
出品人:朱张斌
腾讯微视 | 用户增长算法技术负责人
何晏成
腾讯 | 总监 & 技术专家
吴超
腾讯 | 技术专家
天师
阿里巴巴 | 高级算法专家
内容feed流产品 ( 图文、短视频 ) 用户增长架构
用户增长课题的下一代推荐算法技术升级
张殿鹏
腾讯 | 增长服务组副总监
出品人:宋世君
快手 | 数据分析部负责人
陈峭霖 博士
腾讯游戏 | 数据科学总监
杨淼钰 博士
快手 | 经济学家
金雅然 博士
快手 | 经济学家
杨宇杰
网易严选 | 商业智能部技术专家
巴川
竞技世界 | 首席数据科学家
大数据+AI:
出品人:王峰
阿里巴巴 | 资深技术专家
周克勇
阿里巴巴 | 技术专家
涂轶文
阿里巴巴 | 开发工程师
杨旭 博士
阿里巴巴 | 资深算法专家
李锐
阿里巴巴技术专家 | Apache Hive PMC
智能助手:
出品人:王浩 博士
天猫精灵 | 用户理解和智能助手负责人
王浩,阿里巴巴阿里云天猫精灵事业部用户理解和智能助手负责人。加入前曾任奇虎360搜索首席科学家,致力于下一代智能搜索和推荐技术研发,包括搜索首条直接答案、360机器翻译以及知识图谱等。博士,毕业于日本东京大学,美国加州大学伯克利分校联合培养。进入工业界之前在学术界中国科学院教授,主要研究方向包括:智能问答与对话技术、用户建模与个性化信息流推荐、机器阅读理解与自然语言生成等,已发表成果70余篇,包括国际顶级会议和期刊,如KDD、AAAI、IJCAI、WWW、ICDE、ICDM、ACM MM、ECCV、CIKM、TOIS、TKDE、TPAMI、TIP、TAC等。
姜飞俊 博士
天猫精灵 | 语义理解团队负责人
姜飞俊,天猫精灵语义理解团队负责人。香港科技大学博士毕业后加入阿里巴巴,先后研发了电商图像安全识别引擎,Aliexpress个性化推荐系统和天猫精灵人机对话系统。
曹涌
天猫精灵 | 内容助手负责人
曹涌,阿里云天猫精灵内容助手负责人。之前是微软亚洲研究院主管研究员,主要研究兴趣为数据挖掘和自然语言处理,倡导以产品发布为驱动的研究模式,主导研究和开发了人立方关系搜索,微软学术搜索,微软读心机器人等原型产品,研究成果转化应用到微软必应搜索,Office办公组件以及微软认知服务等产品中,并取得多项美国专利。
胡于响
阿里巴巴 | 算法专家
分享主题:天猫精灵算法交互体系的演进之路
内容摘要:本演讲主要介绍天猫精灵在交互中的一些体系及算法上的创新,以及我们在算法技术方案上的一些思考。
嘉宾简介:阿里巴巴天猫精灵事业部算法专家,主要负责天猫精灵语义理解,过去几年完成天猫精灵领域内理解,端到端语音识别,流量划分等,使得天猫精灵在算法交互体系效果上在业界保持领先。
分享主题:基于大规模无监督语音预训练的语音语义理解
内容摘要:传统的语音语义理解方案首先将输入的语音信号经过声学模型转换为语音中间结果,然后通过两种方式被下游技术利用:一种是通过语言模型生成文字然后利用自然语义理解方法(NLU)对文字进行语义理解;另外一种是通过端到端口语理解模型(SLU)直接对语音中间结果进行语义理解。然而训练数据不足是导致以上两种方法效果不佳。基于此,我们提出通过引入语音语义预训练方法,利用大规模无标注语音数据,对语音中间结果进行语义预训练,使其从海量原始语音数据中学习到语义特征,解决训练数据不足的问题。
嘉宾简介:王鹏伟,2018年博士毕业于华南理工大学,同时也是微软亚洲研究院(MSRA)联合培养博士生。目前就职于阿里巴巴天猫精灵事业部。主要研究方向为语音语音理解,大规模文本以及语音预训练,自然语言处理以及知识图谱相关工作。目前主要负责天猫精灵线上产品的语音语义理解以及内容搜索的研究与应用。
崔鸣
贝壳找房 | 资深NLP算法工程师
分享主题:经纪人的24h随身助理—小贝咨询助手
内容摘要:智能助手是AI在产业中应用最为广泛的领域,在贝壳IM是经纪人与客户在商机后环节的重要沟通场景,所以为智能助手的构建提供了强有力的场景和数据支持,小贝咨询助手正是围绕和依托IM场景实现对经纪作业的赋能与提效。
本次分享我们将重点介绍小贝咨询助手构建的整体架构与流程,各个核心环节在技术构建的过程中遇到的问题与解决方案,以及在业务系统中是如何分析问题,最终实现各模块联动达到业务效果的提升。
嘉宾简介:贝壳找房资深NLP算法工程师,2015硕士毕业于武汉大学,先后在新浪微博、小米从事推荐算法和机器学习相关工作,独立负责了相关微博推荐与相关视频推荐项目;2018 年加入贝壳,负责团队自然语言理解、智能客服、智能审核等工作,参与了小贝咨询助手从0到1的,构建过程,曾在QCON做过《智能客服算法优化与迭代》的主题分享。
王成龙
阿里巴巴 | 算法专家
分享主题:语音助手中的结构化语义表达方法演进
内容摘要:介绍当前主流语音助手中所使用的结构化语义表达方法及对应的解析算法在近几年的演化过程。
嘉宾简介:阿里巴巴集团-天猫精灵事业部算法专家,天猫精灵IOT领域算法负责人。致力于IOT等任务型人机交互领域的语音语义理解算法研发及业务场景落地,在机器学习和自然语言处理领域积累了多年的实战经验,发表过多篇学术论文和专利。
姚晟
阿里巴巴 | 高级技术专家
分享主题:智能助手对话交互式语音搜索技术
内容摘要:天猫精灵智能音箱一直处于国内首位,其中智能语音助手技术发挥着核心提升用户体验能力,这里面有别于传统技术方法诸多挑战,比如语音识别输出的用户Query通常会有更多的错误严重影响后面的语义理解以及执行,以及口语Query通常表达更依赖对话上下文的综合理解,这个报告将给大家分享口语Query 理解技术以及对话式搜索技术,与大家一同打造未来无框搜索的智能助手时代。
嘉宾介绍:阿里巴巴阿里云天猫精灵事业部知识图谱和语音搜索团队负责人,十年阿里技术项目经验,在知识图谱、语音搜索、对话系统、大数据等方面有丰富的实践经验。
张跃伟
阿里巴巴 | 算法专家
分享主题:跨领域信息流推荐技术
内容摘要:跨领域信息流,跨领域的物料(服务、内容、商品、视频)推荐结果极⼤地丰富了⽤户体验,满⾜了⽤户对不同推荐体裁的消费需求。如何将跨领域的多源异构物料在信息流推荐中更好的进⾏混排是⼀个⾮常有挑战的问题。本次分享中,我们将介绍几种实际场景中的信息流和相应挑战,以及对应的解决探索方案和落地情况。
嘉宾简介:阿里巴巴阿里云天猫精灵事业部信息流推荐负责人,天猫精灵智能助手的初创成员,在搜索推荐信息流具有丰富的工业大型项目经验,目前在助手对话信息流技术上不断创新探索。
陈天健
微众银行 | AI部门副总经理
前百度主任架构师(T10),百度金融首席架构师。设计百度搜索、推荐、大数据、金融等多个业务的总体架构和关键系统。现在微众银行人工智能部负责银行智能化和联邦学习技术生态的构建。
王礼斌
腾讯 | 高级工程师
分享主题:通过非对称联邦隐藏实际客户
内容摘要:当前联邦学习需要通过PSI等方法同步双方的交集客户样本,但金融机构对暴露交集非常敏感:一是因为知道一个人是该机构客户已是一种隐私暴露(客户不想别人知道他们做了贷款或者投了保险);二是客户是金融机构通过种种方法辛苦获取,获客成本不低,若客户清单暴露可能被竞争对手挖角。非对称联邦通过算法创新,让金融机构在样本中混入大量无关客户,掩盖真实信息,但最终不影响实际训练出来的模型,在生产时配合安全信息提取方法,就能彻底保护真实客户清单。我们将为各位介绍我们如何做到这一点,且为客户带来了什么价值。
嘉宾简介:腾讯云大数据与人工智能产品部大数据平台产品组神盾联邦计算产品算法工程师,4年信贷大数据风控建模经验,为微粒贷/微车贷等产品提供风控服务,现为神盾信贷计算开发特征工程和联邦算法组件,和进行具体项目落地。
汤韬
中国银联 | 博士后
分享主题:联邦学习在小微企业信贷及营销推荐领域的应用与探索
内容摘要:当前联邦学习为机构间数据合作和价值挖掘探索提供了较好的技术思路和解决方案,但在应用落地和场景探索上依然有较大的努力空间。中国银联与微众银行基于当前良好的战略合作关系,以小微企业信贷风险评估为具体应用场景,通过联邦学习方法,将银联侧小微企业工商数据及企业主数据和微众银行侧小微企业信贷数据进行了有效的数据融合与价值挖掘,综合纵向联邦学习及特征工程方法,实现了双方数据价值的提升。我们将以此为案例,对联邦学习技术落地应用及商业化探索进行介绍和细节分享。同时,我们针对当前场景探索的迫切需求,基于联邦学习对营销推荐场景下多方隐私数据的合理使用及离线、在线推荐系统的改造提出了相关的技术方案,相关细节也将进行介绍。
嘉宾简介:汤韬,中国银联在站博士后。毕业于上海交通大学,2018年加入中国银联从事基于大数据的人工智能金融风险防控相关研究,曾主持参与过银联营销反欺诈侦测、黑灰产用户人机识别及身份认证等课题。
张海宁
VMware | 技术总监
分享主题:云原生联邦学习的开源框架
内容摘要:本次演讲介绍采用云原生技术管理和运维联邦学习平台原理和方法,使联邦学习任务能在公有云、私有云以及混合云的环境中无缝运行。演讲将结合开源项目FATE/KubeFATE,Kubeflow等进行演示和讲解。
嘉宾简介:张海宁(Henry),VMware中国研发技术总监,CNCF Harbor 开源镜像仓库项目创始人,联邦学习开源项目KubeFATE代码维护者,腾讯云最具价值专家(TVP),《区块链技术指南》作者之一。关注人工智能、云原生、区块链等领域。
洪澄 博士
阿里巴巴 | 高级安全专家
分享主题:联邦学习与安全多方计算
内容摘要:联邦学习和安全多方计算是当前跨机构数据协同的两类主流技术,本报告将从基本思想、安全性、性能等多个方面介绍二者的区别,并介绍阿里在安全多方计算方面的最新成果。
嘉宾简介:洪澄,阿里巴巴集团高级安全专家,2006年获中国科学技术大学软件工程学士学位,2012年获中国科学院大学信息安全博士学位。研究兴趣包括数据库安全、数据安全与隐私保护、应用密码学等,曾在EUROCRYPT,SIGMOD、VLDB等国内外相关期刊、会议发表论文10余篇,担任密码学报,IEEE Transactions on Dependable and Secure Computing (TDSC) 等审稿人。现在阿里安全部负责安全多方计算、同态加密等前沿技术的研究,及其在阿里经济体的推广应用。
范涛
微众银行 | 高级研究员
分享主题:FATE: 联邦学习技术落地与应用实践
内容摘要:随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。同时,大多数行业数据呈现数据孤岛现象。如何在满足用户隐私保护、数据安全和政府法规的前提下, 进行跨组织间数据合作是困扰人工智能从业者的一大难题。而“联邦学习”将成为解决这一行业性难题的关键技术。主题将会围绕两方面展开:
1. 利用联邦学习进行跨组织间多方联合建模若干关键技术,这些关键技术如何落地到开源项目FATE,以及FATE 2020年展望。
2. 微众银行AI团队已经推动FATE在信贷风控,客户权益定价,监管科技等领域的一系列应用。
嘉宾简介:FedAI联邦学习开源平台FATE和联邦学习商业化FDN产品技术负责人。硕士毕业于中国科学技术大学,加入微众前,曾任职百度,腾讯,负责AI,大数据相关项目研发,具备丰富的机器学习算法和产品实践经验。目前主要研究方向包括联邦学习,机器学习,深度学习,迁移学习等。曾在"雷锋网《金融联邦学习公开课》","Linux Foundation AI Day中国站",深圳市金融科技协会举办的"深圳金融科技界 ( 人工智能 ) 专题研讨会","OpenI-开发者大会","CCF-TF","微众银行首届FinTech Day AI 分论坛"进行联邦学习主题分享,发表联邦学习相关技术专利40多篇。
出品人:蒋鸿翔
网易杭研 | 大数据首席架构师
蒋鸿翔,2011年加入网易,现任网易杭研大数据首席架构师,《MySQL内核:InnoDB存储引擎 卷1》作者之一,网易数据库内核和数据仓库平台负责人,长期从事数据库内核技术和大数据平台底层技术开发,主导网易数据库内核整体技术方案和大数据平台先进技术调研和实现,先后主导了内部MySQL分支InnoSQL、HBase、自研时序数据库、自研实时数据仓库等各种不同的平台,具有丰富的数据库内核和大数据平台相关经验。
范欣欣
网易 | 数据库内核开发负责人
分享主题:详述数据湖在网易的实践
嘉宾简介:范欣欣,网易杭州研究院数据科学中心工程师,数据可内核开发负责人。他与Apache HBase PMC成员、小米公司HBase工程师胡争合著的新书《HBase原理与实践》,这也是业界第一本专门阐述HBase原理的书。
五羖
阿里文娱技术专家
分享主题:优酷大数据OLAP技术选型
内容摘要:数据驱动的方法论已深入人心,无论是开发、产品还是运营,根据数据进行决策是必备环节。你是否好奇过,在优酷这样海量数据的场景下,是什么样的引擎在支撑着业务上林林总总的分析需求?大数据领域中,Kylin、Druid、ES、ADB、GreenPlum、ODPS 这些眼花缭乱的名字,它们之间又要什么区别和联系、企业如何进行选型?本次演讲将为揭晓答案。
嘉宾简介:来自阿里文娱基础平台部,负责会员增长相关的数据挖掘与数据平台建设工作。
温正湖
网易 | 数据库技术专家
分享主题:Impala 在网易大数据中的应用和优化实践
嘉宾简介:温正湖,网易杭研数据库开发专家。10年数据库和存储开发经验,2013年起一直从事数据库内核和数据库云服务相关工作,现为杭研数据库内核团队负责人;专注于数据库内核技术和分布式系统架构,乐于挑战和解决疑难问题;负责网易MySQL分支InnoSQL的开发和优化工作,大幅提升了线上业务的MySQL数据库服务质量;主导并推动MGR、MyRocks等新方案在考拉海购、云音乐、传媒等业务场景大规模使用;累计申请10+技术发明专利(已授权8个),《MySQL 内核:InnoDB 存储引擎 卷1》作者之一。
刘力云
贝壳找房 | 资深工程师
分享主题:实时计算在贝壳的实践
内容摘要:详细介绍实时计算技术在贝壳找房的应用,主要从实时计算平台的开发历程,实时数仓的落地,事件驱动场景的探索和事件处理平台的实现等几个方面来讲解。
嘉宾简介:目前任职于贝壳找房数据智能中心,实时计算负责人。曾任职于滴滴、IBM。工作领域涉及实时计算、大数据平台、推荐系统、文本分析、知识图谱等。目前负责贝壳找房实时计算相关设计开发,承载了公司的实时ETL、数据分析等任务;支持实时数仓、实时指标的建设;支持实时事件处理相关的业务需求。
出品人:刘俊晖
爱奇艺 | 智能平台部高级总监
刘俊晖爱奇艺高级总监智能平台部人工智能团队负责人。毕业于复旦大学,曾就职于Intel和SAP,从事云计算、大数据相关的研发和管理工作。2013年加入爱奇艺,目前负责带领人工智能团队为公司的AI娱乐战略赋能及创新研究,并在图像与视频理解、智能制作、多媒体技术、AR/VR等方面有大量的落地。在云计算、大数据、人工智能方面有大量的互联网实践经验,并拥有相关德国、中国专利10余项。
龙翔
百度 | 资深研发工程师
分享主题:高效且有效的实用目标检测技术
内容摘要:目标检测技术是计算机视觉技术的重要领域之一,在各行各业都已经得到了广泛的应用。在实际应用中,选择目标检测模型时,往往都会面临效果和效率的平衡问题。如何在保持高效的前提下,开发一个更有效的检测模型,是十分重要的。本次演讲则主要介绍开发这样一个模型的方法和思路。
嘉宾简介:2018年加入百度,现为资深研发工程师,主要负责目标检测、视频理解算法的研发和落地。在CVPR、AAAI、TACL等会议期刊上发表论文5篇。曾获得2019 Object365目标检测比赛冠军和多项视频理解比赛Kinetics、ActivityNet冠军。
马彬 博士
美团点评 | 技术专家
分享主题:本地生活场景的短视频分析
内容摘要:美团点评围绕丰富的本地生活服务场景,积累了海量视频数据。如何通过计算机视觉技术更好地利用相关视频数据,为用户和商家提供更好的服务,是一项重要的研发课题。本次分享将主要介绍,短视频内容理解与生成技术,在美团点评业务场景的落地实践。
嘉宾简介:马彬,美团点评技术专家。2014年博士毕业于北航计算机学院,2017年加入美团点评,目前主要负责线上视频理解与生成方向的技术研发工作。此前曾就职于佳能研究院,研究方向为图像视频中的场景文字识别。
雷语 博士
淘系技术部 | 资深算法专家
分享主题:多媒体电商的AI交互
内容摘要:在新兴的多媒体电商(淘宝直播、VOD、短视频、游戏)成为电商新的形式,对于人机交互、信息呈现都带来了新的挑战;本议题主要分享团队在多媒体电商中AI对内容实时理解、毫秒级的人机交互的相关实践工作。
嘉宾简介:博士毕业于上海交通大学,现任淘系技术部内容社交互动平台的资深算法专家。目前带领AI团队,针对淘宝直播、淘系内容化,从事端AI、多模态视频理解、AI/AR交互、AIGC等方向的研发工作。擅长AI内容化、CV、推荐、导购机器人,支持淘宝直播、互动、社交等业务,拥有7年以上相关的工业界实践经验。
刘祁跃
爱奇艺 | 科学家
分享主题:视频精彩度分析算法及应用
内容摘要:对于视频平台,识别和创作精彩内容是吸引和留存用户的关键因素,也是商业化的推动力。本次主要分享爱奇艺在视频精彩度分析中的技术方案,并简单介绍典型应用场景。
嘉宾简介:爱奇艺科学家,智能平台部视频分析组负责人,负责对视频内容的理解和生成,并应用到广告、创作、分发等业务。
出品人:王斌 博士
小米人工智能部AI实验室主任,NLP首席科学家
中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。加入小米之前,在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作,任研究员、博导,中科院大学教授。发表学术论文200余篇,获得授权专利15项,译有《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》等畅销书籍,在国际级评测或竞赛中3次名列第一,领导研制的多个内容分析处理系统在国家部委长期实际运行,科研成果获得国家科技进步二等奖2项,省部级科技奖3项,迄今培养博士、硕士近100名。长期担任SIGIR、CIKM、ACL、IJCAI、AAAI、WWW等会议的程序委员会委员。
杨比特
丁香园 | 资深NLP算法工程师
分享主题:医疗健康领域的短文本理解
内容摘要:分享在丁香园的业务场景下,短文本理解的技术实践,讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用。
嘉宾简介:杨比特,硕士毕业于军事医学科学院,负责丁香园大数据NLP组,目前专注于医疗健康领域下的自然语言处理、知识图谱构建与应用、搜索与推荐技术。
罗锦文
腾讯 | 研究员
分享主题:热点挖掘及应用
内容摘要:当前各大资讯社交类APP都在显著的版面展示或者推荐热点相关内容,信息流应用能否快速发现热点、引导用户阅读热点,是影响用户体验的重要因素。本次分享主要介绍腾讯看点在热点方面的工作。基于搜索数据和自媒体文章,通过时序分析方法和内容聚类相结合的方法挖掘热点,并将热点聚类成事件和话题。用户搜索和媒体生产能够从消费和生产两个方面更加准确的度量热度,事件和话题同时能够辅助用户理解,做到热点的个性化下发,从而提升信息流热点体验。
嘉宾简介:本科毕业于兰州大学,研究生毕业于北京大学。2016年阿里实习,然后2017下半年转战百度实习,于18年加入腾讯正式工作,负责新NLP新热内容挖掘和词法分析相关工作。
刘亮
美团 | 资深算法工程师
分享主题:O2O搜索场景下的查询理解系统
内容摘要:介绍美团搜索中查询理解系统的演进历史,NLP技术在OTO搜索场景的应用,以及我们面临的挑战和解决思路。读者可以从分享中了解美团查询理解的在利用NLP技术解决实际问题的一些经验。
嘉宾简介:刘亮,美团资深算法工程师,8年搜索和nlp相关工作经验,目前是美团搜索查询理解方向架构师。
苗艳军
爱奇艺 | 智能理解团队负责人
分享主题:NLP技术在短视频场景中的应用实践
内容摘要:短视频作为一种重要的信息传播媒介,每天被大量的生产并上传到各大短视频内容平台。如何加强对短视频的内容理解和提高智能分发效率是各大短视频平台面对的一个重要课题。随着深度学习和多模态技术的快速发展,NLP作为一种让计算机智能理解语言的技术,在其中发挥着越来越重要的作用。本次分享主要介绍在爱奇艺短视频场景下NLP技术的应用实践,主要内容包括:实体识别、长短关联、内容标签等。
嘉宾简介:2012年加入爱奇艺,主导和参与了NLP多个核心模块的研发和产品落地,目前主要负责NLP算法、知识图谱、Query理解、Query推荐等算法的研发和管理,相关技术和服务在爱奇艺内部被广泛使用。
王凡
百度 | 主任架构师
分享主题:通用对话系统的现状和未来
内容摘要:该演讲会系统地介绍通用对话系统最前沿的技术,包括知识对话生成、基于强化学习的可控对话、大规模预训练对话模型等等,以及展开对通用对话系统未来发展的讨论。
嘉宾简介:王凡,2012年加入百度,现任百度自然语言处理部主任架构师,负责在线学习、前瞻对话等技术方向工作,将强化学习技术广泛落地到百度搜索、信息流、地图等核心业务。带队两次获得NuerIPS强化学习赛事国际冠军,在ACL、IJCAI、KDD等国际会议发表多篇论文。曾获百度最高奖,百度骄傲最佳个人。
崔建伟
小米 | 工程师
分享主题:预训练的应用挑战与实践探索
内容摘要:预训练模型在NLP大放异彩,并开启了预训练-微调的 NLP 范式时代。由于工业领域相关业务的复杂性,以及工业应用对推理性能的要求,大规模预训练模型往往不能简单直接地被应用于 NLP 业务之中,本次演讲介绍了小米在预训练模型的探索与优化。本演讲主要内容包括:
1. 预训练技术简介
2. 预训练技术应用落地的挑战:推理延时高、如何融入领域知识、根据具体任务进行结构与训练调整;
3. 预训练技术应用实践探索,包括:
轻量级模型:知识蒸馏应用到小爱判不停
推理优化:低精度+FastTransformer应用到闲聊相关性计算
领域知识融入:槽位与实体信息融入应用到对话系统意图识别
根据任务调整结构与训练:多粒度分词与闲聊生成式对话
4. 预训练技术近期发展与展望
嘉宾简介:崔建伟,小米人工智能部AI实验室NLP应用组负责人。2012年加入小米,先后参与分布式系统HBase、FDS、SDS等开发;2017年开始负责NLP应用组,包括闲聊对话、机器翻译、预训练平台等项目,落地到小爱同学、小爱老师等重要业务。
出品人:李先刚 博士
滴滴出行 AI LABS 首席算法工程师,滴滴语音技术负责人
他长期从事语音识别、语音合成、说话人识别和口语对话理解的研究。曾参加Blizzard Challenge 2013国际语音合成比赛,搭建了当时最好的英语语音合成系统。加入滴滴前,他曾是百度语音技术部语音识别技术负责人,推动了包括DeepSpeech、DeepSpeaker等系统的研发迭代,以及其语音识别、说话人识别的产品性能的提升。其中DeepSpeech 2被 MIT Tech Review 评为 2016 十大技术突破之一。
陈果果 博士
seasalt.ai | 联合创始人
分享主题:语音唤醒:开源、落地以及技术优化
内容摘要:介绍演讲者在创办KITT.AI的过程中,讲语音唤醒技术进行开源、落地,以及后续的技术优化的过程。
嘉宾简介:陈果果,清华大学本科学位,约翰霍普金斯大学博士学位,主要研究方向是语音识别以及关键词检索方向。博士期间为Google开发了Google的唤醒词Okay Google的原型,现在已经用到的数以亿计的安卓设备上。博士期间同时也参与开发语音识别开源系统Kaldi,以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI,专注于语音识别以及自然语言处理,2017年被百度收购以后,加入百度度秘事业部,担任主任架构师。2020年联合创办Seasalt.ai及Vobil.com,专注于语音技术的落地与发展。
李秀林 博士
标贝科技 | 联合创始人兼 CTO
分享主题:语音生成及相关拓展技术的应用实践
内容摘要:人工智能技术的进步,提升了用户对语音个性化的使用需求,从“千人一面”到“千人千面”转变。既定场景下 ,如何让机器拥有情感的声音与用户对话,以提升用户交互意愿?另外,除了大家熟知的语音合成TTS外,我们还可以挖掘到声音拓展的哪些应用价值?标贝科技联合创始人兼CTO李秀林以语音生成与声音拓展作为切入点,与大家分享标贝科技语音应用实践。
嘉宾简介:李秀林,标贝科技联合创始人兼 CTO。中国科学院声学所博士,15年以上语音行业相关经历,个人语音专利30余项。曾就职于滴滴、百度等企业,担任语音相关业务负责人。
张学良 博士
大象声科(深圳)科技有限公司 | CTO
分享主题:骨震动传感器在TWS耳机通话降噪中的应用
内容摘要:近期TWS耳机热度持续升高,获得市场的极大关注。通话是 TWS (True Wireless Stereo) 耳机最重要的功能之一。但日常环境的噪音对通话质量的影响十分严重。因此,通话降噪算法在TWS耳机上已经成为标准配置。尤其以基于深度学习的降噪算法为代表,极大的提升了噪声环境下的通话体验。尽管如此,在某些地铁和风噪的极限场景下,仅仅使用传统麦克风的信号,算法依然无法获得很好的降噪效果。本次报告中,我将介绍骨振动传感器在TWS耳机通话降噪中的应用,如何利用骨振动传感器提升算法的降噪效果。
嘉宾简介:张学良,大象声科(深圳)科技有限公司联合创始人、CTO。内蒙古大学教授,博士生导师。2010年于中国科学院自动化研究所,模式识别国家重点实验室获博士学位。2015年-2016年,美国俄亥俄州立大学访问学者。研究方向包括语音分离/增强,计算听觉场景分析。已发表论文包括IEEE/ACM Transactions on Audio Speech and Language Processing、ICASSP、INTERSPEECH等40余篇。
宋辉 博士
滴滴 | 高级专家研究员
分享主题:端到端语音分离技术及其应用
内容摘要:语音分离技术的基本框架,最新进展和应用。
嘉宾简介:宋辉,滴滴AI Labs语音语义技术部,高级专家研究员。清华大学博士,2018年5月加入滴滴,语音研究实验室负责人,主要研究方向为语音和音频信号处理。
詹坤林
58同城 | AI Lab 负责人
分享主题:58同城智能语音分析平台技术揭秘
内容摘要:语音是58同城用户之间的重要沟通媒介,58同城C端用户和B端用户之间可以通过网络音视频通话、电话建立连接,58同城数千名销售和客服人员会通过呼叫中心与客户进行电话沟通,这些场景下会产生大量的语音数据,我们构建了一套智能语音分析平台将这些语音数据转译成文本,并进行挖掘分析,以应用于各业务场景为平台创造价值。本次议题首先将介绍语音分析平台的总体架构,然后分享其中的NLP、语音识别算法,最后分享相关业务场景下的实际应用案例。
嘉宾简介:詹坤林,58同城AI Lab负责人,技术委员会AI分会主席,2015年5月加入58,致力于推动AI技术在58的落地,打造AI中台能力,以提高前台业务人效和用户体验,目前主要负责智能客服、语音机器人、语音分析平台、智能营销系统、智能写稿、语音识别、AI算法平台等产品的研发。曾任腾讯高级工程师,负责推荐算法研发,2012年硕士毕业于中科院。
出品人:李钰
阿里巴巴高级技术专家,Apache Flink & HBase PMC
李钰,阿里巴巴计算平台事业部高级技术专家,Apache Flink & HBase PMC。具备丰富的Flink、HBase大规模生产集群双十一实战经验。
张照亮
阿里巴巴 | 技术专家
分享主题:阿里巴巴电商搜索推荐的实时数仓演进之路
内容摘要:阿里巴巴电商搜索推荐是面向产品算法,天猫淘宝行业运营的大数据解决方案,提供实时、离线、流批一体多维交互式查询,日写入千亿行。在本次演讲中将会分享搜索推荐实时数仓是如何一步步演进到Flink+Hologres 计算查询数仓架构,以及现实时数仓在搜索推荐场景的最佳业务实践。
嘉宾简介:张照亮,阿里花名"士恒",阿里巴巴技术专家、阿里巴巴搜索推荐事业部-搜索推荐数据平台基础数据研发负责人,目前主要负责搜推大数据解决方案迭代演进和部分业务侧数据产品架构设计和研发工作。
李金康
美团 | 高级技术专家
分享主题:配送实时特征平台建设实践
内容摘要:美团配送是业界领先的智能物流平台,拥有全球领先的实时配送网络。美团配送是配送时长在1小时以内,平均配送时长约30分钟的即时配送业务,过程涵盖了用户、商户、骑手和平台互相交错的四元关系,美团配送策略团队建立了配送的“超脑”配送系统,从用户下单,商家接单骑手的接单送达,进行准确的时间、运力的预估,通过动态定价、智能派单、网络规划等系统来提升配送效率、优化用户体验、降低配送成本。这些准确的策略背后离不开对实时特征数据的依赖,本次分享主要为大家介绍配送实时特征平台的发展历程,关键技术和实践经验。
嘉宾简介:2013年加入美团,现任美团配送数据组数据应用组的负责人,长期负责配送数据架构的系统开发与架构升级,主导配送实时数据建设、配送BI系统建设、实时特征平台建设,为全国海量骑手及各级管理团队和算法团队提供信息化支持。拥有多年互联网研发及技术管理经验,在大数据、高并发、高可用架构设计等领域积累了丰富的经验。
张庭
菜鸟 | 数据工程师
分享主题:菜鸟进口实时数仓2.0升级之路
内容摘要:供应链物流场景下的业务复杂度高,业务链路长,节点多,实体多,实时数仓建设难度高。跨境进口业务场景更是如此,更复杂的场景带来更复杂的实体数据模型,对接的业务系统多导致ETL流程特别复杂,还有海量的日均处理数据量,使得团队在建设进口实时数仓的过程中,面临着诸多挑战,如:如何保证复杂实体关系下的数据准确性?如何降低多数据源情况下的数据处理复杂度?如何提升实时多流Join的处理效率?如何实现实时超时统计?如何实现异常情况下的数据状态恢复?
嘉宾简介:张庭,阿里花名"佳二",19年硕士毕业于浙江工业大学,毕业后便加入阿里巴巴菜鸟数据部,负责国际供应链相关的数据研发工作。工作期间负责了进口离线数仓升级、实时数仓升级等项目,负责过双十一/618等大促的数据建设和保障工作。发表过相关技术创新提案多篇,在离线、实时数仓的技术探索,架构重构,性能优化等方面有着丰富的经验。
马进
网易杭研技术专家 | 网易流计算团队负责人
分享主题:网易实时数仓的演进和发展
嘉宾简介:负责网易数据库中间件、数仓团队,主导数据库中间件的各类项目研发,曾先后参与分布式数据库DDB,缓存NKV,分布式事务协调器TCC,数据运河NDC等项目。专注于分布式系统架构与数据库技术,热衷于构建高效的,高性能的分布式后台系统。
出品人:费浩峻
度小满金融 ( 百度金融 ) | 主任架构师
负责百度金融智能获客技术架构。从0到1建立了百度金融以人工智能为核心、大数据为基础的多平台的智能获客系统,支持了千万级的用户获取。专注于大数据、人工智能方向研究,有大数据、nlp、计算广告、信息处理等10余篇专利。
严澄
度小满金融 | 风控模型负责人
分享主题:大数据和人工智能在度小满金融风控的实践
内容摘要:
嘉宾简介:严澄,度小满金融风控模型负责人。2010年入职百度,有10年以上一线大数据和机器学习的应用实践,先后参与过百度联盟广告的CTR预估、百度糯米的产品推荐算法工作;2018年开始从事金融风控模型的相关工作,目前主要负责度小满金融内部的风控模型,利用大数据和人工智能技术提升金融科技的能力。
王力
蚂蚁金服 | 高级算法专家
分享主题:共享智能在蚂蚁金服的探索与实践
内容摘要:随着人工智能的兴起,数据的质量和数量,已经成为影响机器学习模型效果最重要的因素之一,如何在通过数据共享扩充数据量的同时,确保隐私不被泄露、数据不被滥用,已经成为人工智能的一个重要研究方向。这里主要介绍蚂蚁金服在共享智能技术上的发展与应用,并分析这一领域未来的发展趋势。
嘉宾简介:王力,蚂蚁金服人工智能高级算法专家。上海交通大学计算机专业硕士毕业,2010年加入阿里巴巴,从事搜索算法研究工作,2016年加入蚂蚁金服,从事共享智能技术研究与应用工作。
李渔 博士
熵简科技 | 联合创始人
分享主题:熵简科技在投研数智化建设中的思考与实践
内容摘要:在数字化浪潮的大背景下,金融资管行业的先行者正在积极探索将人工智能、大数据等先进技术用于构建面向未来的智能化投资研究平台。本次分享从金融资管领域对于新一代投研系统的建设重点和主要挑战入手,详细介绍熵简科技在构建一站式投研系统中的思考和技术实践。在数据层,为构建起全域数据获取体系,我们利用tag2vec、前向网络以及云原生等技术手段,打造了一套日处理 TB 级的大数据采集系统。在中台层,针对非结构化数据的处理,我们综合运用迁移学习、半监督学习以及知识蒸馏等方向的前沿技术,构建了少样本、轻机器等低资源场景下的自然语言处理方案;在此基础上,为了将结构化数据淬炼为知识,我们运用对象存储、Spark、可视化等技术手段搭建一套面向海量异构数据处理的低成本离线大数据处理系统。在业务层,机器利用已经沉淀了分析师投研框架的研究图谱,通过逻辑推理、风险控制等方式,将中台层所获取的大量知识进行分析和推理,最终形成具有决策参考价值的投研情报。以这几套系统为核心,即可构建起自动化、工业化、24小时不停机的一站式智能投资研究系统。
嘉宾简介:李渔,熵简科技联合创始人,博士毕业于清华大学电子工程系,以第一作者身份发表学术论文10余篇,申请专利6项,致力于将先进的自然语言处理及深度学习技术真正落地于金融资管领域,让科技赋能产业。目前负责熵简科技NLP技术中台的建设,包括层次化的分层架构、大数据泛采体系、持续部署的后台支持以及前沿算法的领域内落地等,为熵简科技的各大业务线提供底层技术支持和可落地的解决方案。
宋孟楠
360金融 | 算法工程师
分享主题:自动化特征工程在金融领域应用
内容摘要:不同于深度学习大放异彩的图像、语音和文本等领域,金融风控有着自己独有的特点。金融风控模型通常面对的是海量的结构化数据,同时更强调模型的可解释性,因此良好的特征工程是风控建模的关键。然而特征工程严重依赖于专家经验,需要大量的时间和试错成本,为此我们提出一种基于强化学习的自动化特征工程,根据建模任务,可以从海量数据中自动的构造有效特征。
嘉宾简介:本科毕业于华南理工大学,硕士毕业于早稻田大学,长期从事风控模型工作,现任职于360金融算法工程师。
陶阳宇,腾讯专家工程师,目前担任腾讯大数据智能学习团队负责人,支持腾讯广告推荐、金融支付、社交网络等业务场景的算法模型优化、训练与推理服务。他拥有10余年机器学习、大数据、分布式系统领域从业经验,2009年获中国科技大学电子科技专业博士学位。陶阳宇的主要研究方向包括分布式机器学习系统、广告推荐算法、大数据平台等,曾带领团队获得2015年世界排序大赛冠军及2017年中国电子学会科技进步奖。
分享主题:DELTA 基于深度学习的语言技术平台
内容摘要:近年来,随着深度学习的高速发展,语音和自然语言处理有了越来越多的应用,而这些应用都离不开一套优秀的模型训练和部署框架。为此,我们开发了一个基于深度学习的语言技术平台DELTA,它主要基于TensorFlow构建,能同时支持NLP(自然语言处理)和语音任务及数值型特征的训练。整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。本次演讲会着重介绍DELTA的基本架构和使用,并也会针对滴滴在用DELTA在语音交互领域所做的工作做一个整体的梳理。
嘉宾简介:韩堃毕业于The Ohio State University,2013年在微软研究院实习,主要研究方向为语音处理和机器学习。韩堃于2014年获博士学位,并加入Facebook从事语音,自然语言处理,机器学习等工作。2018年加入滴滴AI Labs,负责语音交互,对话理解等方向的研究与产品。
王辉
华为 | 开源工程师
分享主题:MindSpore简介以及与TVM的联动
内容摘要:MindSpore是一套最佳匹配昇腾AI处理器算力,可用于端边云全场景的开源深度学习框架。本次分享我将为您介绍MindSpore的大体框架,及其在WASM领域与TVM项目的联动方案,最后我准备了一个Demo用于展示该方案的成果。
嘉宾简介:王辉是一名来自华为的开源工程师,在过去的四年里专注于新领域(人工智能、芯片、云)和开源技术研究。目前负责新型计算运行时(例如WebAssembly技术)研究和MindSpore AI框架的开源社区运营。在此之前,他作为OpenSDS Hotpot项目的PTL与OpenSDS团队一起工作,同时也是OpenStack、OPNFV和Open Service Broker API等社区的积极贡献者。
郭跃超
腾讯 | 应用研究员
分享主题:Angel深度学习在广告推荐训练系统中的实践
内容摘要:Angel是腾讯开源的分布式深度学习框架,支持数据并行、模型并行等多种大规模机器学习模型的训练和加速。本次演讲将介绍Angel深度学习在广告推荐中的应用实践,解决广告推荐CV、用户行为等特征模型训练时的多机多卡扩展等加速问题,以及取得的实践成果。
嘉宾简介:郭跃超毕业于北京大学,主要研究方向是异构加速计算,分布式系统的设计开发和优化,语音/NLP等领域的算法优化等。目前在腾讯主要负责Angel平台的深度学习方面的新技术研究,开发和业务场景的落地应用。
吴志华
百度 | 资深研发工程师
分享主题:飞桨框架和分布式训练技术及其应用
内容摘要:飞桨是源于产业实践的开源深度学习平台。本次分享主要介绍飞桨的核心框架、基础模型库、工具组件。并针对分布式训练模块展开详细介绍,带大家深入了解飞桨超大规模深度学习模型训练技术,以及在信息流、广告、搜索等业务场景上的应用。
嘉宾简介:百度飞桨资深研发工程师,主要负责飞桨分布式参数服务器架构、PaddleRec推荐算法库及其在信息流、广告、搜索等业务上的应用。
李晓森
腾讯 | 高级研究员
分享主题:Angel图计算技术与实践
内容摘要:万物互连构成了复杂的网络世界,同时也积累了丰富的图数据,并蕴藏着极大的价值;本次分享将介绍Angel是如何解决图计算中的三驾马车问题——传统图算法/图表示学习/图神经网络,最终助力内部QQ、支付、音乐、安全等业务提升效果。
嘉宾简介:李晓森 ( hansenli ),硕士毕业于北京大学,腾讯大数据高级研究员,腾讯图计算开源协同项目Owner & PMC,参与Angel图计算项目,专注于图计算在金融支付、安全风控、广告推荐、知识图谱等多个场景的落地。
出品人:许静芳 博士
搜狗副总裁,搜狗搜索事业部负责人,搜狗搜索首席科学家
曾负责搜狗网页搜索、微信搜索、英文搜索、搜狗翻译等多个产品线的整体研发工作,在AI领域推出多个首发产品。在ACL/IJCAI/SIGIR/AAAI/EMNLP等会议中发表多篇学术论文。
刘林
京东 | 搜索算法总监
分享主题:深度学习在京东电商搜索中的应用实践
内容摘要:本次分享主要介绍深度学习技术在京东电商搜索实际业务场景中的应用,以及随着电商业务的发展搜索算法面临的挑战和应对方案,具体会从检索和排序几个方面结合具体案例详细探讨。
嘉宾简介:刘林,资深搜索算法专家,目前就职于京东搜索与推荐平台部,担任搜索算法总监。14年加入京东以来一直从事电商搜索相关领域的研究应用和实践开发工作,对搜索系统和算法在电商行业的演进和发展有丰富的实战经验。
分享主题:语义计算在搜狗搜索全链路应用实践
内容摘要:传统的搜索引擎基于关键字检索,随着语义计算技术的发展,搜索引擎在此基础上大量采用了语义计算技术,解决用户表达和内容表达的语义鸿沟。本报告将介绍搜狗搜索在召回,粗排,精排,首条问答等关键路径全面应用语义计算技术的实践经验。
嘉宾简介:陈炜鹏,搜狗搜索研发高级总监,负责搜狗搜索、推荐技术研发。在信息检索,自然语言处理,推荐系统有多年研发经验。
刘知远 博士
清华大学 | 副教授、博士生导师
分享主题:知识指导的神经网络信息检索
内容摘要:信息检索是互联网时代人们获取信息的主要方式,相关技术在智能问答、对话系统、推荐系统等任务中扮演着重要角色。在信息检索中,词语间的相似度匹配对于衡量问题和文档之间的相关性有着重要作用。由于互联网文本信息蕴含大量的人类知识,仅依赖字面意思的匹配已经无法满足人们获取信息的需求。这里,我们面向神经网络信息检索的最新技术方案,探索了如何更好地引入结构化知识,通过引入外部知识和弱监督训练信号,提升文本语义匹配的能力,提升神经网络信息检索的效果。
嘉宾简介:刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文80余篇,Google Scholar统计引用超过9000次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单(MIT TR-35 China)、智源青年科学家、中国科协青年人才托举工程、中国计算机学会青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书长,SCI期刊Frontiers of Computer Science青年编委,ACL、EMNLP、COLING、IJCNLP领域主席。
宋睿华 博士
微软(亚洲)互联网工程院 | 首席科学家
分享主题:用搜索做好玩儿的对话
内容摘要:搜索是当今商用对话系统的基础。在这个报告里,我将重点介绍,如何在搜索对话系统中做基于上下文的情绪预测,如何利用预先设定的情节来控制对话,以及如何利用搜索创造比喻增加对话的惊喜。
嘉宾简介:宋睿华博士,2003年加入微软亚洲研究院,从事信息检索与挖掘,推荐和文本生成的研究。她提出的网页分块及重要性预测获得国际万维网会议WWW 2004的最佳论文提名。她提出的从不同网站抽取主体内容的通用方法,是微软浏览器IE 11之后的悦读功能的核心。2017年5月,湛庐文化出版了人类史上第一本人工智能诗集《阳光失了玻璃窗》,其中所有的诗歌正是由她主导研发的算法生成。随后她加入微软(亚洲)互联网工程院的微软小冰团队,任首席科学家。她近期的研究兴趣包括人工智能创造、塑造人工智能的内在、以及自然语言的多模态理解和表达。宋睿华博士也是具有国际影响力的科学家。她是多个国际一流会议(SIGIR, CIKM, EMNLP等)的领域主席、资深评审和评审,国际期刊(如Information Retrieval Jounal)的编委。2021年她将担任SIGIR短文的主席。
出品人:任少斌
美团 | 研究员
分享主题:数据治理的根基:数据建模及其与服务层的连接
内容摘要:主要介绍数据治理领域中最为核心的数据建模技术,以及数据模型服务化的建设方案。
嘉宾简介:14年IT从业者,曾在阿里、腾讯、百度等公司从事数据技术研发和管理工作,目前任职美团研究员,深耕于大数据治理及分析应用技术领域。
梁栋
字节跳动 | 数据研发 Leader
分享主题:字节跳动的EB级数据治理实践分享
内容摘要:
1. 字节跳动在高速发展的背景下离线业务碰到的问题及痛点
2. 团队面对问题及痛点时为什么选择做数据治理
3. 数据治理如何在字节从无到有
4. 详细介绍字节的数据治理中较为成熟的存储治理的1年期实践
嘉宾简介:现就职于字节跳动数据平台,负责多条业务线的数仓架构,同时也是字节的数据治理发起人之一。
翟东波
搜狐媒体 | 资深开发工程师
分享主题:搜狐智能媒体在数据仓库体系建设中的技术实践
内容摘要:介绍数据仓库体系建设过程中,需要解决的主要问题和需求,以及搜狐智能媒体的数据团队在解决这些问题和需求时采用的相关技术实践活动。
嘉宾简介:2018年5月加入搜狐智能媒体研发中心,负责数据基础系统的研发工作,提升部门数据研发工作效率。10多年的软件开发工作经验,曾先后供职于中兴、百度、优酷、阿里大文娱、偶数等公司,从事过网络通讯协议、分布式OLAP/OLTP数据库、数据处理任务调度系统等产品的研发工作,专注于分布式系统和大数据等技术领域。
布鸪
阿里文娱 | 技术专家
分享主题:阿里文娱数据服务平台的进阶之路
内容摘要:近些年,随着双11、618等各种营销活动的常态化,传统的离线数据分析已无法满足强实时性的数据分析需求,且各业务都迫切需要数据驱动增长,这就对数据平台提出了更灵活、高效稳定、低成本的要求。本次分享将介绍阿里巴巴文娱数据平台的前生今世,包括实时计算、预计算数据立方体、数据平台的架构设计以及实践中的思路和趟过的坑,希望对大家有所启发。
嘉宾简介:来自阿里文娱数据工程团队,主要从事数据平台工程、数据分析方面工作。
余谦
美图 | 资深数据专家
分享主题:海量用户下美图大数据服务优化实践
内容摘要:随着美图业务的快速扩张,传统的通过加机器来保障算力的方式已经无法满足业务以及成本的需求。海量用户将给大数据服务带来哪些挑战?如何在提升大数据基础设施算力的同时提升稳定性?本次分享将围绕大数据平台、服务重构、引擎优化升级这三个方面分享美图大数据服务优化实践。
大纲:
介绍美图通过平台化实现数据集成、计算(离线、实时)、可视化、监控等功能 于一体的大数据开放平台
对开源组件如何进行二次改造实现基础设施特性增强、提升稳定性的效果
介绍美图引擎-3.0,如何实现集群、引擎、参数自动优选
嘉宾简介:曾任职百度,负责海量数据下的多维度数据应用,具有8年的大数据从业经验。2018年初加入美图,负责美图集群算力的提升、架构优化,现阶段主要致力于美图计算引擎-3.0的研发。当前主要负责美图计算引擎-3.0的研发。在美图期间,在集群算力提升与架构方面做了较多优化,为公司节约了数千万成本。
广告算法:
丁宗尧
百度凤巢 | 副总监
08年加入百度,一直负责百度商业产品的技术研发和管理。
周国睿
阿里妈妈 | 高级算法专家
分享主题:Rethinking Rank:下一代排序技术体系
嘉宾简介:周国睿,北京邮电大学硕士。研究领域包括大规模机器学习、自然语言处理、计算广告、推荐系统等。现负责定向广告预估方向模型算法研发,同时是阿里巴巴自研深度学习框架XDL核心开发者。研究成果发表于KDD/AAAI/CIKM等会议,其研究工作均落地于实际系统。
刘斌
360 | 资深算法工程师
分享主题:效果优化系统在360展示广告的演进
内容摘要:360展示广告平台始终关注广告投放效果,围绕广告后续优化问题先后开发了多款产品。本议题主要介绍了效果优化系统随业务发展的演进过程,聚焦如何使用算法解决客户痛点,实现广告投放智能化。
嘉宾简介:本科毕业于上海交通大学,研究生毕业于纽约州立大学。2014年作为算法工程师入职360。2015~2017年负责展示广告商品库和人群库系统。2018~2020年专注广告效果优化,作为项目主要负责人先后开发了预算分配系统和oCPC系统。
李勇保
快手 | 商业算法策略负责人
分享主题:短视频场景下的信息流广告投放技术
嘉宾简介:李勇保,快手商业算法策略负责人,毕业于中科院自动化研究所。2016年加入快手,从0到1搭建快手商业变现算法体系,全面负责信息流广告、联盟广告、作品推广、电商广告以及直播推广等多条核心产品线的算法策略。短短三年带领团队通过AI高速提升商业变现效率,创造数百亿商业价值,是快手商业流量分发和生态建设的中坚力量。主要研究方向为机器学习、计算广告、数据挖掘等领域,致力于通过人工智能提升商业变现效率。
刘鹄
京东 | 算法工程师
分享主题:视觉信息助力电商广告排序
内容摘要:演讲将介绍我们在京东搜索广告落地,并于KDD2020发表的一篇工作《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》。一方面,我们将介绍在工业场景下使用CNN将图像加入CTR模型联合建模的方法;另一方面,我们指出传统用于分类任务的CNN并不适合电商场景。将电商场景中丰富的、具有强视觉先验的“商品类目标注”作为CNN输入的一部分,将有效降低CNN训练的难度,提升排序效果。
嘉宾简介:刘鹄,清华大学自动化系硕士。目前就职于京东,搜索广告排序模型方向负责人。工作曾在CVPR,NIPS,KDD等顶级会议发表。
出品人:王昊奋 博士
同济大学百人计划,特聘研究员
中文知识图谱zhishi.me创始人、OpenKG发起人之一、CCF理事、CCF术语审定工委主任、CCF TF执委、中文信息学会语言与知识计算委员会副秘书长,共发表80余篇高水平论文,在知识图谱、问答系统和聊天机器人等诸多领域有丰富的研发经验。其带队构建的语义搜索系统在Billion Triple Challenge中荣获全球第2名;在著名的本体匹配竞赛OAEI的实体匹配任务中斩获得全球第1名。曾主持并参与多项国家自然科学基金、863重大专项和国家科技支撑项目,以学术负责人身份参与Paypal、Google、Intel、IBM、百度等企业的合作项目。
郑烨翰
百度 | 资深研发工程师
分享主题:知识图谱在智能创作中的应用
内容摘要:融媒体是自上而下的趋势,对于急需转型的传统媒体,基于知识图谱的技术和数据,赋能媒体行业,为内容创作降本增效。内容包括主题图谱构建(主题挖掘、主题属性构建、主题关系抽取)、智能创作平台、行业应用实践等内容。
嘉宾简介:从事知识图谱技术应用研发多年,产品涉及C端推荐、B端媒体行业落地,基于知识图谱为内容创作行业赋能,构建基于内容创作的主题图谱,打造了基于自动、辅助创作的智能创作开放平台,落地多家标杆媒体。
分享主题:助力新基建——基于知识图谱构建新一代数据智能基础设施
内容摘要:人工智能作为国家新基建战略的重点建设项目,是新一轮产业变革的核心驱动力量。当前人工智能正由感知智能走向认知智能,而知识图谱是实现认知智能的基石。知识图谱作为是大数据时代的知识工程集大成者,以其强大的语义表示能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。本次分享将探讨如何基于知识图谱构建新一代数据智能基础设施,实现海量多模态数据的深度语义化治理,具体内容包括:
使用知识图谱强大的语义表示能力对多模态数据和知识的统一建模与表示,实现面向业务的元数据及知识的统一建模管理;
在传统大数据治理的基础上,进一步从非结构化、半结构化数据中提取得到结构化的知识(实体、属性、关系和事件等),并从语义层面进行深度关联与融合;
构建以图数据库为核心的多态存储引擎,在实现大规模关联数据高效存取的同时实现多模态数据与知识的高效存储与利用。
此外,还将以金融大数据中的企业数据应用场景为例进行实践分享,构建金融企业知识图谱,并在此基础上建设企业全息检索、智能问答和异常关联挖掘等智能应用场景。
嘉宾简介:华东理工大学自然语言处理实验室博士。10年知识图谱研究及产业化经验,多个国家级项目骨干成员,ISWC、CCKS2017等国际会议、顶级期刊发表多篇论文,多次受邀参与行业顶级交流报告包括大规模存储实战解析、大规模知识图谱应用、CCKS2017知识图谱实战报告等。知识图谱全生命周期理论提出者。北理工大数据学习中心顾问。曾发布基于三大百科数据的SSCO和Zhishi.me通用知识图谱;首次提出了行业知识图谱的生命周期并逐步成为业界的标准。参编《2018知识图谱发展报告》、《知识图谱方法、实践与应用》等标准与著作。2020年3月新冠疫情中,指导团队基于AutoDI企业数据智能中台提供《基于知识图谱的智能疫情监测服务平台》,入选中国电子技术标准化研究院发布《知识图谱助力疫情防控和复工复产案例集》,同时参与《信息技术 人工智能 知识图谱技术框架》国家标准编制制定。
陈立玮 博士
腾讯 | 高级研究员
分享主题:知识图谱补全技术分享
内容摘要:当前知识图谱已经被广泛应用在自然语言处理的各项任务中,但知识图谱中实体间关系的缺失也给其实际的应用带来了很多问题。因此,目前学术界围绕知识图谱的补全进行了大量的研究工作。本次演讲主要对知识图谱补全相关的研究进展进行了归纳与分享。
嘉宾简介:北京大学自然语言处理方向博士,博士期间主要研究方向为信息抽取和自动化知识库构建。毕业后在入职百度,负责面向智能客服的自然语言对话解析算法设计与开发。入职腾讯后主要负责腾讯看点底层的兴趣点图谱建设及图文理解技术研发。
杜振东
南京云问网络科技有限公司 | NLP研究院负责人
分享主题:面向垂直领域的OpenIE图谱构建技术算法解析
内容摘要:OpenIE ( 开放领域信息抽取,全称Open Information Extraction ) 一直是NLP领域中较为热门的方向。由于其在应用过程中对业务数据依赖偏少,往往作为非结构化文本构建知识图谱的重要手段之一。在过去十年内,OpenIE相关算法取得优异效果,其主流方法是运用NER与句法分析相关算法。然而,OpenIE的瓶颈也同样十分明显,无论是模型对于领域数据敏感度过高,还是整体算法相较CloseIE(封闭域信息抽取)精度下降过大,都导致其在图谱构建上并未发挥出其最大价值。伴随着深度学习相关算法研究的逐步增温,以及Bert模型在多项任务的优异表现,使得OpenIE的相关技术突破成为可能。本次将重点讨论如何运用深度学习模型完成对于OpenIE任务的优化,新算法在新闻、规范类文档、对话数据上整体精度可以达到75%左右,其精度远高于原有算法。本次还将分享OpenIE任务如何在知识图谱相关项目落地的实现路径,并讨论现有知识图谱构建相关方案的利弊分析。
嘉宾简介:云问科技NLP研究院负责人,拥有8年机器学习与文本挖掘相关技术经验,6年中文自然语言处理相关项目实战经验,擅长pytorch、tensorflow等主流深度学习框架,擅长运用NLP前沿技术解决真实项目。在意图识别、新闻推荐、多轮人机交互领域有数年实战经验。参与百万级用户金融资讯新闻推荐项目,作为算法主要负责人及整体框架设计者,主导全新智能新闻推荐系统的落地,并优化线上推荐算法,整体线上相较原有系统精度提高10%。主要设计面向任务驱动的多轮对话引擎,主导参与搭建NLP底层能力平台,为企业提供底层能力的服务输出。参与多家企业问答机器人系统、知识图谱系统搭建,针对集团型知识管理与问答效果优化有丰富实战经验。参与制定国家人工智能标准化总体组《人工智能标准化与开源研究报告》、《人工智能-术语》、《人工智能-情感计算用户界面框架》;参与制定中国电子工业标准化技术协会《信息技术 人工智能 智能助理智能能力等级评估》;编写书籍《人工智能实践录》与《江苏省新兴产业战略丛书-人工智能分册》;入选国家标准委人工智能专家及AIIA人工智能技术专家。
王贺青
贝壳找房 | 资深知识图谱研发工程师
分享主题:知识图谱技术在贝壳房产领域的应用和演进
内容摘要:近几年,知识图谱已成为人工智能应用及服务的基础核心技术,赋能各种智能agent实现精准查询、深度理解与逻辑推理等能力。图谱技术也从通用领域迁移到垂直领域,并在产业互联网中得到很好的落地应用,帮助产业互联网升级改造。本次分享我们将重点介绍如何将知识图谱迁移应用到房产领域:如何构建一个房产行业图谱、知识图谱技术如何助力房产智能应用的落地,以及知识图谱在行业应用中的一点思考。
嘉宾简介:贝壳找房资深知识图谱研发工程师,2015年毕业于哈尔滨工业大学,曾在搜狗从事任务式对话、通用知识图谱构建、及基于知识图谱的精准问答研发工作,2018年加入贝壳,主要负责房产知识图谱构建、KBQA、及房产领域事理图谱研发工作;曾在DataFun社区分享过《知识图谱在贝壳找房的从0到1实践》。
出品人:喻宏勇
腾讯看点推荐研发总监 | 腾讯14级专家
工作10多年,主要在推荐、搜索、数据挖掘等领域研发以提升产品体验。
丁卓冶 博士
京东 | 推荐算法负责人
分享主题:京东推荐算法的探索与实践
内容摘要:本分享主要介绍京东推荐算法的一些探索和实践,主要包括精准用户画像构建、推荐召回、推荐排序等关键技术,其中包括一些创新技术,也包括在业务中的落地实践。
嘉宾简介:京东推荐算法负责人。前雅虎实验室研究员,多年推荐、广告算法的相关经验。博士毕业于复旦大学。多项工作发表于KDD、Sigir、IJCAI、WSDM等顶级会议。
谢晓辉 博士
Hulu | Principal research lead
分享主题:推荐系统中冷启动问题探索与实践
内容摘要:受限于训练数据不足,如何做好内容/用户/模型的冷启动是一个推荐系统中非常值得研究和探讨的课题。
嘉宾简介:Hulu北京首席研究主管。具有近20年算法研发创新和管理经验。专注于模式识别、多媒体信息处理、推荐模型与用户理解等多个算法研究领域,对人工智能、人机交互、推荐等相关领域的研究以及成果落地和产品化有丰富经验,拥有100+相关专利,学术论文近20篇。本科毕业于西安交通大学实验班,北京邮电大学取得模式识别领域博士学位。曾先后就职于松下电器研发中心、诺基亚北京研究院、联想核心技术研究室等部门。
章莺
网易云音乐 | 资深算法工程师
分享主题:音乐推荐中用户行为序列深度建模
内容摘要:云音乐推荐系统致力于通过AI算法的落地,实现千人千面的个性化音乐推荐系统;本次分享重点介绍推荐系统在云音乐的落地实践,以及在音乐推荐系统中遇到的挑战和解决方案。
嘉宾简介:毕业于浙江大学数学系,目前就职于网易云音乐,担任资深推荐算法工程师,主要负责音乐推荐系统相关算法工作,在召回、排序、歌曲分发上有丰富的经验。率先在云音乐实践百亿级别实时推荐模型,并在多目标训练和序列行为数据上有深入的研究。
潘建
小米 | 高级软件工程师
分享主题:手机厂商怎么做信息流推荐
内容摘要:小米信息流推荐技术简介,从用户画像、资源召回、排序模型、多目标融合模型、资源混排模型全景介绍小米信息流推荐技术。
嘉宾简介:毕业于北京科技大学,现任高级软件工程师,负责小米信息流推荐策略。曾就职于百度,深度参与百度信息流建设。熟悉信息流用户画像、召回策略、排序策略、多目标融合等技术方向。
申恩兆
新浪微博 | 算法工程师
分享主题:微博推荐算法实践与ML平台演进
内容摘要:微博推荐算法实践与ML平台演进,微博作为全球领先的中文广场社交平台,拥有海量用户与数据。如何从海量数据中挖掘出有价值的信息,来为业务赋能,微博都用了哪些推荐算法,分别作了什么事情,踩过哪些坑,现在分别如何解决的。以及在长时间的改进与积累过程中,微博技术架构是如何演进的,当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。
05
06