讲座报名 | 数据挖掘专场来啦！

2021 年 11 月 3 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：AI Time论道 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        

     
     
       
    
    
      
    
    
      
     
     
       
      
      
        
       
       
          
            本文约1519字，建议阅读4分钟 
           
           本文介 
           绍 
           了 
           1 
           1月4日晚 7:30-9:00，百度高级算法工程师、北京邮电大学GAMMA Lab实验室硕士生、亚利桑那州立大学博士生，共同为大家带来的KDD专场四，欢迎观看直播。

11月4日 19:30~21:00

AI TIME特别邀请了百度高级算法工程师、北京邮电大学GAMMA Lab实验室硕士生、亚利桑那州立大学博士生，为大家带来KDD专场四！

哔哩哔哩直播通道

扫码关注AITIME哔哩哔哩官方账号

观看直播

链接：https://live.bilibili.com/21813994

★ 嘉宾介绍 ★

刘亦丁：

百度高级算法工程师。2020年于新加坡南洋理工大学获得博士学位，导师为丛高教授（https://personal.ntu.edu.sg/gaocong/）。在数据挖掘、数据库领域顶会KDD、SIGIR、WWW、ICDE、VLDB、WSDM等发表十余篇论文。

个人主页：https://liuyiding.net/。

报告题目：

预训练语言模型在百度

大规模召回阶段的应用

内容简介：

召回是网页搜索中的重要阶段，其功能在于从海量网页库中找到一个相对较小的相关候选集。其中，基于语义相关的召回有助于展现更多高质量的搜索结果给用户。但是，搭建和部署一个高效的语义召回模型，在搜索引擎业务中一直面临着诸多挑战。本文介绍了目前百度搜索中所使用的基于预训练语言模型的召回系统。此系统采用了百度自研的中文预训练语言ERNIE，通过应用基于多层Transformer的模型结构，以及多阶段的训练流程，赋予了召回系统强大的语义匹配能力。同时，本文还介绍了基于预训练的召回模型在整个召回系统中的工作流程。通过严谨的离线和线上实验验证，基于预训练语言模型的召回系统已全量部署在百度搜索业务中，提升了百度搜索的整体效果。

刘念：

北京邮电大学GAMMA Lab实验室二年级硕士生，导师为石川教授。主要研究方向为，图神经网络、自监督学习等。目前已经在KDD、WWW等顶会，TKDD等期刊发表论文。

报告题目：

左右互搏：基于协同对比学习的

自监督异质图神经网络

内容简介：

大部分的异质图神经网络（HGNNs）都遵循半监督学习的设定，然而实际应用中标签信息往往很难获得。而自监督学习由于能够自发地从数据本身挖掘监督信号，已经成为无监督设定下很好的选择。作为一种典型的自监督机制，对比学习（contrastive learning）通过从数据中抽取出正负样本，同时最大化正例间的相似度以及最小化负例间相似度，能够学到判别性的表示。尽管对比学习在CV和NLP领域得到了广泛应用，如何将它和HIN结合却尚未解决。在本篇文章中，我们提出了一个新的基于协同对比学习的异质图神经网络框架，简称HeCo。HeCo采用跨视图的对比机制，选择网络模式和元路径作为两个视图，结合视图掩盖机制，分别学得两个视图下的节点表示。之后，利用跨视图对比学习，使得两个视图协同监督。此外，我们还提出两个HeCo扩展，通过生成更高质量的负例，提升最终效果。

程璐：

亚利桑那州立大学五年级博士生，导师为刘欢教授。主要研究方向为负责任人工智能，社会媒体挖掘，因果学习等。目前已在KDD，WSDM，AAAI，IJCAI，JAIR等顶级数据挖掘和人工智能会议与期刊发表多篇论文。

报告题目：

社交媒体假新闻传播的因果理解

内容简介：

近年来，计算假新闻检测取得了显著进展。为了减轻其负面影响，我们认为，了解哪些用户属性可能导致用户分享假新闻至关重要。这个因果推理问题的关键是识别混杂因素——导致治疗(如用户属性)和结果(如用户易感性)之间虚假关联的变量。在假新闻传播中，混淆者可以被描述为与用户属性和在线活动内在相关的假新闻分享行为。对于那些容易在社交媒体上分享新闻的用户来说，学习这种用户行为通常会受到选择偏差的影响。基于因果推理理论，我们首先提出了一种原理性的方法来缓解假新闻传播中的选择偏差。然后，我们将习得的无偏见假新闻分享行为视为可以充分捕捉用户属性和用户易感性之间的因果关系的替代混淆物。我们从理论上和实证上描述了该方法的有效性，并发现它可能有助于保护社会免受假新闻的危害。

—— END ——