报告主题:Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join
报告摘要:字符串数据无处不在,字符串相似性搜索和连接对于信息检索,数据集成,数据清理以及大数据分析的应用至关重要。为了支持这些操作,数据库和机器学习领域中的许多技术已独立提出。更确切地说,在数据库研究领域,存在基于过滤和验证框架的技术,这些技术不仅可以实现高性能,而且还可以为给定的相似度函数提供保证的结果质量。在机器学习研究领域中,字符串相似性处理被建模为识别相似文本记录的问题。具体来说,深度学习方法使用将文本映射到低维连续向量空间的嵌入技术。 在本教程中,我们回顾了大量关于字符串相似性搜索的研究,并加入了这两个研究领域。我们将每个领域的研究划分为不同的类别。对于每个类别,我们都会对相关作品进行全面审查,并介绍这些解决方案的详细信息。在结束本教程时,我们将为未来的工作指明可行的方向,以结合这两个领域的技术。
邀请嘉宾: Lin Chunbin是Amazon Web Services(AWS)的软件工程师,正在研究AWS Redshift。 于2018年在加利福尼亚大学圣地亚哥分校(UCSD)获得计算机科学博士学位。研究兴趣是数据库管理和大数据管理。 他在SIGMOD,VLDB,VLDB J和TODS等上发表了20多篇期刊和会议论文。
陆嘉恒,芬兰赫尔辛基大学的副教授。 他的主要研究兴趣在于大数据管理和数据库系统,尤其是对来自现实生活中的高效数据处理,海量数据存储库和Web的挑战。 他撰写了四本有关Hadoop和NoSQL数据库的书,并在SIGMOD,VLDB,TODS和TKDE等上发表了70多篇期刊和会议论文。
Jin Wang是美国加州大学洛杉矶分校的四年级博士生。 在加入UCLA之前,他于2015年获得清华大学计算机科学硕士学位。他的研究兴趣主要在于数据管理和文本分析领域。 他在顶级会议和期刊(如ICDE,IJCAI,EDBT,TKDE和VLDB Journal)上发表了10多篇论文。
Chen Li,博士,加州大学欧文分校计算机科学系的教授。 拥有斯坦福大学计算机科学学位。 他的研究兴趣是数据管理领域,包括数据密集型计算,查询处理和优化,可视化以及文本分析。