【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

数据整理 · 陆嘉恒 · Chunbin Lin · Jin Wang · 机器学习 ·

2019 年 11 月 3 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

报告主题：Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join

报告摘要：字符串数据无处不在，字符串相似性搜索和连接对于信息检索，数据集成，数据清理以及大数据分析的应用至关重要。为了支持这些操作，数据库和机器学习领域中的许多技术已独立提出。更确切地说，在数据库研究领域，存在基于过滤和验证框架的技术，这些技术不仅可以实现高性能，而且还可以为给定的相似度函数提供保证的结果质量。在机器学习研究领域中，字符串相似性处理被建模为识别相似文本记录的问题。具体来说，深度学习方法使用将文本映射到低维连续向量空间的嵌入技术。在本教程中，我们回顾了大量关于字符串相似性搜索的研究，并加入了这两个研究领域。我们将每个领域的研究划分为不同的类别。对于每个类别，我们都会对相关作品进行全面审查，并介绍这些解决方案的详细信息。在结束本教程时，我们将为未来的工作指明可行的方向，以结合这两个领域的技术。

邀请嘉宾： Lin Chunbin是Amazon Web Services（AWS）的软件工程师，正在研究AWS Redshift。于2018年在加利福尼亚大学圣地亚哥分校（UCSD）获得计算机科学博士学位。研究兴趣是数据库管理和大数据管理。他在SIGMOD，VLDB，VLDB J和TODS等上发表了20多篇期刊和会议论文。

陆嘉恒，芬兰赫尔辛基大学的副教授。他的主要研究兴趣在于大数据管理和数据库系统，尤其是对来自现实生活中的高效数据处理，海量数据存储库和Web的挑战。他撰写了四本有关Hadoop和NoSQL数据库的书，并在SIGMOD，VLDB，TODS和TKDE等上发表了70多篇期刊和会议论文。

Jin Wang是美国加州大学洛杉矶分校的四年级博士生。在加入UCLA之前，他于2015年获得清华大学计算机科学硕士学位。他的研究兴趣主要在于数据管理和文本分析领域。他在顶级会议和期刊（如ICDE，IJCAI，EDBT，TKDE和VLDB Journal）上发表了10多篇论文。

Chen Li，博士，加州大学欧文分校计算机科学系的教授。拥有斯坦福大学计算机科学学位。他的研究兴趣是数据管理领域，包括数据密集型计算，查询处理和优化，可视化以及文本分析。

成为VIP会员查看完整内容