报告主题:Syn­ergy of Data­base Tech­niques and Ma­chine Learn­ing Mod­els for String Sim­il­ar­ity Search and Join

报告摘要:字符串数据无处不在,字符串相似性搜索和连接对于信息检索,数据集成,数据清理以及大数据分析的应用至关重要。为了支持这些操作,数据库和机器学习领域中的许多技术已独立提出。更确切地说,在数据库研究领域,存在基于过滤和验证框架的技术,这些技术不仅可以实现高性能,而且还可以为给定的相似度函数提供保证的结果质量。在机器学习研究领域中,字符串相似性处理被建模为识别相似文本记录的问题。具体来说,深度学习方法使用将文本映射到低维连续向量空间的嵌入技术。 在本教程中,我们回顾了大量关于字符串相似性搜索的研究,并加入了这两个研究领域。我们将每个领域的研究划分为不同的类别。对于每个类别,我们都会对相关作品进行全面审查,并介绍这些解决方案的详细信息。在结束本教程时,我们将为未来的工作指明可行的方向,以结合这两个领域的技术。

邀请嘉宾: Lin Chunbin是Amazon Web Services(AWS)的软件工程师,正在研究AWS Redshift。 于2018年在加利福尼亚大学圣地亚哥分校(UCSD)获得计算机科学博士学位。研究兴趣是数据库管理和大数据管理。 他在SIGMOD,VLDB,VLDB J和TODS等上发表了20多篇期刊和会议论文。

陆嘉恒,芬兰赫尔辛基大学的副教授。 他的主要研究兴趣在于大数据管理和数据库系统,尤其是对来自现实生活中的高效数据处理,海量数据存储库和Web的挑战。 他撰写了四本有关Hadoop和NoSQL数据库的书,并在SIGMOD,VLDB,TODS和TKDE等上发表了70多篇期刊和会议论文。

Jin Wang是美国加州大学洛杉矶分校的四年级博士生。 在加入UCLA之前,他于2015年获得清华大学计算机科学硕士学位。他的研究兴趣主要在于数据管理和文本分析领域。 他在顶级会议和期刊(如ICDE,IJCAI,EDBT,TKDE和VLDB Journal)上发表了10多篇论文。

Chen Li,博士,加州大学欧文分校计算机科学系的教授。 拥有斯坦福大学计算机科学学位。 他的研究兴趣是数据管理领域,包括数据密集型计算,查询处理和优化,可视化以及文本分析。

成为VIP会员查看完整内容
8

相关内容

CNCC技术论坛丨新型持久内存系统与安全
中国计算机学会
7+阅读 · 2019年9月15日
推荐系统资源(文献、工具、框架)整理
专知
17+阅读 · 2019年2月4日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Deep Learning for Energy Markets
Arxiv
8+阅读 · 2019年4月10日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
11+阅读 · 2018年1月11日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
相关论文
Deep Learning for Energy Markets
Arxiv
8+阅读 · 2019年4月10日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
11+阅读 · 2018年1月11日
Arxiv
3+阅读 · 2012年11月20日
微信扫码咨询专知VIP会员