题目: TextCube: Automated Construction and Multidimensional Exploration
简介: 当今社会沉浸在大量文本数据中,从新闻文章到社交媒体,研究文献,病历和公司报告。数据科学和工程学的一大挑战是开发有效且可扩展的方法,以从海量文本数据中提取结构和知识,以满足各种应用的需要,而无需广泛的人工注释。在本教程中,我们将展示TextCube提供了一种可以满足此类信息需求的关键信息组织结构。我们概述了一组最近开发的数据驱动方法,这些方法可帮助从大规模的特定于领域的文本语料库自动构建TextCube,并表明如此构建的TextCube将增强各种应用程序的文本探索和分析。我们专注于可扩展,弱监督,独立于域,与语言无关且有效的新TextCube构建方法(即从各种领域的大型语料库生成高质量的TextCube)。我们将用真实的数据集演示如何构造TextCube来协助对大量文本语料库进行多维分析。
嘉宾介绍: 韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/
Jingbo Shang, 伊利诺伊州香槟分校博士。 他的研究专注于以最少的人力从大量文本语料库中挖掘和构建结构化知识。 他的研究获得了多个著名奖项的认可,包括Yelp数据集挑战赛的大奖(2015年),Google博士在结构化数据和数据库管理领域的奖学金(2017-2019年)。