从数据中发现知识的ACM汇刊TKDD(ACM Transactions on Knowledge Discovery from Data)收录了关于知识发现和各种数据分析的全面研究的论文。官网地址:http://dblp.uni-trier.de/db/journals/tkdd/

VIP内容

题目: TextCube: Automated Construction and Multidimensional Exploration

简介: 当今社会沉浸在大量文本数据中,从新闻文章到社交媒体,研究文献,病历和公司报告。数据科学和工程学的一大挑战是开发有效且可扩展的方法,以从海量文本数据中提取结构和知识,以满足各种应用的需要,而无需广泛的人工注释。在本教程中,我们将展示TextCube提供了一种可以满足此类信息需求的关键信息组织结构。我们概述了一组最近开发的数据驱动方法,这些方法可帮助从大规模的特定于领域的文本语料库自动构建TextCube,并表明如此构建的TextCube将增强各种应用程序的文本探索和分析。我们专注于可扩展,弱监督,独立于域,与语言无关且有效的新TextCube构建方法(即从各种领域的大型语料库生成高质量的TextCube)。我们将用真实的数据集演示如何构造TextCube来协助对大量文本语料库进行多维分析。

嘉宾介绍: 韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利诺伊州香槟分校博士。 他的研究专注于以最少的人力从大量文本语料库中挖掘和构建结构化知识。 他的研究获得了多个著名奖项的认可,包括Yelp数据集挑战赛的大奖(2015年),Google博士在结构化数据和数据库管理领域的奖学金(2017-2019年)。

成为VIP会员查看完整内容
0
21

最新论文

We present the mathematical analysis of the Isolation Random Forest Method (IRF Method) for anomaly detection, introduced in {\sc F.~T. Liu, K.~M. Ting, Z.-H. Zhou:}, {\it Isolation-based anomaly detection}, TKDD 6 (2012) 3:1--3:39. We prove that the IRF space can be endowed with a probability induced by the Isolation Tree algorithm (iTree). In this setting, the convergence of the IRF method is proved, using the Law of Large Numbers. A couple of counterexamples are presented to show that the method is inconclusive and no certificate of quality can be given, when using it as a means to detect anomalies. Hence, a more robust version of the method is proposed whose mathematical foundation is fully justified. Finally, numerical experiments are presented to compare the performance of the classic method with the proposed one.

0
0
下载
预览
Top