题目: TextCube: Automated Construction and Multidimensional Exploration

简介: 当今社会沉浸在大量文本数据中,从新闻文章到社交媒体,研究文献,病历和公司报告。数据科学和工程学的一大挑战是开发有效且可扩展的方法,以从海量文本数据中提取结构和知识,以满足各种应用的需要,而无需广泛的人工注释。在本教程中,我们将展示TextCube提供了一种可以满足此类信息需求的关键信息组织结构。我们概述了一组最近开发的数据驱动方法,这些方法可帮助从大规模的特定于领域的文本语料库自动构建TextCube,并表明如此构建的TextCube将增强各种应用程序的文本探索和分析。我们专注于可扩展,弱监督,独立于域,与语言无关且有效的新TextCube构建方法(即从各种领域的大型语料库生成高质量的TextCube)。我们将用真实的数据集演示如何构造TextCube来协助对大量文本语料库进行多维分析。

嘉宾介绍: 韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利诺伊州香槟分校博士。 他的研究专注于以最少的人力从大量文本语料库中挖掘和构建结构化知识。 他的研究获得了多个著名奖项的认可,包括Yelp数据集挑战赛的大奖(2015年),Google博士在结构化数据和数据库管理领域的奖学金(2017-2019年)。

成为VIP会员查看完整内容
26

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
推荐系统资源(文献、工具、框架)整理
专知
17+阅读 · 2019年2月4日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月23日
Arxiv
5+阅读 · 2018年1月17日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关VIP内容
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
微信扫码咨询专知VIP会员