现实世界的大数据以自然语言文本的形式,在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识,这可能是不可扩展的,特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为,大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库,我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集,可以有效地提取和使用结构化的知识。在这次演讲中,我们介绍了一组最近开发的用于这种探索的方法,包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明,数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。