项目名称: 本体导向的大规模语义信息声明式抽取方法研究

项目编号: No.61272110

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 李旭晖

作者单位: 武汉大学

项目金额: 80万元

中文摘要: 大规模数据的语义信息抽取是构建各类语义信息服务的基础。利用以声明式查询为代表的数据管理方法实现信息抽取则是当前相关领域的前沿研究课题。然而现有研究缺乏合适的语义数据模型作为支撑,导致抽取过程中语义信息处理与语义数据结构割裂,阻碍了数据管理方法与信息抽取技术的深度融合,不利于实现大规模信息抽取任务。为此,本项目将设计面向信息抽取的语义数据模型,以合理一致的形式反映数据语义在抽取过程中呈现的多层次、多刻面、多义等特征;利用能归纳数据特征的抽取模式设计声明式查询语言以表现抽取需求,并研究相应的适于语义信息抽取的处理代数和优化方法;通过本体概念映射和重要度分析设计信息抽取策略,实现本体导向的大规模语义信息的半自动抽取。该研究能从语义演化角度体现抽取特点,通过数据特征归纳刻画抽取需求,基于查询处理实现抽取计算,利用本体信息驱动抽取任务,构建实用系统验证抽取方法,具有较强的理论价值与广阔的应用前景。

中文关键词: 语义数据建模;信息抽取;查询语言;查询优化;主题模型

英文摘要: Extracting semantic information from large-scale unstructured data plays a fundamental role in building various kinds of semantic information services. To carry out extraction tasks through typical methods in data management, such as declarative query, is the new trend in related fields. However, current studies often lack an appropriate semantic data model as the basis of data query. This lack leads to the gap between semantic information processing and semantic data structure during extraction, hampers the mergence of the data management and the information extraction methods, and hinders the efficient solutions to large-scale information extraction. In this proposal, we will design a semantic data model oriented to information extraction, which can depict the features of multi-layered, multi-faceted, and polysemous data semantics during information extraction. Based on the data model, we will deploy patterns representing data features to extract related data elements, and design a declarative query language based on the patterns to present information extraction tasks. And we will study the query processing algebra and optimization methods for the information extraction queries. Further, we will establish the ontology mapping mechanisms based on the language and propose an extraction policy based on analyzing

英文关键词: Semantic Data Modeling;Information Extraction;Query Language;Query Optimization;Topic Model

成为VIP会员查看完整内容
0

相关内容

顾及时空特征的地理知识图谱构建方法
专知会员服务
54+阅读 · 2022年2月15日
自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
开放领域知识图谱问答研究综述
专知会员服务
63+阅读 · 2021年10月30日
专知会员服务
80+阅读 · 2021年5月27日
专知会员服务
38+阅读 · 2020年12月14日
专知会员服务
197+阅读 · 2020年10月14日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
面向司法案件的案情知识图谱自动构建
专知会员服务
126+阅读 · 2020年4月17日
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
本体:一文读懂领域本体构建
AINLP
38+阅读 · 2019年2月27日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题
开放知识图谱
27+阅读 · 2018年5月17日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
SkiQL: A Unified Schema Query Language
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月16日
小贴士
相关VIP内容
顾及时空特征的地理知识图谱构建方法
专知会员服务
54+阅读 · 2022年2月15日
自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
开放领域知识图谱问答研究综述
专知会员服务
63+阅读 · 2021年10月30日
专知会员服务
80+阅读 · 2021年5月27日
专知会员服务
38+阅读 · 2020年12月14日
专知会员服务
197+阅读 · 2020年10月14日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
面向司法案件的案情知识图谱自动构建
专知会员服务
126+阅读 · 2020年4月17日
相关资讯
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
本体:一文读懂领域本体构建
AINLP
38+阅读 · 2019年2月27日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题
开放知识图谱
27+阅读 · 2018年5月17日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员