项目名称: 面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究

项目编号: No.61303007

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 丁艳辉

作者单位: 山东师范大学

项目金额: 23万元

中文摘要: 面对互联网上海量、异构、有价值数据的大量涌现,Web数据集成通过有效地整合多数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析型应用提供重要的数据支撑。半结构化数据是Web数据的重要组成部分,半结构化Web数据的抽取与整合是Web数据集成的重要环节,存在着许多困难和挑战。本项目拟在Web数据集成的背景下,对半结构化Web数据的抽取与整合问题进行深入研究。拟针对Web数据集成动态性的特点,研究半结构化Web数据自适应抽取技术,充分利用Web数据集成系统中已集成的数据以及Web数据元素间的长距离依赖关系,实现对同一领域内新数据源的适应性抽取;研究重复记录检测与冲突消解的结合处理技术,充分利用Web数据集成系统中已集成数据及领域知识的指导作用,以及重复记录检测与冲突消解间的相互促进作用,建立适应Web数据特点的重复记录检测与冲突消解结合处理方法,提高Web数据整合方法的准确性和适应性。

中文关键词: Web数据集成;半结构化Web数据;数据抽取;数据整合;

英文摘要: With the huge number of heterogeneous and valuable data arising in the internet, Web data integration integrates multiple Web data sources and provides important data supporting for such applications as business intelligence, market intelligence, and so on. Semi-structured data is an important part of Web data. The extraction and integration of semi-structured Web data is the crucial step of Web data integration, which face many difficulties and challenges. The project intends to conduct in-depth research on the extraction and integration issues of semi-structured web data. Due to the characteristics that Web data integration is a dynamic process, adaptive extraction methods are studied in this project. The accumulated data in Web data integration system and the long-distance dependencies between Web elements are used to realize that the new data source in the same domain can be extracted adaptively. The techniques that deal with duplicate record detection and conflict resolution simultaneously are studied in this project. The accumulated data in Web data integration system and the domain knowledge, as well as the relationship between duplicated record detection and conflict resolution, are used to realize that both the two processes are solved simultaneously, which can improve the accuracy and adaptability of b

英文关键词: Web data integration;semi-structured Web data;data extration;data fusion;

成为VIP会员查看完整内容
0

相关内容

UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
96+阅读 · 2021年12月30日
专知会员服务
79+阅读 · 2021年5月27日
专知会员服务
20+阅读 · 2021年4月15日
专知会员服务
193+阅读 · 2020年10月14日
专知会员服务
31+阅读 · 2020年9月2日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
【WWW2021】实体自适应语义依赖图立场检测
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Table Enrichment System for Machine Learning
Arxiv
0+阅读 · 2022年4月18日
Arxiv
21+阅读 · 2020年10月11日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
小贴士
相关资讯
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
【WWW2021】实体自适应语义依赖图立场检测
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员