项目名称: 面向实体信息集成的非合作半结构化深网数据源选择

项目编号: No.61462037

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 邓松

作者单位: 江西财经大学

项目金额: 44万元

中文摘要: Web环境下,大部分深网是半结构化的且不能用传统爬虫获取其中内容,因此本项目以非合作半结构化深网数据源为研究对象。由于实体信息集成是深网集成的重要研究内容,因此以满足用户实体集成检索的需求,提高Web深网集成效率为目标,研究相应的半结构化深网源选择方法。研究内容包括深网抽样、摘要构建、摘要更新、选择策略。项目针对已有深网抽样采样数据代表性不强等问题,鉴于半结构化深网实体数据特点,提出了基于图和随机游走的半结构化深网抽样技术;针对实体信息整合与实体关联挖掘的集成检索需求,提出了基于文档与特征词标注的摘要构建方法,并结合以上需求特点分别提出了基于兴趣度和新颖度的数据源选择方法、基于实体特征传递关系的数据源选择方法;为了减少数据源摘要更新工作量,基于同领域数据源数据更新特点,提出了基于抽样和实体扩展的局部摘要更新策略。该研究有助于提升半结构化深网集成效率,具有较好的应用前景。

中文关键词: 实体;非合作;半结构化;深网;数据源选择

英文摘要: In web environment, most of deep webs are semi-structured, and web crawler can not get the content of them. Therefore, non-cooperative semi-structured deep web is our research object. As entity imformation integration is the important research content of the Deep Web information integration, meeting user damand for integrated retrieval of entity and improve the efficiency of Deep Web integration is our goal,so we study the corresponding data source selection method for semi-structured Deep Web.The work of research include sampling deep web, construct summary, summary update and evaluation strategy. The representation of sampling data of existing methods is not strong.Therefore, taking the characteristics of the entity data of semi-structured deep web into consider, we propose a sampling technique for semi-structured deep web sampling base on random walk tree and graph. For the demand of integrated retrieval,including entity information integration and Entity association mining,we propose a summary construction method base on documents ,feature word and label.Taking above demand characteristics into account, we propose two data source selection methods,the first is based on interest and novelty,the second is base on characteristics transfer relationship of entity. In order to reduce the workload of the update of data source summary,we take the update characteristics of data sources in the same field into account,proposing a summary update strategy base on sampling and entites extended. The study will help to enhance the semi-structured deep web integration efficiency and also has a good application prospects.

英文关键词: Entity;Non-cooperation;Semistructured;Deep Web;Data Source Selection

成为VIP会员查看完整内容
0

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
CIKM2021 | 用于链接预测的主题感知异质图神经网络
专知会员服务
24+阅读 · 2021年11月3日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
37+阅读 · 2021年4月25日
专知会员服务
20+阅读 · 2021年4月15日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
专知会员服务
195+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样
开放知识图谱
1+阅读 · 2022年3月15日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
【WWW2021】实体自适应语义依赖图立场检测
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
30+阅读 · 2019年3月13日
小贴士
相关VIP内容
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
CIKM2021 | 用于链接预测的主题感知异质图神经网络
专知会员服务
24+阅读 · 2021年11月3日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
37+阅读 · 2021年4月25日
专知会员服务
20+阅读 · 2021年4月15日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
专知会员服务
195+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
相关资讯
论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样
开放知识图谱
1+阅读 · 2022年3月15日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
【WWW2021】实体自适应语义依赖图立场检测
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员