项目名称: 基于树结构模式Web信息抽取的关键问题研究

项目编号: No.61273297

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 吴共庆

作者单位: 合肥工业大学

项目金额: 80万元

中文摘要: Web数据的海量、动态、异构等特点,使得传统的信息抽取模型和算法面临精度、自动化程度、通用性和时空性能等方面的挑战。鉴于网页解析树结构模式对语言不敏感,具有易定位、可演化、可迁移的优点,本课题重点开展使用树结构模式的Web信息抽取的关键问题研究。通过深入分析Web数据源的特点,研究适用于Web信息抽取的树结构模式表示模型。研究具有强区分定界能力的树结构模式发现问题,寻求快速有效的抽取模式树挖掘方法,并研究网页结构动态变化环境下的变化检测方法和抽取模式树演化机制和方法。另外,为了提高获取新的未标注Web数据源抽取模式的自动化程度,研究模式树可迁移性问题以及知识迁移机制与方法。在上述工作基础上,面向Web服务应用领域,构建基于树结构模式挖掘的Web信息抽取问题求解原型系统,以现实的中文、英文、日文等语言的新闻网页数据、Web表格数据等为数据源,检验所提理论与方法的合理性与可行性。

中文关键词: Web信息抽取;树模式挖掘;树结构特征;在线抽取;Web大数据

英文摘要: Web pages are massive, dynamic and heterogeneous, and these characteristics bring challenges to traditional information extraction models and algorithms in accuracy, degree of automation, versatility and space/time performance. As tree patterns of a Web page parsing tree are not sensitive to the language used for Web contents, these patterns have the advantages of being easy to locate, and able to evolve and transfer. This project aims at key issues of Web information extraction using tree patterns. Through in-depth analysis for extensive cases of Web data sources, tree patterns suitable for extracting Web information will be studied. How to mine tree patterns with a strong distinguishing ability will be investigated. On these foundations, efficient and effective extraction methods will be designed, and then change detection and evolution mechanisms will be proposed for the extracted pattern tree under a dynamically changing environment. In addition, transferring mechanisms and algorithms will be developed on tree patterns in order to improve the degree of automation of acquiring patterns from unlabeled Web data sources. Along with the above research issues, a Web information extraction prototype system will be implemented based on tree pattern mining for Web service applications, to demonstrate the soundness an

英文关键词: Web Information Extraction;Tree Pattern Mining;Tree Structure Feature;Online Extraction;Web Big Data

成为VIP会员查看完整内容
0

相关内容

军事知识图谱构建技术
专知会员服务
116+阅读 · 2022年4月8日
专知会员服务
84+阅读 · 2021年9月4日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
191+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
82+阅读 · 2020年5月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
基于深度学习的小目标检测方法综述
专知
1+阅读 · 2021年4月29日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
25+阅读 · 2020年3月1日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
已删除
将门创投
18+阅读 · 2019年2月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
16+阅读 · 2017年11月11日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Summarization with Graphical Elements
Arxiv
0+阅读 · 2022年4月15日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
116+阅读 · 2022年4月8日
专知会员服务
84+阅读 · 2021年9月4日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
191+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
82+阅读 · 2020年5月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
相关资讯
基于深度学习的小目标检测方法综述
专知
1+阅读 · 2021年4月29日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
25+阅读 · 2020年3月1日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
已删除
将门创投
18+阅读 · 2019年2月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
16+阅读 · 2017年11月11日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员