项目名称: 基于域知识的自定义Web对象自动抽取技术
项目编号: No.61363005
项目类型: 地区科学基金项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 张敬伟
作者单位: 桂林电子科技大学
项目金额: 47万元
中文摘要: Web包含海量的对象描述数据,其具有巨大应用价值,让这些数据易于管理和使用对不同数据需求的用户具有重要意义。Web数据抽取技术负责将Web对象数据从复杂的Web页面中分离出来,但现有的Web数据抽取技术多采用结构导向的抽取策略,不支持目标对象定义接口,不能满足用户的个性化需求,而且对大规模抽取缺乏性能优化设计。本项目针对上述需求与挑战,系统研究基于正则树的对象定义技术,引入标签概率等价类设计基于域知识的高准确度Web页面语义标注和训练集自动构建方法,探索语义导向的归纳逻辑和主动学习融合的抽取规则生成技术,让Web 对象抽取在抽取自动化和用户满意度上取得双重受益。同时,基于研究的成果建立原型系统,执行大规模实验验证方法的有效性和可扩展性,结合充分的理论分析,设计性能优化模型。本项目以用户需求为出发点,有助于充分开采Web数据的价值,拓展抽取技术的应用范畴,具有重要的理论意义和应用价值。
中文关键词: 自定义对象抽取;海量数据管理;多特征决策抽取;;
英文摘要: Web contains massive object data, which have huge value for Web applications, it is very significant for users with different requirements to manage and use these data easily. Web data extraction technologies are responsible for separating Web object data
英文关键词: customized object extraction;massive data management;extraction on multi-feature decision;;