项目名称: 基于类格的多层网页分类技术研究

项目编号: No.60863001

项目类型: 地区科学基金项目

立项/批准年度: 2009

项目学科: 金属学与金属工艺

项目作者: 雷景生

作者单位: 海南大学

项目金额: 28万元

中文摘要: 本项目以 Internet 信息资源的组织与利用为研究目的,将数学方法(格)与现有的机器学习技术、文本自动分类技术融合在一起,提出了一种基于类格的多层网页分类方法。该方法首先建立了一个基于类格的多层网页分类的概念模型,把领域专家对网页提供的分类知识用"类格"来表示,作为训练数据集。在分类知识的学习过程中,通过学习训练数据集,在类格中产生类的分类知识(类索引),并对分类知识进行优化处理,获得提炼的分类知识。在分类过程中,网络 Robot 自动从Internet 上采集网页,经过预处理,从采集的网页中提取项,并进行降维处理,多层网页分类器将采集的网页归属于某一类或多个类。最后,对建立的基于类格的多层网页分类方法进行实验评价。 通过本项目的研究,为充分利用多层网页分类方法进行海量 Web 信息检索和挖掘的应用提供理论和技术支持,努力实现并提高 Web 信息处理技术的社会效益和经济效益。

中文关键词: Web 挖掘;类格;文本分类;信息检索

英文摘要: This project to the organization and use of Internet information resources for research purposes. Mathematical methods (segments) with the existing machine learning technology, text categorization technology together, a hierarchical Web page categorization technique based on class lattice was proposed. The method first established a conceptual model of hierarchical Web page categorization based on class lattice, the experts provided the page on the classification of knowledge with "class lattice" to that as training data sets. In the learning process, the Classification Learner learns from the training data sets and generates the classification knowledge (or so-called class indexes) of the classes in the class lattice, and Optimization of classification of knowledge, access to the refinement of classification knowledge. In the classification process, the Internet Robot automatically collects documents from the Internet, and the preprocessing process extracts the features from the documents. The Hierarchical Documents Classifier proceeds to assign one or more most appropriate classes to the incoming documents. Finally, the Experimental evaluation of the hierarchical Web page categorization technique based on class lattice. Through this research project, to take full advantage of multi-page classified methods Massive Web information retrieval and mining applications theoretical and technical support, and strive to improve the Web and information processing technology social and economic benefits.

英文关键词: Web Mining; Class Lattice;Text Categorization; Information Retrieval

成为VIP会员查看完整内容
0

相关内容

军事知识图谱构建技术
专知会员服务
127+阅读 · 2022年4月8日
【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
超图学习综述: 算法分类与应用分析
专知会员服务
33+阅读 · 2022年2月1日
专知会员服务
126+阅读 · 2021年6月12日
专知会员服务
113+阅读 · 2021年1月8日
基于深度学习的数据融合方法研究综述
专知会员服务
140+阅读 · 2020年12月10日
最新《统计机器学习》课程,26页ppt
专知会员服务
82+阅读 · 2020年8月30日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
137+阅读 · 2020年8月12日
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
55+阅读 · 2020年4月18日
超图学习综述: 算法分类与应用分析
专知
0+阅读 · 2022年2月1日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
15+阅读 · 2019年6月25日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
127+阅读 · 2022年4月8日
【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
超图学习综述: 算法分类与应用分析
专知会员服务
33+阅读 · 2022年2月1日
专知会员服务
126+阅读 · 2021年6月12日
专知会员服务
113+阅读 · 2021年1月8日
基于深度学习的数据融合方法研究综述
专知会员服务
140+阅读 · 2020年12月10日
最新《统计机器学习》课程,26页ppt
专知会员服务
82+阅读 · 2020年8月30日
科技大数据知识图谱构建方法及应用研究综述
专知会员服务
137+阅读 · 2020年8月12日
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
55+阅读 · 2020年4月18日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员