项目名称: 面向文本信息安全的类别语义模型分类方法研究

项目编号: No.61202226

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 周晓飞

作者单位: 中国科学院信息工程研究所

项目金额: 22万元

中文摘要: 文本信息安全是互联网信息安全研究的重要问题,它的核心技术是文本分类技术。由于文本具有语义特性,使得文本信息安全亟需具有语义发现能力的高效文本分类方法。目前的文本分类研究对于语义特征的提取,仅实现了潜层语义空间对文档特征向量的降维作用,并没有充分的利用文档类别自身的语义特征;对相应分类算法来说,也没有有效利用类别语义信息。 面对文本信息安全对高性能文本分类方法的需求,本项目旨在研究兼顾类别语义和高效分类能力的分类方法。主要研究内容包括:1)针对类别样本有效的提取类别语义特征,研究基于显式和隐式特征的类别语义表达模型,避免语义表示的重计算;2)研究基于类别语义表示模型的分类理论和技术,设计兼顾类别语义和样本空间分布特点,并保持语义概率混合特性的分类器。项目的研究工作将为高效地分析文本信息深层安全性提供有效的理论、技术和方法,具有着重要的学术价值和科学意义。

中文关键词: 文本分类;潜在语义;分类器;特征提取;文本信息安全

英文摘要: Text information security is one of the most important problems in web information security field, and its crucial work is text document categorization problem. As a text document takes much semantic information, classification method for information security should have the capacity to discover the latent semantic under the document. Currently, the latent semantic models used in document categorization only realize the dimensional reduction for classifying, which could not capture class-semantic feature from each class, and corresponding classification processing in the semantic space also depends on the represented samples without directly utilizing class-semantic information. With the requirement of text information security research, the aim of this project is to research some text document classification methods, which can not only get class-semantic features but also obtain higher classification accuracy. The following researches would be studied in the project: (1) Research on capturing the class-semantic features from each class, and then construct the class-semantic representation models by the class-semantic features. There are two semantic representation models, apparent feature model and latent feature model in our project. Directly training classifiers on those representation models can avoid commo

英文关键词: Text classification;latent semantic;classifier;feature extraction;text information security

成为VIP会员查看完整内容
0

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【博士论文】开放环境下的度量学习研究
专知会员服务
46+阅读 · 2021年12月4日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
60+阅读 · 2021年5月28日
专知会员服务
40+阅读 · 2021年5月6日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
55+阅读 · 2020年12月20日
专知会员服务
36+阅读 · 2020年12月14日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
【博士论文】开放环境下的度量学习研究
专知
7+阅读 · 2021年12月4日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
29+阅读 · 2020年3月16日
小贴士
相关VIP内容
【博士论文】开放环境下的度量学习研究
专知会员服务
46+阅读 · 2021年12月4日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
60+阅读 · 2021年5月28日
专知会员服务
40+阅读 · 2021年5月6日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
55+阅读 · 2020年12月20日
专知会员服务
36+阅读 · 2020年12月14日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员