项目名称: 适应大数据处理的概率特征映射研究
项目编号: No.61403090
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 李雄
作者单位: 国家计算机网络与信息安全管理中心
项目金额: 25万元
中文摘要: 计算机识别技术已广泛应用于图像识别、文本理解、网络特定信息检测、网络异常检测等问题中。其中,数据的特征表示是识别性能的决定性因素,理想的特征表示应适应数据的分布并从中提取尽量多的有价值信息。基于概率产生式模型的概率特征映射就是一类以此为目标的方法,在多种实际问题中取得了很好的效果。然而,现有方法对信息的利用不够全面且缺少统一的框架;缺少理论分析与指导;算法结构及计算效率难以适应大数据的处理。针对这些问题,本项目从以下三方面研究概率特征映射:(1)研究利用数据分布、数据隐含信息和类别标签的概率特征映射方法及其维度控制方法;(2)研究概率特征映射在识别问题中的泛化错误率上界,和以最小化错误率上界为准则的特征映射学习方法;(3)针对数据规模较大的情况,研究对样本并行化的增量学习算法和对特征并行化的坐标下降算法。研究成果将形成统一有效的方法框架、理论分析方法和适应大数据与实际应用的算法。
中文关键词: 特征映射;概率产生式模型;泛化错误率上界;并行优化;识别与检测
英文摘要: Computer based recognition techniques have been widely applied to a number of changeling problems, such as image recognition, text understanding, network information or abnormal behavior detection, where, feature representation is considered to be the det
英文关键词: Feature Mapping;Probabilistic Generative Model;Generalization Error Up-bound;Parallel Optimization;Recognition and Detection