项目名称: 视频图像中不良文本的识别与过滤-维吾尔语系
项目编号: No.61163026
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 哈力旦.阿布都热依木
作者单位: 新疆大学
项目金额: 48万元
中文摘要: 网络己成为一种人们获取信息和传递信息的重要手段,但随之而来的不良信息也越来越猖獗。打击不良信息的传播,保护青少年健康成长,对维护新疆的和平稳定发展有极其重要的意义。本项目在建立的视频图像中维吾尔文文本定位和提取的基本框架的基础上,首先构建图像文本语料库和基于切分策略的维吾尔文字识别模型, 针对识别的维吾尔文不良文本,利用tf-idf 特征提取方法抽取文本的词汇方面特征,采用统计量特征选择方法对抽取到的特征进行必要地取舍,并提取几个具有明显区分能力的结构特征,采用支持向量机、贝叶斯、神经网络等算法自动过滤掉不良文本。最终针对多种算法进行试验,选择适合维吾尔文本的多技术联合、分层过滤的方法,建立一套完整有效的视频图像中维吾尔文不良文本的过滤系统。该研究成果将为网络传输健康的维吾尔文信息提供坚实的保障,并鉴于维吾尔文与阿拉伯文极近的亲缘关系,可以推广应用到阿拉伯文信息过滤技术上。
中文关键词: 维吾尔文文本分类;文本过滤;关键帧提取;文字定位与识别;语料库设计
英文摘要:
英文关键词: uygur text classification;text filtering;key frame extraction;text location and recognition;corpus design