项目名称: 基于Web语料的维吾尔文重复模式识别算法及应用研究

项目编号: No.61263044

项目类型: 地区科学基金项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 木妮娜·玉素甫

作者单位: 新疆师范大学

项目金额: 47万元

中文摘要: 序列中重复模式识别算法研究涉及到很多相关的计算机学科领域知识,并在数据挖掘、数据压缩、生物信息学、Web信息抽取等领域都有着重要的应用。本课题以维吾尔语Web语料库为研究对象,在前期预研的基础上,采用算法设计与原型系统检验相结合的方法,进行基于Web语料的维吾尔文重复模式识别算法及应用研究。为提高算法预处理阶段时间效率,设计新算法使之能同时计算后缀数组与最长公共前缀数组;研究与设计基于Web语料维文重复模式快速识别与统计算法;研究重复模式特征提取算法在维语Web文本聚类中的应用,进而设计一种基于重复模式的维语Web文本快速聚类算法。在此基础上,构造用于网络热点话题检测的多特征融合的特征词权重的计算方法,进行基于有意义串的网络热点话题发现方法研究并初步研究基于重复模式的Web信息语义表示方法。为维吾尔语Web文本挖掘、智能信息检索、网络舆情监测等领域研究提供理论基础及有力的技术支持。

中文关键词: 重复模式;维吾尔语Web文本;聚类分析;有意义串;需求分析与建模

英文摘要: Algorithms for sequence repeat pattern recognition are related to many computer science domain knowledge, and have a wide range of applications in the fields of data mining, data compression, bioinformatics, and Web information extraction. This project takes the Uyghur Web corpus as the research object, and is based on the pre-research, to design the algorithms for Uyghur repeat pattern recognition and its applications,by using the combination methods of algorithm design and prototype system testing. To improve the algorithm pre-processing time efficiency, we will design a new algorithm so that it can calculate the suffix array and longest common prefix array at the same time. We analyze the repeat pattern extraction algorithm in the applications of Web text clustering, and design a repeat pattern based Uyghur Web text clustering algorithm. On this basis, we will construct a method to calculate the key term weight with multi-features, and study the meaningful string-based network hot topic extraction method, thereby analyze the Uyghur Web information semantic representation. We hope to achieve the goal of providing a theoretical basis and strong technical support for the fields of Uyghur network text mining, intelligent information retrieval, and network monitoring public opinion.

英文关键词: repeat;Uyghur Web text;clustering analysis;meaningful string;requirements analysis and modeling

成为VIP会员查看完整内容
0

相关内容

基于深度学习的图像目标检测算法综述
专知会员服务
97+阅读 · 2022年4月15日
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
55+阅读 · 2021年4月20日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
49+阅读 · 2021年1月30日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
65+阅读 · 2020年9月24日
综述 | 基于深度学习的目标检测算法
夕小瑶的卖萌屋
2+阅读 · 2022年4月19日
基于深度学习的图像目标检测算法综述
专知
2+阅读 · 2022年4月16日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
10+阅读 · 2020年11月26日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
11+阅读 · 2018年5月21日
小贴士
相关VIP内容
基于深度学习的图像目标检测算法综述
专知会员服务
97+阅读 · 2022年4月15日
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
55+阅读 · 2021年4月20日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
49+阅读 · 2021年1月30日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
65+阅读 · 2020年9月24日
相关资讯
综述 | 基于深度学习的目标检测算法
夕小瑶的卖萌屋
2+阅读 · 2022年4月19日
基于深度学习的图像目标检测算法综述
专知
2+阅读 · 2022年4月16日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员