项目名称: 维、哈、柯多文种信息检索技术研究
项目编号: No.61142004
项目类型: 专项基金项目
立项/批准年度: 2012
项目学科: 无线电电子学、电信技术
项目作者: 维尼拉·木沙江
作者单位: 新疆大学
项目金额: 15万元
中文摘要: 新疆少数民族语言多文种信息资源十分丰富、源远流长,随着多文种信息电子化和网络化迅速发展,少数民族文网站层出不穷,网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎,快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求,是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究,提出了很多算法,但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架,以实现维、哈、柯文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究,解决实现高效、高性能维、哈、柯文搜索引擎的关键技术,实现维、哈、柯文搜索引擎原型。
中文关键词: TidyNet;组词;语言模型;倒排索引;排序
英文摘要:
英文关键词: TidyNet;word grouping;language model;inverted index;ranking