项目名称: 维吾尔文命名实体识别关键技术研究

项目编号: No.61262060

项目类型: 地区科学基金项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 艾山·吾买尔

作者单位: 新疆大学

项目金额: 45万元

中文摘要: 命名实体是信息的主要载体,用来表达文本的主要内容,也是正确理解文本的基础,进行命名实体识别是了解一篇文章最简单快捷的一种方法。在自然语言处理研究方面,命名实体识别的效果,对词法、句法、语义分析等都具有极其重要的影响,在应用方面,命名实体识别是信息抽取、机器翻译、信息过滤、问答系统等研究分支的基础技术。目前,在国内外的众多研究者已对命名实体识别技术展开了深入研究,提出了很多算法、模型,取得了很大的突破,并研发了可用的识别系统。迄今为止,还没有学者针对维吾尔文命名实体识别技术展开任何系统地研究工作,命名实体识别技术已经成为了制约维吾尔文信息处理进一步发展的瓶颈。本项目中,利用现有语料库构建500万词次人工标注的语料库,采用规则、统计等方法对维吾尔文人名、地名及机构名识别展开深入研究,并研发达到实用水平的识别系统,该系统将提高汉维机器翻译、维吾尔文信息检索、维吾尔文不良信息过滤等系统性能。

中文关键词: 维吾尔文;人名;地名;机构名;粘着型语言

英文摘要: Named entity is the main carrier of information, used to express the main content of the text, and is also the basis for correctly understanding the text, Named Entity Recognition(NER) is the most simple and quick way to understand an article. In the area of natural language processing research, the result of NER is extremely important to morphological, syntactic and semantic analysis, in terms of application, NER is basic key technology for information extraction, machine translation, information filtering, question-and-answer system etc. At present, many researchers of domestic and foreign have carried in-depth studies on NER, proposed algorithms, models, made a major breakthrough, and developped appilicable systems. So far, no scholars have carried any systematically work on Uyghur NER technology, NER has become the bottleneck of Uyghur information processing development. In this project, we build a 500 million words artificial tagged corpus by using existing corpus, carry research on Uyghur people name recognition, place name recognition, oragnization name recogniton by using rule based and statistical based methods, and develop an applicale system, this system will improve the performance of system such as Chinese-Uyghur Machine Translation system, Uyghur information retrieval system and Uyghur illegal info

英文关键词: Uighur language;Person Name;Location Name;Organization Name;Agglutinative Language

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
68+阅读 · 2021年8月20日
专知会员服务
70+阅读 · 2021年3月27日
专知会员服务
36+阅读 · 2021年2月22日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
193+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
专知会员服务
155+阅读 · 2020年4月21日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
10+阅读 · 2018年4月19日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
68+阅读 · 2021年8月20日
专知会员服务
70+阅读 · 2021年3月27日
专知会员服务
36+阅读 · 2021年2月22日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
193+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
专知会员服务
155+阅读 · 2020年4月21日
相关资讯
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员