项目名称: 蒙古文多层次形态分析研究

项目编号: No.61163020

项目类型: 地区科学基金项目

立项/批准年度: 2012

项目学科: 自动化技术、计算机技术

项目作者: 白双成

作者单位: 内蒙古自治区社会科学院

项目金额: 47万元

中文摘要: 本项目是一个规则与统计方法相结合构造三个层次的蒙古文形态分析方法体系,以能够应用于各类应用系统为目标的基础研究项目。项目以课题组已有成果"蒙古文框架知识库"为基础数据,通过研究实现基于机器学习方法的构件库和整词生成规则重构方法、参数化蒙古文字形比较方法、未登录词特征信息自动推导方法等关键技术,从搜索引擎搜集网络资源和语料库资源中剥离拼错词,回收未登录词,以求构造精确形态分析的Lemmatization方法。探索符合蒙古文自身特点的统计模型特征选取和优化原则,利用语料资源中通过Lemmatization方法无歧义标注部分为训练集统计建模,构造Stemming方法。以Stemming方法再对未标注和歧义标注部分进行有监督学习和扩充形态分析库。依此循环渐进地达到规则方法与统计方法的互补互促和整合。最后观察分析上述数据基础上精炼出高效Stemmer。项目研究意义重大、成果转化前景乐观。

中文关键词: 蒙古文;形态分析;语言模型;机器学习;知识库

英文摘要:

英文关键词: Mongolian script;morphological analyse;language model;machine learning;repository

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
22+阅读 · 2021年8月22日
专知会员服务
62+阅读 · 2021年4月16日
专知会员服务
36+阅读 · 2021年2月22日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
45+阅读 · 2020年11月13日
个性化推荐系统技术进展
专知会员服务
65+阅读 · 2020年8月15日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
自然语言处理中的文本表示研究
专知
0+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
22+阅读 · 2021年8月22日
专知会员服务
62+阅读 · 2021年4月16日
专知会员服务
36+阅读 · 2021年2月22日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
45+阅读 · 2020年11月13日
个性化推荐系统技术进展
专知会员服务
65+阅读 · 2020年8月15日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
相关资讯
自然语言处理中的文本表示研究
专知
0+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员