项目名称: 无监督分词及词性归纳联合方法研究

项目编号: No.61303105

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 王函石

作者单位: 首都师范大学

项目金额: 25万元

中文摘要: 无监督分词和词性归纳作为相继任务,是计算语言学中重要的研究课题,具有较高的理论研究价值和广阔的应用前景。本研究拟提出无监督分词及词性归纳相结合的联合方法,使分词和词性归纳两个不同层次的统计信息相互补充,以期同时提高两种不同处理在自然语言理解中的性能。本联合方法基于申请者先前提出的无监督分词方法和环境内聚思想,一方面通过获得基于语素及其类别的不针对特定语言的形态信息,以进一步提高处理精度,另一方面通过获得一词多类的归纳结果,以及利用全局统计特征分辨封闭词类与开放词类,以产生接近人工标准和便于人类理解的处理结果,通过提高评估成绩达到提升性能的目的。本研究成果将为构建包含语法归纳在内的更大规模的无监督联合方法奠定基础。

中文关键词: 自然语言理解;;;;

英文摘要: The unsupervised word segmentation and part-of-speech induction are two important tasks in computational linstuistics. In the project, we propose an unsupervised joint approach to word segmentation and part-of-speech induction. In the approach, the segmentation method of morphemes and words is based on the unsupervised approach to word segmentation early proposed by us, and the induction method of morpheme classes and word classes is based on the context cohesion mechanism early proposed by us. As an unsupervised approach, it can process data without any man-made lexicons, manually annotated corpora and language-specific prior knowledge. As a joint approach, it can utilize the structural information of word class sequences to enhance the quality of the unsupervised word segmentation, and then improve the performance of the word class induction by the enhancement. Besides the advantages mentioned above, the morphologic information derived from morpheme classes and word structures can further improve the performance of both the unsupervised word segmentation and the word class induction. In addition, the approach can produce the induction results that can be understood by humans to some extent by using the different statistical features between open-class words and closed-class words. In future, the approach will

英文关键词: natural language understanding;;;;

成为VIP会员查看完整内容
1

相关内容

开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
71+阅读 · 2021年5月21日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
187+阅读 · 2020年8月6日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
基于深度神经网络的少样本学习综述
专知会员服务
170+阅读 · 2020年4月22日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
通用模型、全新框架,WavLM语音预训练模型全解
微软研究院AI头条
0+阅读 · 2021年12月23日
哈工大|NLP数据增强方法?我有15种
哈工大SCIR
1+阅读 · 2021年10月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
小贴士
相关VIP内容
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
71+阅读 · 2021年5月21日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
187+阅读 · 2020年8月6日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
基于深度神经网络的少样本学习综述
专知会员服务
170+阅读 · 2020年4月22日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
相关资讯
通用模型、全新框架,WavLM语音预训练模型全解
微软研究院AI头条
0+阅读 · 2021年12月23日
哈工大|NLP数据增强方法?我有15种
哈工大SCIR
1+阅读 · 2021年10月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员