项目名称: 汉语全文词义标注关键技术研究

项目编号: No.61272221

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 曲维光

作者单位: 南京师范大学

项目金额: 81万元

中文摘要: 文本的全文词义标注是文本内容理解的前期重要的基础性工作。目前汉语的全文词义标注多关注多义词的消歧任务,仍然无法解决未登录词的词义预测、词典中缺失义项词语的义项标注、成语及惯用语、多词表达的义项标注及语义知识库的完备性等问题。本申请拟从以下几个方面进行研究:(1)将现有词义资源整合,形成完善的词义标注体系,并制定标注规范;(2)针对现有语义词典义项划分的不完善,文本中出现的义项可能在语义词典中缺失的问题,建立词义动态发现模型,自动发现文本中词语的确切词义;(3)构建成语及惯用语知识库和多词表达知识库,扩充词义词典的规模;(4)建立规则与统计相结合的未登录词语词义预测模型,解决未登录词义项标注的难题;(5)综合利用上述研究成果,建立高质量的汉语全文词义标注平台;(6)利用全文词义标注平台,对大规模语料进行词义标注,并利用语料校对技术进行后处理,形成高质量的词义标注语料。

中文关键词: 词义标注;多词表达;词义消歧;未登录词词义预测;自然语言处理

英文摘要: All-word sense tagging of texts serves as the important prelude of text understanding. Currently all-word sense tagging of Chinese texts focuses mainly on the WSD tasks of polysemous words and cannot provide solutions to word sense predictions of OOVs, word sense tagging of lexical entries with incomplete senses, word sense tagging of idiomatic expressions and multi-word expressions, the construction of word sense knowledge bases, etc. Our application aims to conduct research on the following topics: (1)To integrate available resources on word sense to form a complete system for word sense tagging and stipulate relevant guidelines; (2)For the imperfection of word sense classification in lexicons, i.e. the incompletion of lexical senses in texts, we plan to establish dynamic models for identifying word senses and finding correct ones for them that appear in texts; (3) To construct knowledge bases of idiomatic expressions and multi-word expressions for word sense tagging; (4)To establish a combined rule-based and statistics-based model for OOV word sense prediction so as to solve the problem of OOV word sense tagging; (5)Based on the above research, we also plan to establish a state-of-the-art platform of Chinese all-word sense tagging; (6)Based on our platform, we plan to tag large-scale corpora and conduc

英文关键词: word sense annotation;multiword expression;word sense disambiguation;sense guessing of unknown word;natural language processing

成为VIP会员查看完整内容
0

相关内容

专知会员服务
68+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2021年6月4日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
35+阅读 · 2020年11月29日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
小贴士
相关VIP内容
专知会员服务
68+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2021年6月4日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
35+阅读 · 2020年11月29日
相关资讯
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员