项目名称: 结合分布相似和汉语构词特征的词义相似度计算

项目编号: No.61003206

项目类型: 青年科学基金项目

立项/批准年度: 2011

项目学科: 轻工业、手工业

项目作者: 金澎

作者单位: 乐山师范学院

项目金额: 7万元

中文摘要: 自然语言处理的终极目标是理解人类语言,理解语言通常从篇章、段落、句子入手,最终落实到短语、词汇。而词义的理解是理解人类语言的基石,在词义理解中,准确把握词汇之间的关系,特别是"相似"尤为重要。本项目以当前主流的基于大规模语料库的统计方法入手,充分利用汉语特有的"部首偏旁表字义、字义表词义"的构词特点,使用哈尔滨工业大学研制的同义词词林扩展版,对2.7万多个实词进行评价。结果显示,我们的方法比已有方法,在性能上提高了30%。其科学意义在于,我们的方法将汉语的特点融入了统计方法。为了进一步推动和更加客观的评价词相似算法,项目组完成了353个汉语词对的相似度排序,并以此组织了SemEval-2012的一个评测任务。进一步的,项目组将研究成果用于中文人名消歧,针对CIPS-SIGHAN 2010公布的评测数据进行实验,结果表明相对于不用词相似的系统,准确率和召回率都有提高。为拓展研究范围,项目组针对跨语言的词相似研究做了初步尝试。

中文关键词: 词相似;金标注数据;人名消歧;跨语言词相似

英文摘要: The ultimate goal of natural language processing is understanding the human being's language. Generally, the researchers begin to try the understanding from word, phrase to sentence, paragraph and discourse. In fact, the conerstone is the word meaning. The word relationship especisally the similar relation maybe the most important in the lexcial semantic research. This project In the Chinese language, words consist of characters each of which is composed of one or more components. Almost every individual Chinese character has a specific meaning, and the meaning of a word is usually highly related to the characters that comprise it. Likewise, sub-character components often make a predictable contribution to the meaning of a character, and in general characters that have the same components have similar or related meanings. We integreate this character into corpus-based algorithm to improve Chinese word similarity. In an evaluation on 27 thousand word types (noun, verb and adjective), we obtain 39% relative improvement compared with the state-of-the-art baseline.The results showed that the improvement has cross the part of speech and the words' frequency.In this experiment, the gold standard is Cilin extended version which is developed by HIT.In order to push the study on Chinese word similarity, we annotated 353 word pairs according to their simliary score by human being. To the best of our knowledge, this kind of Chinese language resource is not yet seen in literatures. Based on this data-set, the task "Evaluating Chinese Word Similarity" was accepted by SemEval-2012 which is hosted by ACL SIGLEX. Furthermore, we improved the Chinese personal name disambiguation via intergrating the word similarity into the disambiguating system. The results showed that both precision and recall were higher than without it.To broader our study prosperctives, we have tried to the Cross-lingual word similarity.

英文关键词: word similarity;gold standard;personal name disambiguation;cross-lingual word similarity

成为VIP会员查看完整内容
0

相关内容

【Chen Guanyi博士论文】汉语名词短语的计算生成,282页pdf
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
专知会员服务
68+阅读 · 2021年10月6日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
193+阅读 · 2020年10月14日
专知会员服务
29+阅读 · 2020年9月18日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
20+阅读 · 2019年9月7日
小贴士
相关VIP内容
【Chen Guanyi博士论文】汉语名词短语的计算生成,282页pdf
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
专知会员服务
68+阅读 · 2021年10月6日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
193+阅读 · 2020年10月14日
专知会员服务
29+阅读 · 2020年9月18日
相关资讯
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员