项目名称: 汉越双语语料库建设及词对齐方法研究

项目编号: No.61262041

项目类型: 地区科学基金项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 郭剑毅

作者单位: 昆明理工大学

项目金额: 43万元

中文摘要: 中越双语语言理解是加强中越两国文化交流的基础,汉语-越南语双语语料资源构建是汉语-越南语双语理解的必备资源。本课题针对越南语言特点,首先将研究越南语树库标记方法,构建越南语依存树库;其次,针对越南语句法特点,研究越南语依存关系识别方法,实现越南语依存句法分析器;然后,针对汉语-越南语双语语言句法特点,研究汉语-越南语双语词对齐方法;最后,研究汉语-越南语双语料选取、标注规范,构建汉语-越南语双语词语级对齐语料库,标注15万汉越句子词对齐语料库,并在此基础上开发实现越南语-汉语双语句子检索原型系统,解决汉语-越南语双语词语对齐语料库资源建设、依存句法分析、词对齐过程中的难点问题。项目研究成果将为汉语-越南语双语检索、双语机器翻译提供语料资源和技术支撑。

中文关键词: 越南语-汉语;依存树库;依存句法分析;双语词对齐方法;双语词对齐语料库

英文摘要: The understanding of Chinese-Vietnamese bilingual language is the basis for strengthening culture exchange between China and Vietnam, and the construction of Chinese-Vietnamese bilingual corpus is the essential resources to the understanding of Chinese-Vietnamese bilingual language. Firstly, for the Vietnamese language characteristics in this project, study on the Vietnamese treebank tagging methods to build the Vietnamese dependency treebank; Secondly, research on the Vietnamese dependency relationship identification methods based on Vietnamese syntactic features to achieve Vietnamese dependency parser; Furthermore, according to the syntactic features of Chinese-Vietnamese bilingual language, study the methods of Chinese-Vietnamese bilingual word alignment; Finally, reseasrch on the Chinese-Vietnamese bilingual materials selection and mark specification to construct the Chinese-Vietnamese bilingual word-level alignment corpus. On the basis of marking the 150000 Chinese and Vietnamese sentences and word alignment corpus, develop and implement the prototype system of Vietnamese-Chinese bilingual sentence retrieval to solve the difficulties occurred in the resource construction of Chinese-Vietnamese bilingual word alignment corpus, dependency parsing and the word alignment process. The research achievement of the

英文关键词: Vietnamese-Chinese;dependency treebank;dependency parsing;the methods of bilingual word alignment;bilingual word aligned corpus

成为VIP会员查看完整内容
0

相关内容

军事知识图谱构建技术
专知会员服务
122+阅读 · 2022年4月8日
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
67+阅读 · 2021年2月7日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
【开放书】清华大学《语音识别基本法》,215页pdf
专知会员服务
145+阅读 · 2020年7月29日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
173+阅读 · 2020年7月11日
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
NLP技术中的Tokenization
PaperWeekly
1+阅读 · 2021年12月16日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
干货 | 情感分析语料库
机器学习算法与Python学习
69+阅读 · 2017年7月3日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年5月27日
Arxiv
0+阅读 · 2022年5月26日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
27+阅读 · 2017年12月6日
小贴士
相关VIP内容
相关资讯
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
NLP技术中的Tokenization
PaperWeekly
1+阅读 · 2021年12月16日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
干货 | 情感分析语料库
机器学习算法与Python学习
69+阅读 · 2017年7月3日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员