项目名称: 基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

项目编号: No.71303120

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 管理科学

项目作者: 王东波

作者单位: 南京农业大学

项目金额: 20万元

中文摘要: 针对目前汉英平行语料标注不深入的现状,本课题基于汉英句法功能知识库和句法功能匹配算法,构建人文社会科学句法级汉英平行语料库,并基于该语料库进行术语和类别知识挖掘的探究。本课题的主要研究内容:基于CSSCI关键词的词性分布倾向性计算汉英关键词的词性;在清华汉语树库和宾州英语树库的基础上,构建汉英句法功能知识库;通过汉英句法树的生成、消歧、优化和错误恢复,构建自动句法分析器;开发句法树辅助校正工具,并完成对汉英句法树的校正;基于句法结构的分布,挖掘术语和类别知识。本课题不仅有助于句法功能匹配理念、句法树构建理论、语言学理论的丰富、建立和研究,而且对知识服务、跨语言检索、语义网和本体、机器翻译等研究具有直接的促进作用。

中文关键词: CSSCI;汉英平行语料库;句法分析器;知识挖掘;

英文摘要: According to the present condition of Chinese-English parallel corpus without deeply tagging, the syntactic level Chinese-English parallel corpus of humanities and social science is constructed based on Chinese and English syntactic function knowledge base and syntactic function matching algorithms, and the researches for the Chinese-English parallel terms and category knowledge mining are taken based on the corpus. The main researches content of the project are as follows: calculating the part of speech of Chinese and English keywords based on the part of speech distribution orientation of keywords from CSSCI;constructing the syntactic function knowledge base based on Tsinghua Chinese treebank and Penn English treebank;constructing the Chinese and English parser based on generation, disambiguation, optimization and error recovery of syntactic trees;designing the tool of auxiliarily correcting the syntactic trees and finishing correcting the syntactic trees;mining the terms and category knowledge based on the distribution of syntactic structures.The project will help the idea of syntactic function matching and the theory of syntactic tree construction and linguistics to enrich,construct and research and directly promote the researches of knowledge service, cross-language information retrieval, semantic web, ont

英文关键词: CSSCI;Chinese-English parallel corpus;parser;knowledge mining;

成为VIP会员查看完整内容
0

相关内容

UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
96+阅读 · 2021年12月30日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
28+阅读 · 2020年10月9日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
中文自然语言处理相关资料集合指南
专知
18+阅读 · 2019年3月10日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
【知识图谱】中医临床知识图谱的构建与应用
产业智能官
60+阅读 · 2017年12月18日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
28+阅读 · 2021年10月1日
小贴士
相关主题
相关VIP内容
UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
96+阅读 · 2021年12月30日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
28+阅读 · 2020年10月9日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员