基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究 - 专知基金

会员服务 ·

0

知识挖掘 ·

2013 年 12 月 31 日

基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

项目编号： No.71303120

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 管理科学

项目作者： 王东波

作者单位： 南京农业大学

项目金额： 20万元

中文摘要： 针对目前汉英平行语料标注不深入的现状，本课题基于汉英句法功能知识库和句法功能匹配算法，构建人文社会科学句法级汉英平行语料库，并基于该语料库进行术语和类别知识挖掘的探究。本课题的主要研究内容：基于CSSCI关键词的词性分布倾向性计算汉英关键词的词性；在清华汉语树库和宾州英语树库的基础上，构建汉英句法功能知识库；通过汉英句法树的生成、消歧、优化和错误恢复，构建自动句法分析器；开发句法树辅助校正工具，并完成对汉英句法树的校正；基于句法结构的分布，挖掘术语和类别知识。本课题不仅有助于句法功能匹配理念、句法树构建理论、语言学理论的丰富、建立和研究，而且对知识服务、跨语言检索、语义网和本体、机器翻译等研究具有直接的促进作用。

中文关键词： CSSCI；汉英平行语料库；句法分析器；知识挖掘；

英文摘要： According to the present condition of Chinese-English parallel corpus without deeply tagging, the syntactic level Chinese-English parallel corpus of humanities and social science is constructed based on Chinese and English syntactic function knowledge base and syntactic function matching algorithms, and the researches for the Chinese-English parallel terms and category knowledge mining are taken based on the corpus. The main researches content of the project are as follows: calculating the part of speech of Chinese and English keywords based on the part of speech distribution orientation of keywords from CSSCI;constructing the syntactic function knowledge base based on Tsinghua Chinese treebank and Penn English treebank;constructing the Chinese and English parser based on generation, disambiguation, optimization and error recovery of syntactic trees;designing the tool of auxiliarily correcting the syntactic trees and finishing correcting the syntactic trees;mining the terms and category knowledge based on the distribution of syntactic structures.The project will help the idea of syntactic function matching and the theory of syntactic tree construction and linguistics to enrich,construct and research and directly promote the researches of knowledge service, cross-language information retrieval, semantic web, ont

英文关键词： CSSCI；Chinese-English parallel corpus；parser；knowledge mining；

成为VIP会员查看完整内容

0

相关内容

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

面向网络空间安全情报的知识图谱综述

专知会员服务

117+阅读 · 2021年1月8日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【港中文CMSC5743】深度神经网络高效计算

专知会员服务

32+阅读 · 2020年10月9日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

32+阅读 · 2020年4月12日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

专知会员服务

17+阅读 · 2019年10月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

开放知识图谱

1+阅读 · 2021年11月11日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

中文自然语言处理相关资料集合指南

中文自然语言处理相关资料集合指南

专知

18+阅读 · 2019年3月10日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

【知识图谱】一个有效的知识图谱是如何构建的？

【知识图谱】一个有效的知识图谱是如何构建的？

产业智能官

57+阅读 · 2018年4月5日

【知识图谱】中医临床知识图谱的构建与应用

【知识图谱】中医临床知识图谱的构建与应用

产业智能官

61+阅读 · 2017年12月18日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

汉越双语事件语料库构建及舆情观点挖掘方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于语义相似度的古代散在针灸知识框架构建研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向中文指称概念的知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于本体的多策略民汉机器翻译研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

基于贝叶斯本体的Web知识发现研究

国家自然科学基金

0+阅读 · 2009年12月31日

Judging the algorithm: A case study on the risk assessment tool for gender-based violence implemented in the Basque country

Arxiv

0+阅读 · 2022年4月20日

Councils in Action: Automating the Curation of Municipal Governance Data for Research

Arxiv

0+阅读 · 2022年4月19日

Human-Centered Explainable AI (XAI): From Algorithms to User Experiences

Arxiv

0+阅读 · 2022年4月19日

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

Arxiv

0+阅读 · 2022年4月19日

Learning to Retrieve Relevant Experiences for Motion Planning

Arxiv

0+阅读 · 2022年4月18日

Analysis for the Overwhelming Success of the Web Compared to Microcosm and Hyper-G Systems

Analysis for the Overwhelming Success of the Web Compared to Microcosm and Hyper-G Systems

Arxiv

0+阅读 · 2022年4月18日

A faster reduction of the dynamic time warping distance to the longest increasing subsequence length

Arxiv

0+阅读 · 2022年4月18日

A Catalogue of Concerns for Specifying Machine Learning-Enabled Systems

Arxiv

0+阅读 · 2022年4月15日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关VIP内容

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

面向网络空间安全情报的知识图谱综述

专知会员服务

117+阅读 · 2021年1月8日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【港中文CMSC5743】深度神经网络高效计算

专知会员服务

32+阅读 · 2020年10月9日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

32+阅读 · 2020年4月12日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

专知会员服务

17+阅读 · 2019年10月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

相关资讯

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

开放知识图谱

1+阅读 · 2021年11月11日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

中文自然语言处理相关资料集合指南

中文自然语言处理相关资料集合指南

专知

18+阅读 · 2019年3月10日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

【知识图谱】一个有效的知识图谱是如何构建的？

【知识图谱】一个有效的知识图谱是如何构建的？

产业智能官

57+阅读 · 2018年4月5日

【知识图谱】中医临床知识图谱的构建与应用

【知识图谱】中医临床知识图谱的构建与应用

产业智能官

61+阅读 · 2017年12月18日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关基金

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

汉越双语事件语料库构建及舆情观点挖掘方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于语义相似度的古代散在针灸知识框架构建研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向中文指称概念的知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于本体的多策略民汉机器翻译研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

基于贝叶斯本体的Web知识发现研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Judging the algorithm: A case study on the risk assessment tool for gender-based violence implemented in the Basque country

Arxiv

0+阅读 · 2022年4月20日

Councils in Action: Automating the Curation of Municipal Governance Data for Research

Arxiv

0+阅读 · 2022年4月19日

Human-Centered Explainable AI (XAI): From Algorithms to User Experiences

Arxiv

0+阅读 · 2022年4月19日

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

Arxiv

0+阅读 · 2022年4月19日

Learning to Retrieve Relevant Experiences for Motion Planning

Arxiv

0+阅读 · 2022年4月18日

Analysis for the Overwhelming Success of the Web Compared to Microcosm and Hyper-G Systems

Analysis for the Overwhelming Success of the Web Compared to Microcosm and Hyper-G Systems

Arxiv

0+阅读 · 2022年4月18日

A faster reduction of the dynamic time warping distance to the longest increasing subsequence length

Arxiv

0+阅读 · 2022年4月18日

A Catalogue of Concerns for Specifying Machine Learning-Enabled Systems

Arxiv

0+阅读 · 2022年4月15日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

微信扫码咨询专知VIP会员