项目名称: 基于组合范畴语法的汉语深层句法分析

项目编号: No.61300064

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 孙薇薇

作者单位: 北京大学

项目金额: 23万元

中文摘要: 深层句法分析旨在获取比传统的短语结构分析和依存分析更为深层的语法信息,并提供通向组合语义分析的透明接口,是近些年兴起的一个重要研究课题。本项目提出基于组合范畴语法来研究汉语深层句法分析,力图在范畴语法和汉语句法分析两方面取得创新性成果和研究性进展,为汉语的语义理解等深层文本分析任务提供支撑。为实现这一目标,我们将着重研究基于深层词汇计算的词法消歧和语义驱动的句法消歧等两项深层句法分析的核心技术,构建汉语深层句法分析器。在此基础上,将进一步研究辨别式与隐变量生成模型的集成学习,异质数据融合以及无指导词汇归纳等三个统计机器学习问题,藉此从学习算法和拓展数据源两个方面来改进深层句法分析。本项目的最终目标是探索汉语深层句法分析问题、研究相关核心技术并构建高质量的语言理解系统,从而为文本数据挖掘、问答系统、机器翻译等研究领域提供有益参考。

中文关键词: 组合范畴语法;深层依存分析;基于状态转换的句法分析;基于因子分解的句法分析;增量式句法分析

英文摘要: Compared to shallow phrase-structure and dependency parsing, deep parsing can provide more detailed syntactic information and better integrated interface for composition semantics. It has drawn more and more attention in the past several years. This proposal is concerned with Chinese deep parsing based on Combinatory Categorial Grammars (CCG). The goal is to develop better deep parsing techniques, especially for the Chinese language. First, we will study (1) deep lexical processing techniques for lexical disambiguation and (2) semantics-driven models for syntactic disambiguation, which are the core modules of a deep parser. In addition, we will study (1) hybrid discriminative and symbol-refined generative learing, (2) heterogeneous treebank ensemble and (3) unsupervised lexical acquisition. These advanced statistical machine learning techniques can be applied to enhance deep parsers as well as many other NLP systems. We propose to study both linguistic and computational problems in deep parsing, and to build high-quality language understanding systems for Chinese.Our research will benefit research on text mining, question answering, machine translation, just to name a few.

英文关键词: Combinatory Categorial Grammar;Deep Dependency Parsing;Transition-based Parsing;Factorization-based Parsing;Incremental Parsing

成为VIP会员查看完整内容
0

相关内容

自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
专知会员服务
67+阅读 · 2021年8月20日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
29+阅读 · 2020年9月18日
专知会员服务
22+阅读 · 2020年9月11日
专知会员服务
25+阅读 · 2020年9月9日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐
哈工大SCIR
0+阅读 · 2022年3月11日
哈工大SCIR八篇论文被EMNLP-IJCNLP 2019录用
哈工大SCIR
23+阅读 · 2019年8月14日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
27+阅读 · 2018年4月12日
小贴士
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
专知会员服务
67+阅读 · 2021年8月20日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
29+阅读 · 2020年9月18日
专知会员服务
22+阅读 · 2020年9月11日
专知会员服务
25+阅读 · 2020年9月9日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
相关资讯
赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐
哈工大SCIR
0+阅读 · 2022年3月11日
哈工大SCIR八篇论文被EMNLP-IJCNLP 2019录用
哈工大SCIR
23+阅读 · 2019年8月14日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员