项目名称: 基于字依存的中文精细结构标注及其学习算法研究
项目编号: No.60903119
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 金属学与金属工艺
项目作者: 赵海
作者单位: 上海交通大学
项目金额: 18万元
中文摘要: 中文信息处理的基础问题是确定句子层的基本结构信息,包括的处理任务从词的切分开始直至确定句法语义成分。本项目将重点解决目前中文信息处理中的两个关键性的基础问题,一是如何有效而弹性地定义中文句子的基础结构,特别是能够有效涵盖包括词法层在内的精细结构信息;二是如何有效率地学习这些基础结构信息,同时有效地提高句子一级的学习性能。主要研究内容包括:1)在语言学理论的指导下,研究基本的字依存树定义方法,探索一种具有较少的争议性以及符合语言学直觉的中文基础结构关系的表示方法;2)在研究现有的基于整个句子层面的机器学习框架的基础上,探索既能有效的实现特征表达同时又能高效的学习框架和新的学习模型,以更好地完成依存关系及其派生出来的各种结构化信息学习,同时能够在实用性环境下提升整句学习的性能;为了充分利用有限的学习资源,探索新的半监督度量方法,以便有效地降低标注的人力成本同时进一步地改进学习性能。
中文关键词: 字依存;依存结构学习;非监督学习;;
英文摘要:
英文关键词: character-level dependency;dependency structure learning;unsupervised learning;;