项目名称: 基于汉语话题的句际关系自动分析研究
项目编号: No.61371129
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 无线电电子学、电信技术
项目作者: 吴云芳
作者单位: 北京大学
项目金额: 80万元
中文摘要: 话题和无标记的主次复句是语言类型学上汉语的两个显赫范畴,话题识别和句际关系分析有着重要的应用价值。本项目论证了话题是复杂的句际结构生成的形式标记,将利用话题来实现意合性小句的计算机自动理解。(1)汉语话题自动识别,话题小句识别将在全新视角下对逗号进行分类,话题成分识别将基于大规模语料库语义泛化后进行语义相似度计算来验证候选话题句的合格性。(2)句际层级结构分析,利用话题、关联标记、句间相似度自顶向下对文本进行分隔。(3)句际逻辑关系判定,利用小句的事件义、情感义、否定义、时态义、结构义等不同语义范畴特征进行SVM分类,将利用LDA模型将词汇特征转换为主题空间中的三类特征,将利用LinkLDA模型来捕捉逻辑关系对两个论元的协同语义制约。(4)验证系统,基于大规模语料来拟合不同句际关系的权值来提升文本情感计算的性能。(5)语言资源建设,将构建100万字、15万句的汉语话题和句际关系标注语料库。
中文关键词: 句法分析;语义分析;句际关系;问答关联度;句际关系语料库
英文摘要: Topic and unmarked complex sentence are two kinds of mighty categories within the framework of linguistic typology, and topic identification and discourse relation recognition have wide and important application usages in natural language processing. This
英文关键词: discourse parsing;semantic analysis;discourse relation;question-answer similarity ;discourse corpus