项目名称: 信息距离理论及其应用的研究
项目编号: No.60973104
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 朱小燕
作者单位: 清华大学
项目金额: 30万元
中文摘要: 信息距离(Information Distance)是衡量事物本质联系的一种通用性度量,具有普适性、领域无关性、参数无关性等优越的性质。该理论已经在非参数的知识挖掘,文本信息处理、基因和蛋白质序列比对等领域得到了成功的应用。本项目将对信息距离的若干重要理论问题进行深入探讨,并在文本信息挖掘领域展开应用研究。在理论研究方面,研究重点将集中在:在深入分析max型和min型信息距离的基础上,提出综合模型,扩展现有模型的描述能力;完善多个对象间的信息度量,进一步研究多个对象间的min型信息距离和条件信息度量的问题;研究信息距离的近似算法,扩展信息距离理论的应用范围。在实际应用方面,将把信息距离理论应用到问答系统、文档摘要系统和评论信息挖掘系统中,利用信息距离理论刻画出词与词之间,句子与句子之间,问题与答案之间,多个文档之间,词语情感程度之间的信息度量,并利用新提出的近似算法,提高这些系统的性能。
中文关键词: 信息距离;自然语言处理;;文本挖掘;情感计算;
英文摘要:
英文关键词: Information distance;natural language processing;text mining;sentiment computation;