项目名称: 藏文字符信息熵研究
项目编号: No.61163018
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 才智杰
作者单位: 青海师范大学
项目金额: 47万元
中文摘要: 信息熵(ENTROPY)用于度量某事件的不确定性,自1865年引入信息论以来,为信息的计量、传递 、变换、存储提供了理论依据。美国的信息产业能有称雄世界的实力,跟坚实信息熵的基础建设分不开。早在70年代冯志伟先生等人经过10余年的辛勤工作完成了汉文信息熵的研究,在中文信息处理领域做出了巨大的贡献。虽然藏文信息处理起步较晚,但在国家各部委的大力支持下取得了很多成果,语料库规模日趋增大,为藏文信息熵研究奠定了坚实的基础,也使藏文信息熵的研究变为可能。为全面准确地研究藏文字符信息熵,本项目拟解决以下四个方面的问题:一是收集、整理和统一藏语语料,并制订藏语语料库建设规范;二是研究藏文字构件分解问题;三是在项目组现有的基于规则和词典的藏文分词系统基础上,研究基于统计的藏文分词技术,开发基于词典和统计相结合的藏文分词系统;四是藏文字、构件和词的频度统计,分别建立频度表,并计算藏文字符的信息熵和多余度。
中文关键词: 藏文信息处理;藏文字符;信息熵;频度;语料库
英文摘要:
英文关键词: Tibetan information processing;Tibetan character;information entropy;frequency;corpus