项目名称: 藏文字符排序研究
项目编号: No.60963016
项目类型: 地区科学基金项目
立项/批准年度: 2010
项目学科: 金属学与金属工艺
项目作者: 黄鹤鸣
作者单位: 青海师范大学
项目金额: 22万元
中文摘要: 藏文字符排序是藏文语料库建设、信息检索、机器翻译以及拼写检查等领域的基础,虽然已有一些科研机构做了一些前期研究,但问题远没有彻底解决。导致藏文排序比较困难的原因有:1.排序码的国际标准DUCET中,部分藏文字母的排序码不符合排序要求;2.不同类型的藏文字符串有不同的排序规则,因此,排序前需要判断待排序字符串的类型;3.现代藏文音节、梵音藏文组合字符是藏文字母的二维组合,排序时需要将它们展成一维的字符串,而复杂多变的二维结构使得这种"降维"过程很繁琐。本项目致力于彻底解决藏文字符的字典排序问题。为此,首先修订DUCET中部分藏文字符的排序码,使得所有藏文字符的排序码符合排序要求;其次,在此基础上设计藏文字符排序算法,该算法主要包括以下几个步骤:1.判定藏文字符串的类型;2.不同类型的字符串按照各自的规则展成一维字母串;3.通过比较一维字母串间的顺序,得到待排序字符串间的顺序。
中文关键词: 藏文;字符;排序;Unicode;ISO 10646
英文摘要:
英文关键词: Tibetan;character;collation;Unicode;ISO 10646