项目名称: 藏文字符信息熵研究

项目编号: No.61163018

项目类型: 地区科学基金项目

立项/批准年度: 2012

项目学科: 自动化技术、计算机技术

项目作者: 才智杰

作者单位: 青海师范大学

项目金额: 47万元

中文摘要: 信息熵(ENTROPY)用于度量某事件的不确定性,自1865年引入信息论以来,为信息的计量、传递 、变换、存储提供了理论依据。美国的信息产业能有称雄世界的实力,跟坚实信息熵的基础建设分不开。早在70年代冯志伟先生等人经过10余年的辛勤工作完成了汉文信息熵的研究,在中文信息处理领域做出了巨大的贡献。虽然藏文信息处理起步较晚,但在国家各部委的大力支持下取得了很多成果,语料库规模日趋增大,为藏文信息熵研究奠定了坚实的基础,也使藏文信息熵的研究变为可能。为全面准确地研究藏文字符信息熵,本项目拟解决以下四个方面的问题:一是收集、整理和统一藏语语料,并制订藏语语料库建设规范;二是研究藏文字构件分解问题;三是在项目组现有的基于规则和词典的藏文分词系统基础上,研究基于统计的藏文分词技术,开发基于词典和统计相结合的藏文分词系统;四是藏文字、构件和词的频度统计,分别建立频度表,并计算藏文字符的信息熵和多余度。

中文关键词: 藏文信息处理;藏文字符;信息熵;频度;语料库

英文摘要:

英文关键词: Tibetan information processing;Tibetan character;information entropy;frequency;corpus

成为VIP会员查看完整内容
0

相关内容

2022城市大脑建设标准研究报告,36页pdf
专知会员服务
60+阅读 · 2022年4月7日
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
【经典书】线性代数与应用,698页pdf
专知会员服务
88+阅读 · 2021年9月27日
专知会员服务
36+阅读 · 2021年2月22日
专知会员服务
30+阅读 · 2021年2月7日
企业风险知识图谱的构建及应用
专知会员服务
97+阅读 · 2020年11月6日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
自动化所2项成果荣获北京市科学技术奖一等奖
中国科学院自动化研究所
0+阅读 · 2021年9月27日
赛尔笔记 | 通用领域条件性知识图谱数据集
哈工大SCIR
2+阅读 · 2021年6月7日
【NER综述】近五年中文电子病历命名实体识别研究进展
深度学习自然语言处理
11+阅读 · 2020年8月24日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
赛尔原创 | 开放域中文知识图谱《大词林》
哈工大SCIR
71+阅读 · 2018年4月16日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Arxiv
19+阅读 · 2018年5月17日
小贴士
相关VIP内容
2022城市大脑建设标准研究报告,36页pdf
专知会员服务
60+阅读 · 2022年4月7日
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
【经典书】线性代数与应用,698页pdf
专知会员服务
88+阅读 · 2021年9月27日
专知会员服务
36+阅读 · 2021年2月22日
专知会员服务
30+阅读 · 2021年2月7日
企业风险知识图谱的构建及应用
专知会员服务
97+阅读 · 2020年11月6日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
相关资讯
自动化所2项成果荣获北京市科学技术奖一等奖
中国科学院自动化研究所
0+阅读 · 2021年9月27日
赛尔笔记 | 通用领域条件性知识图谱数据集
哈工大SCIR
2+阅读 · 2021年6月7日
【NER综述】近五年中文电子病历命名实体识别研究进展
深度学习自然语言处理
11+阅读 · 2020年8月24日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
赛尔原创 | 开放域中文知识图谱《大词林》
哈工大SCIR
71+阅读 · 2018年4月16日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员