项目名称: 基于条件随机域切分模型的基因组词语组合挖掘研究
项目编号: No.61172099
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 电子学与信息系统
项目作者: 徐永东
作者单位: 哈尔滨工业大学
项目金额: 60万元
中文摘要: 本申请从语言学角度,将生物全基因组作为由词语模式组成的序列进行整体分析,利用计算语言学方法结合DNA序列的生物特性,进行全基因组的词语模式挖掘。首先在已有的生物数据库的基础上,将现有的基因组功能位点作为标准词条,深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于机器学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立多物种的层次词语模式词典。在最为关键的序列最优切分算法中,引入了条件随机域模型,综合利用局部、全局特征来挖掘词语切分的最优路径。在模型学习问题上,建立可与之有效映射的英文序列切分模型,利用迁移学习策略解决了DNA序列分析缺乏标准训练数据这一瓶颈问题。 本申请的相关研究成果是全面理解全基因组的结构、功能的重要基础,同时可将现有的大量计算生物学问题从粗粒度的碱基层面的研究提升到词语层面的研究,从而将生命科学的发展起到积极的促进作用。
中文关键词: DNA分词;计算语言学;条件随机场模型;迁移学习;生物词典
英文摘要:
英文关键词: DNA segmentation;computational linguistics;condition random field model;transfer learning;biological dictionary