项目名称: 引入二级结构信息的RNA序列快速比对

项目编号: No.61003168

项目类型: 青年科学基金项目

立项/批准年度: 2011

项目学科: 金属学与金属工艺

项目作者: 宋丹丹

作者单位: 北京理工大学

项目金额: 7万元

中文摘要: RNA二级结构信息的描述及预测是对RNA这一种类多样、功能重要的生物大分子进行快速比对,从而进行功能研究的基础。项目研究提出了基于条件随机场的RNA二级结构描述模型及预测方法,完成了问题理论性描述、数学模型建立、公式推导验证、实现程序编写,以及实验数据准备及验证工作。目前该部分成果正在整理待发表阶段。 同时,将本项目的理论基础应用到网页结构化数据分析研究中,提出了一种基于DOM树结构计算文本密度的网页核心内容块抽取算法,相关研究成果已被国际顶级学术会议ACM SIGIR 2011 (中国计算机学会推荐国际会议中信息检索领域唯一A类推荐,SCI检索,录用率19.8%,影响因子2.33)录用为长文,并申请了国内专利"基于DOM节点文本密度的网页核心块确定方法"。

中文关键词: 条件随机场;RNA二级结构;网页核心块抽取;DOM树;文本密度

英文摘要: Description and prediction of RNA secondary structures is the basis for rapid alignment and functional analysis of RNAs, as RNA is biological molecular with various types and significant functions. We proposed a Conditional Random Fields (CRF) based RNA secondary structure description and analysis method under the support of the project. The theoretical presentation of the problem, mathematical modeling, equation induction and verification, program coding, and experimental setup and validation are completed. Paper is prepared. In the meanwhile, we applied the theoretical basics of the project on the research of structured data extraction of web pages. A DOM based content extraction method via text density is proposed. The paper is published as a full paper on the ACM SIGIR 2011 Conference, which is the most top conference as suggested as Rank A by CCF, SCI indexed, with a accept rate 19.8%, impact factor 2.33). A domestic patent was applied, named "A Content Extraction Method Based on Text Density of DOM nodes".

英文关键词: Conditional Random Field (CRF); RNA secondary structure; Content Extraction; DOM tree; text density

成为VIP会员查看完整内容
1

相关内容

条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
快速卷积算法的综述研究
专知会员服务
26+阅读 · 2021年10月25日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
68+阅读 · 2021年3月27日
注意力机制综述
专知会员服务
198+阅读 · 2021年1月26日
小目标检测技术研究综述
专知会员服务
114+阅读 · 2020年12月7日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
28+阅读 · 2019年11月12日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
自动化所主办期刊MIR被ESCI、EI等五大数据库收录!
中国科学院自动化研究所
3+阅读 · 2022年3月28日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
17+阅读 · 2022年1月11日
Arxiv
23+阅读 · 2018年10月24日
小贴士
相关VIP内容
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
快速卷积算法的综述研究
专知会员服务
26+阅读 · 2021年10月25日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
68+阅读 · 2021年3月27日
注意力机制综述
专知会员服务
198+阅读 · 2021年1月26日
小目标检测技术研究综述
专知会员服务
114+阅读 · 2020年12月7日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
28+阅读 · 2019年11月12日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关资讯
自动化所主办期刊MIR被ESCI、EI等五大数据库收录!
中国科学院自动化研究所
3+阅读 · 2022年3月28日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员