基于条件随机域切分模型的基因组词语组合挖掘研究 - 专知基金

会员服务 ·

0

DNA分词 · 计算语言学 · 迁移学习 · 生物词典 ·

2011 年 12 月 31 日

基于条件随机域切分模型的基因组词语组合挖掘研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于条件随机域切分模型的基因组词语组合挖掘研究

项目编号： No.61172099

项目类型： 面上项目

立项/批准年度： 2012

项目学科： 电子学与信息系统

项目作者： 徐永东

作者单位： 哈尔滨工业大学

项目金额： 60万元

中文摘要： 本申请从语言学角度，将生物全基因组作为由词语模式组成的序列进行整体分析，利用计算语言学方法结合DNA序列的生物特性，进行全基因组的词语模式挖掘。首先在已有的生物数据库的基础上，将现有的基因组功能位点作为标准词条，深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于机器学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立多物种的层次词语模式词典。在最为关键的序列最优切分算法中，引入了条件随机域模型，综合利用局部、全局特征来挖掘词语切分的最优路径。在模型学习问题上，建立可与之有效映射的英文序列切分模型，利用迁移学习策略解决了DNA序列分析缺乏标准训练数据这一瓶颈问题。本申请的相关研究成果是全面理解全基因组的结构、功能的重要基础，同时可将现有的大量计算生物学问题从粗粒度的碱基层面的研究提升到词语层面的研究，从而将生命科学的发展起到积极的促进作用。

中文关键词： DNA分词；计算语言学；条件随机场模型；迁移学习；生物词典

英文摘要：

英文关键词： DNA segmentation；computational linguistics；condition random field model；transfer learning；biological dictionary

成为VIP会员查看完整内容

0

相关内容

DNA分词

基于文档的对话技术研究

基于文档的对话技术研究

专知会员服务

20+阅读 · 2022年2月20日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

22+阅读 · 2022年1月5日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

元学习-生物医学中连接标记和未标记数据

元学习-生物医学中连接标记和未标记数据

专知会员服务

30+阅读 · 2021年8月3日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

105+阅读 · 2020年2月20日

给研究思路就能推荐数据集，还能分析语料“毒性”，CMU博士后等人推出NLP数据处理神器

给研究思路就能推荐数据集，还能分析语料“毒性”，CMU博士后等人推出NLP数据处理神器

量子位

0+阅读 · 2022年3月3日

赛尔笔记 | 通用领域条件性知识图谱数据集

赛尔笔记 | 通用领域条件性知识图谱数据集

哈工大SCIR

2+阅读 · 2021年6月7日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于互联网海量信息的数据库文本类型数据清洗研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于数据挖掘的组蛋白修饰模式发现及转录调控功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于核范数低秩表示的基因转录模块识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于结构模型的miRNA协同作用模式数据挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

茎瘤芥（榨菜）主产区土壤微生物群落特征分析及抗根肿菌基因资源的挖掘

国家自然科学基金

0+阅读 · 2011年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

生物基因表达数据中局部模式的挖掘与研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于特征挖掘的生物网络构建算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

Representation of short distances in structurally sparse graphs

Arxiv

0+阅读 · 2022年4月19日

A Survey on Deep Hashing Methods

A Survey on Deep Hashing Methods

Arxiv

1+阅读 · 2022年4月19日

IsoScore: Measuring the Uniformity of Embedding Space Utilization

IsoScore: Measuring the Uniformity of Embedding Space Utilization

Arxiv

0+阅读 · 2022年4月18日

Polynomial-time sparse measure recovery

Arxiv

0+阅读 · 2022年4月16日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Arxiv

16+阅读 · 2020年1月2日

Graph Signal Processing -- Part I: Graphs, Graph Spectra, and Spectral Clustering

Arxiv

14+阅读 · 2019年8月12日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

计算语言学

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关VIP内容

基于文档的对话技术研究

基于文档的对话技术研究

专知会员服务

20+阅读 · 2022年2月20日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

22+阅读 · 2022年1月5日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

元学习-生物医学中连接标记和未标记数据

元学习-生物医学中连接标记和未标记数据

专知会员服务

30+阅读 · 2021年8月3日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

105+阅读 · 2020年2月20日

相关资讯

给研究思路就能推荐数据集，还能分析语料“毒性”，CMU博士后等人推出NLP数据处理神器

给研究思路就能推荐数据集，还能分析语料“毒性”，CMU博士后等人推出NLP数据处理神器

量子位

0+阅读 · 2022年3月3日

赛尔笔记 | 通用领域条件性知识图谱数据集

赛尔笔记 | 通用领域条件性知识图谱数据集

哈工大SCIR

2+阅读 · 2021年6月7日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

相关基金

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于互联网海量信息的数据库文本类型数据清洗研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于数据挖掘的组蛋白修饰模式发现及转录调控功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于核范数低秩表示的基因转录模块识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于结构模型的miRNA协同作用模式数据挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

茎瘤芥（榨菜）主产区土壤微生物群落特征分析及抗根肿菌基因资源的挖掘

国家自然科学基金

0+阅读 · 2011年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

生物基因表达数据中局部模式的挖掘与研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于特征挖掘的生物网络构建算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

Representation of short distances in structurally sparse graphs

Arxiv

0+阅读 · 2022年4月19日

A Survey on Deep Hashing Methods

A Survey on Deep Hashing Methods

Arxiv

1+阅读 · 2022年4月19日

IsoScore: Measuring the Uniformity of Embedding Space Utilization

IsoScore: Measuring the Uniformity of Embedding Space Utilization

Arxiv

0+阅读 · 2022年4月18日

Polynomial-time sparse measure recovery

Arxiv

0+阅读 · 2022年4月16日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Arxiv

16+阅读 · 2020年1月2日

Graph Signal Processing -- Part I: Graphs, Graph Spectra, and Spectral Clustering

Arxiv

14+阅读 · 2019年8月12日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

微信扫码咨询专知VIP会员