The development of data-dependent heuristics and representations for biological sequences that reflect their evolutionary distance is critical for large-scale biological research. However, popular machine learning approaches, based on continuous Euclidean spaces, have struggled with the discrete combinatorial formulation of the edit distance that models evolution and the hierarchical relationship that characterises real-world datasets. We present Neural Distance Embeddings (NeuroSEED), a general framework to embed sequences in geometric vector spaces, and illustrate the effectiveness of the hyperbolic space that captures the hierarchical structure and provides an average 22% reduction in embedding RMSE against the best competing geometry. The capacity of the framework and the significance of these improvements are then demonstrated devising supervised and unsupervised NeuroSEED approaches to multiple core tasks in bioinformatics. Benchmarked with common baselines, the proposed approaches display significant accuracy and/or runtime improvements on real-world datasets. As an example for hierarchical clustering, the proposed pretrained and from-scratch methods match the quality of competing baselines with 30x and 15x runtime reduction, respectively.


翻译:开发反映进化距离的以数据为依存的理论和生物序列图象,对于大规模生物研究至关重要。然而,基于连续的欧几里德空间,流行的机器学习方法与模型演化的编辑距离和描述真实世界数据集的分级关系的分化组合式配制相挣扎。我们介绍了神经远程嵌入(NeuroSEED),这是将序列嵌入几何矢量空间的一般框架,并说明了超单空间的有效性,该空间捕捉了等级结构,并平均减少了22%的RMSE嵌入与最佳竞合几何方法的比重。框架的能力和这些改进的意义随后展示了如何设计出受监督和不受监督的NeurOSED处理生物信息学中多重核心任务的方法。与共同基线相比,拟议方法在实际世界数据集上显示出显著的准确性和/或运行时间改进。作为分级组合的一个实例,拟议的预先培训和抽取方法与竞争基线的质量分别与30x和15x运行时缩减相匹配。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
33+阅读 · 2021年11月30日
机器学习组合优化
专知会员服务
109+阅读 · 2021年2月16日
专知会员服务
123+阅读 · 2020年9月8日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
5+阅读 · 2017年10月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
17+阅读 · 2019年3月28日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
33+阅读 · 2021年11月30日
机器学习组合优化
专知会员服务
109+阅读 · 2021年2月16日
专知会员服务
123+阅读 · 2020年9月8日
相关资讯
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
5+阅读 · 2017年10月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员