Recent advances in computational methods for designing biological sequences have sparked the development of metrics to evaluate these methods performance in terms of the fidelity of the designed sequences to a target distribution and their attainment of desired properties. However, a single software library implementing these metrics was lacking. In this work we introduce seqme, a modular and highly extendable open-source Python library, containing model-agnostic metrics for evaluating computational methods for biological sequence design. seqme considers three groups of metrics: sequence-based, embedding-based, and property-based, and is applicable to a wide range of biological sequences: small molecules, DNA, ncRNA, mRNA, peptides and proteins. The library offers a number of embedding and property models for biological sequences, as well as diagnostics and visualization functions to inspect the results. seqme can be used to evaluate both one-shot and iterative computational design methods.


翻译:近期,用于设计生物序列的计算方法取得了显著进展,这推动了评估这些方法性能的指标发展,这些指标关注设计序列对目标分布的保真度及其对期望属性的实现程度。然而,目前缺乏一个统一实现这些指标的软件库。本研究介绍了seqme,一个模块化且高度可扩展的开源Python库,包含用于评估生物序列设计计算方法的模型无关指标。seqme涵盖三类指标:基于序列的、基于嵌入的和基于属性的,适用于广泛的生物序列类型:小分子、DNA、非编码RNA、mRNA、肽和蛋白质。该库提供了多种生物序列的嵌入和属性模型,以及用于检查结果的诊断和可视化功能。seqme可用于评估一次性计算设计方法和迭代计算设计方法。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2月26日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关VIP内容
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2月26日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员