Foundation models for protein design raise concrete biosecurity risks, yet the community lacks a simple, reproducible baseline for sequence-level hazard screening that is explicitly evaluated under homology control and runs on commodity CPUs. We introduce SafeBench-Seq, a metadata-only, reproducible benchmark and baseline classifier built entirely from public data (SafeProtein hazards and UniProt benigns) and interpretable features (global physicochemical descriptors and amino-acid composition). To approximate "never-before-seen" threats, we homology-cluster the combined dataset at <=40% identity and perform cluster-level holdouts (no cluster overlap between train/test). We report discrimination (AUROC/AUPRC) and screening-operating points (TPR@1% FPR; FPR@95% TPR) with 95% bootstrap confidence intervals (n=200), and we provide calibrated probabilities via CalibratedClassifierCV (isotonic for Logistic Regression / Random Forest; Platt sigmoid for Linear SVM). We quantify probability quality using Brier score, Expected Calibration Error (ECE; 15 bins), and reliability diagrams. Shortcut susceptibility is probed via composition-preserving residue shuffles and length-/composition-only ablations. Empirically, random splits substantially overestimate robustness relative to homology-clustered evaluation; calibrated linear models exhibit comparatively good calibration, while tree ensembles retain slightly higher Brier/ECE. SafeBench-Seq is CPU-only, reproducible, and releases metadata only (accessions, cluster IDs, split labels), enabling rigorous evaluation without distributing hazardous sequences.


翻译:蛋白质设计的基础模型带来了具体的生物安全风险,然而社区目前缺乏一种简单、可复现的序列级危害筛查基线方法,该方法需在同源控制下进行明确评估,并能在商用CPU上运行。我们提出了SafeBench-Seq,这是一个仅基于元数据、可复现的基准测试和基线分类器,完全使用公开数据(SafeProtein危害序列与UniProt良性序列)和可解释特征(全局理化描述符与氨基酸组成)构建。为近似模拟“前所未见”的威胁,我们将合并数据集在<=40%序列同一性下进行同源聚类,并执行聚类级数据划分(训练集与测试集之间无聚类重叠)。我们报告了区分性能(AUROC/AUPRC)和筛查操作点(TPR@1% FPR;FPR@95% TPR),并提供了95%自助法置信区间(n=200);同时通过CalibratedClassifierCV(逻辑回归/随机森林使用isotonic校准;线性SVM使用Platt sigmoid校准)提供校准后的概率。我们使用Brier分数、期望校准误差(ECE;15个分箱)和可靠性图来量化概率质量。通过保留组成的残基随机重排以及仅基于长度/组成的消融实验,探究了捷径学习的敏感性。实证表明,相对于同源聚类评估,随机划分会显著高估模型的鲁棒性;校准后的线性模型展现出相对较好的校准性能,而树集成模型则保留了略高的Brier分数/ECE。SafeBench-Seq仅需CPU即可运行、具有可复现性,且仅发布元数据(序列编号、聚类ID、划分标签),从而实现在不传播危害序列的前提下进行严格评估。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员