Motivation: Alignment-free (AF) distance/similarity functions are a key tool for sequence analysis. Experimental studies on real datasets abound and, to some extent, there are also studies regarding their control of false positive rate (Type I error). However, assessment of their power, i.e., their ability to identify true similarity, has been limited to some members of the D2 family by experimental studies on short sequences, not adequate for current applications, where sequence lengths may vary considerably. Such a State of the Art is methodologically problematic, since information regarding a key feature such as power is either missing or limited. Results: By concentrating on a representative set of word-frequency based AF functions, we perform the first coherent and uniform evaluation of the power, involving also Type I error for completeness. Two Alternative models of important genomic features (CIS Regulatory Modules and Horizontal Gene Transfer), a wide range of sequence lengths from a few thousand to millions, and different values of k have been used. As a result, we provide a characterization of those AF functions that is novel and informative. Indeed, we identify weak and strong points of each function considered, which may be used as a guide to choose one for analysis tasks. Remarkably, of the fifteen functions that we have considered, only four stand out, with small differences between small and short sequence length scenarios. Finally, in order to encourage the use of our methodology for validation of future AF functions, the Big Data platform supporting it is public.


翻译:动力:无协调(AF)距离/相似功能是进行序列分析的关键工具。关于真实数据集的实验研究是分析序列的关键工具。关于真实数据集的实验性研究很多,而且在某种程度上,还研究它们控制假正率(Type I 错误),但是,通过对短序列的实验研究,评估其权力,即它们确定真正相似性的能力,仅限于D2家族的一些成员,这些短序列的序列长度不足够,对当前应用程序的序列长度可能差异很大。这种艺术状态在方法上存在问题,因为有关权力等关键特征的信息要么缺失,要么有限。结果:通过集中对一组有代表性的以字频为基础的AF函数进行实验性研究,我们首次对权力进行了一致和统一的评估,其中也包括类型I对完整性的错误。两种重要的基因组合特征的替代模型(CIS管理模块和水平基因传输),其序列长度范围很广,从几千到数百万不等,而且使用k值也各不相同。结果,我们为这些功能的定性提供了新颖和信息。结果:我们通过集中的一组基于基于基于字频频频谱的功能,我们选择了每个功能的薄弱和强点,最后选择了每个功能的模型的细度分析。我们所考虑的细图的细图的细数。我们所考虑的大小。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】RNN无损压缩方法DeepZip(附代码)
机器学习研究会
5+阅读 · 2018年1月1日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年11月29日
Arxiv
5+阅读 · 2020年8月28日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】RNN无损压缩方法DeepZip(附代码)
机器学习研究会
5+阅读 · 2018年1月1日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年11月29日
Arxiv
5+阅读 · 2020年8月28日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
5+阅读 · 2015年9月14日
Top
微信扫码咨询专知VIP会员