题目
机器学习教程:生物导体MLInterfaces包到基因表达数据的应用,applications of the BioconductorMLInterfaces package to gene expression datataset
简介
术语机器学习是指分析多变量数据集的一系列计算方法。在共享特征空间中,每个数据点都有一个特征向量,并且可能有来自某个固定有限集的类标签。有监督的学习是指帮助阐明映射特征向量到类标签的规则的过程。类标签是已知的,起着指导规则构造的监督信息的作用。无监督学习是指在特征向量集合中发现结构的过程。典型的结构是由一组对象组成的集群。机器学习的实际介绍将从一个低维数据集的调查开始,以修正概念,然后将解决来自基因组数据分析的问题,使用RNA表达和染色质状态数据。开始时需要考虑的一些基本点:
- 区分预测建模和模型参数推断。典型的流行病学工作侧重于相对风险的估计,不需要随机抽样。使用机器学习工具的典型工作目标估计(和最小化)错误分类率。这项任务需要有代表性的样品
- “两种文化”:模型装配者与算法预测者。如果统计模型是正确的,基于大量数据的参数估计可以得到最优的discrim inators(如LDA)。算法鉴别器倾向于识别有界情况并降低数据量(如boosting、svm)
- 不同的学习工具有不同的能力。有很少的优先指导将学习算法与问题的各个方面相匹配。虽然通过各种方法进行运输是很方便的,但人们必须为模型搜索付出代价
- 数据和模型/学习者可视化是重要的,但是高维数据结构的可视化是困难的。动态图形可以帮助你;看看ggobi和rggobi
- 这些注释很少提供有关这些方法的数学背景;请参见示例Ripley(模式识别和神经网络,1995年)、Duda、Hart、Stork(模式分类)、Hastine、Tibshirani和Friedman(2003年,统计学习要素)了解丰富的背景。
作者
VJ Carey