作者 | Kevin Hannay编译 | bluemin对于机器学习/数据科学的研究者而言,回归分析是最基础的功课之一,可以称得上是大多数机器学习/数据科学研究的起点。 本文作者 Kevin Hannay 是一位从生物学跨界到数学、数据科学的研究者,而他之所以选择“跨界”的原因便是数学学科能够让他脱离死记硬背的苦海,完全以像回归分析这样的方式来推导结论。在他看来,基本上所有的问题都能够用回归分析的思维来解决。他认为,在机器学习/数据科学的模型创建中,应该从停止死记硬背开始,而更多地借用回归分析的思维。相信他的分享能够给大家一些启发,下面来看他的分享:
在某些情况下,我们可能只关心结果的趋势,而不关心结果的大小,这属于双样本 t 检验的统计检验范畴。在基础统计学课程中,我们学过使用双样本t检验来评估这两种条件下收集的数据,以证明平均值的差异:控制组和实验组。为了在 R 语言中执行这个检验,首先要从相当大的选秀数据集中创建一个较小的数据集。下面的命令只生成包含100个球员的随机子集供我们比较,还在数据集中创建一个乐透区列以便进行良好的计算。设置两个组进行双样本t检验,使用相同的随机种子值可以得到与我一样的结果现在已准备好用R语言运行 t 检验。进行双样本t检验以寻找乐透区和非乐透区选秀的NBA球员的每场比赛平均职业积分的差异现在注意结果中的 p 值,这里相对较小的值表明,在原假设的情况下数据不太可能达到P值。现在,将其作为具有分类特征的线性回归进行检验。下面将用R语言显示简单线性回归的summary命令结果。上面已经强调了重要的一点,将其与我们使用双样本t检验得到的结果进行比较,t值和p值是一样的!另外,使用R语言查看回归的summary结果时,注意到summary结果的最后一行重复了相同的p值,这是在整个回归模型上运行 F 检验的结果。通过检验,可以知道模型中的任何特征是否在统计学意义上偏离零。在这个简单的例子中只有一个特征,因而基于模型的F检验和基于乐透区特征的T检验等价,但两者在多元回归(超过1个特征)中将有所不同。
教科书方面,我推荐《Statistical Rethinking》,另外基础统计学类的书籍,大家可尝试阅读下《All of Statistics》;而一些更高级的回归分析方面的书籍,我建议大家关注一下Gelman和Hill两位学者。via https://towardsdatascience.com/everything-is-just-a-regression-5a3bf22c459c?gi=fdba1e4d53ca