统计学习要素(The Elements of Statistical Learning)的中文翻译、代码实现及其习题解答,附下载

2019 年 11 月 18 日 专知

【导读】斯坦福《统计学习要素》一直是机器学习领域公认经典的教材,是一本在机器学习、统计推理和模式识别领域有影响力和被广泛研究的书。而这本书一直没有得到中文翻译。近期由szcf-weiya博士整理翻译的The Elements of Statistical Learning (ESL)的中文翻译、代码实现及其习题解答公开,非常值得学习!





The Elements of Statistical Learning中文版


ESL中文版是由香港中文大学Lijun Wang博士创作的,统计学专业,包括中文翻译、代码实现及其习题解答。


项目地址:

https://github.com/szcf-weiya/ESL-CN

https://esl.hohoweiya.xyz/


序言


We are drowning in information and starving for knowledge. –Rutherford D. Roger

我们沉浸在信息中并且渴望知识。—— 卢瑟福 D.罗杰

统计学持续被科学和工业中问题所挑战。早些年,这些问题来自农业和工业实验,而且相对较小。随着计算机和信息的迅速发展,统计学问题在规模和复杂性上爆炸性增长。在数据存储、组织和搜索方面的挑战引入到了一个新的领域——数据挖掘;在生物方面的统计和计算问题形成了“生物信息学”。大量的数据正在各个领域产生,而统计学家们的工作便是搞清楚一切:提取重要特征和趋势,并且明白这些“数据在说什么”。我们称之为从数据中学习。

从数据中学习的挑战促使了统计学的革命。因为计算扮演着关键性的角色,所以很多新的发展是被像计算科学和工程这些领域的研究者完成并不奇怪。

我们考虑的学习的问题可以大致分为两大类:监督和非监督。在监督学习中,目标是根据一系列输入度量来预测输出度量的值。而在非监督学习中,没有输出度量,它的目标是描述一系列输入度量之间的联系。

这本书是我们对把在“学习”中许多重要的想法聚集起来用统计学的框架来解释的一种尝试。尽管一些数学细节是必要的,但是我们更多地强调方法以及基础的概念,而不是理论性质。因此,我们希望这本书不仅吸引统计学家,同时能够吸引更多领域的研究者们。

正如我们从非统计学领域的研究者们那里学到了很多,我们统计学的观点或许帮助其他领域的研究者们更好地理解学习的不同方面。

任何事情没有绝对正确的解释,解释只是帮助人类更好理解的一项工具而已。解释的价值是在于确保他人能够富有成效地思考一个想法。——Andreas Buja

目录

  • 第一章:导言

  • 第二章:监督学习的综述

  • 第三章:回归的线性方法(新:LAR算法和lasso的一般化)

  • 第四章:分类的线性方法(新:逻辑斯蒂回归的lasso轨迹)

  • 第五章:基本的扩展和正则化(新:RKHS的补充说明)RKHS(再生核希尔伯特空间)

  • 第六章:核光滑方法

  • 第七章:模型评估与选择(新:交叉验证的长处与陷阱)

  • 第八章:模型推论与平均

  • 第九章:补充的模型、树以及相关的方法

  • 第十章:Boosting和Additive Trees(新:生态学的新例子,一些材料分到了16章)

  • 第十一章:神经网络(新:贝叶斯神经网络和2003年神经信息处理系统进展大会(NIPS)的挑战)

  • 第十二章:支持向量机和灵活的判别式(新:SVM分类器的路径算法)

  • 第十三章:原型方法和邻近算法

  • 第十四章:非监督学习(新:谱聚类,核PCA,离散PCA,非负矩阵分解原型分析,非线性降维,谷歌pagerank算法,ICA的一个直接方法)

  • 第十五章:随机森林

  • 第十六章:实例学习

  • 第十七章:无向图模型

  • 第十八章:高维问题




习题解答

代码实现

  1. EM 算法模拟

  2. 朴素贝叶斯进行文本挖掘

  3. CART实现

  4. AdaBoost实现R&Julia

  5. MARS实现

  6. RBM,或者可以查看 Jupyter Notebook

  7. Gibbs

  8. Self-organized Map

  9. kernel estimation

  10. Resampling Method: 包括交叉验证(cv)和自助法(bootstrap)

  11. Neural Network: Simple Classification,Implementation for Section 11.6

  12. 高维问题例子: 例18.1的模拟



便捷查看请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“ESL” 就可以获取《统计学习要素(The Elements of Statistical Learning)》电子书pdf下载链接~ 



更多统计学习资料,请上专知网站查看

https://www.zhuanzhi.ai/topic/2001035706592432/vip




-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册成为专知会员,查看5000+AI主题知识资料
登录查看更多
39

相关内容

统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括: 生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
388+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
223+阅读 · 2020年5月2日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【新书】Python中的经典计算机科学问题,224页pdf
专知会员服务
143+阅读 · 2019年12月28日
【电子书】机器学习实战(Machine Learning in Action),附PDF
专知会员服务
123+阅读 · 2019年11月25日
免费中文书籍-《神经网络与深度学习》中文版推荐
深度学习与NLP
20+阅读 · 2019年4月2日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
基于信息理论的机器学习
专知
21+阅读 · 2017年11月23日
Arxiv
4+阅读 · 2018年10月5日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
Top
微信扫码咨询专知VIP会员