入坑机器学习,十个知识点你不得不知

2017 年 9 月 15 日 人工智能头条

本文由将门创投编译授权转载

来源 | Medium


这篇文章主要面向的是非专业的读者,简单直白地介绍了机器学习的概念、内涵、以及机器学习的相关问题。对于专业人士而言也可以依据这篇文章对机器学习的概念做更深入的理解,看看如何向身边朋友们解释你所从事的工作。

 

机器学习意味着从数据中学习,而AI呢是一个比较炫酷时髦的词。


机器学习基于这样的假设:我们可以通过将正确的数据放到正确的算法中去训练解决一系列复杂的问题。当你需要融资或者发布产品的时候可以毫不犹豫的称之为人工智能(AI),但是你心里需要明白现在AI是一个几乎可以代表一切时髦用词。


机器学习包括数据和算法,但最主要的部分还是数据。


机器学习算法特别是深度学习近年来取得了极大的成功,但是你需要明白的是数据才是使机器学习成为可能的关键因素。你可以使用简单的算法实现机器学习,但是没有好的数据你将寸步难行。

 

如果没有大量的数据,那么你还是安心的使用简单的模型吧。


机器学习的任务是从数据中训练出一种模式,探索由参数定义的模型空间。如果你的参数空间太大的话,模型就会在训练数据上出现过拟合,并使得模型失去泛化性。 关于过拟合的详细解释需要很多的数学推到的,但是你需要记住的是,模型越简单越好。



机器学习的能力只能到达训练数据所能提供的水平。


“无用输入,无用输出”很好的反映了机器学习的局限性。机器学习只能在提供的训练数据中发现模式,不能够凭空学习出新模式。对于类似分类的监督学习任务来说你需要鲁棒的收集正确标注的特征丰富的数据来作为训练数据。

 

只要训练数据具有代表性的情况下机器学习才会有效。


就像教课书中曾经教会我们的一样“过去的表现并不是未来结果的保障”,机器学习只能在于训练数据同分布的数据上有效。你需要对训练数据和实际数据之间统计上的不对称性保持足够的警觉,同时需要保持模型不断地被训练让它不落伍。

 

机器学习中最复杂的工作来自于数据转换。


在阅读文献的时候你会看到很多眼花缭乱算法,你也许认为机器学习最主要的工作便是选择算法和调节参数。但真实的情况是:机器学习中需要做的最多的工作就是数据清洗和特征工程,你需要将数据的原始特征转换到能更好的表示其中信息的新特征上去。 



深度学习是一项革命性的技术,但却不是包治百病的灵丹妙药。


近些年来深度学习被捧上神堂,远远超过了其他的机器学习算法。其中的原因之一就是深度学习可以自动完成传统机器学习算法中需要特征工程才能实现的任务,特别是在图像和声音数据的处理中更是如此。但是我们需要明白深度学习不是万金油,你只能在一定的范围内应用这项技术,同时你也需要在数据清洗和变换上花上很多的精力才行。

  

机器学习极易受到误操作的影响。


“机器学习算法不会杀人,而人类却可能会自掘坟墓”。当机器学习算法失效的时候,很少因为算法本身的的错误,而大多数情况下却是人为的错误造成的。很多情况下你在训练数据中不小心引入了认为错误,或者引入了偏差和其他的系统错误。你需要时刻保持怀疑的态度来使用机器学习算法,并在应用的过程中进行严格的检查。

 

机器学习会在不经意间实现自我预言。


在很多机器学习的应用中,今天的决策会影响未来收集的训练数据。一旦机器算法模型引入了一定的模型偏差,那么它会持续的收集新的数据不断强化这一偏差。事实上有些这样的偏差确实会夺取人宝贵的生命。每一个机器学习从业者都要在心中铭记:不要创造自我实现的预言!

 


AI不会拥有自我意识,也不会崛起摧毁人类的。


令人惊讶的是,在机器学习如此普遍的今天,好多人却依旧用科幻小说和电影中的情节来定义和认识AI。的确,科幻小说可以启发人的创造力,但却不应该如此轻信科幻小说,以致于我们对真实的世界产生误解。今天的世界已经有很多需要我们去关注的危险,从别有用心的邪恶的人到无辜的被滥用的机器。所以请大家不要再去担心“天网”和超级人工智能的出现,而是应该用审慎的心态去看待机器学习,让它更加健康的发展为人类服务。



CSDN AI热衷分享 欢迎扫码关注 

登录查看更多
7

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
【机器学习课程】机器学习中的常识性问题
专知会员服务
74+阅读 · 2019年12月2日
已删除
将门创投
6+阅读 · 2019年1月2日
做机器学习和AI必备的42个数学知识点
AI前线
9+阅读 · 2018年12月6日
机器学习-我妈妈也能看懂的入门篇
深度学习世界
4+阅读 · 2018年5月16日
如何从零到一地开始机器学习 ?(附思维导图)
THU数据派
6+阅读 · 2018年4月17日
已删除
将门创投
3+阅读 · 2018年4月10日
BAT机器学习面试题及解析(266-270题)
七月在线实验室
6+阅读 · 2017年12月13日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
6+阅读 · 2019年1月2日
做机器学习和AI必备的42个数学知识点
AI前线
9+阅读 · 2018年12月6日
机器学习-我妈妈也能看懂的入门篇
深度学习世界
4+阅读 · 2018年5月16日
如何从零到一地开始机器学习 ?(附思维导图)
THU数据派
6+阅读 · 2018年4月17日
已删除
将门创投
3+阅读 · 2018年4月10日
BAT机器学习面试题及解析(266-270题)
七月在线实验室
6+阅读 · 2017年12月13日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
Top
微信扫码咨询专知VIP会员