【观点】关于机器学习你必须了解的十个真相

2017 年 11 月 6 日 专知

作为一个经常向非专业人士解释机器学习的人,我整理了以下十点内容作为对机器学习的一些解释说明。

  1. 机器学习意味着从数据中学习;而AI则是一个时髦的词。机器学习并不像天花乱坠的宣传那样:通过向适当的学习算法提供适当的训练数据,你可以解决无数的难题。把它称之为AI吧,如果这有助于销售你的AI系统的话。但你要知道,AI只是一个时髦的词,这只代表了人们对它的期望而已。

  2. 机器学习主要涉及到数据和算法,但最主要的还是数据。机器学习算法特别是深度学习的进步,有很多令人兴奋的地方。但数据是使机器学习成为可能的关键因素。机器学习可以没有复杂的算法,但不能没有好的数据。

  3. 除非你有大量的数据,否则你应该坚持使用简单的模型。机器学习根据数据中的模式来训练模型,探索由参数定义的可能模型的空间。如果参数空间太大,就会对训练数据过度拟合,并训练出一个不能使自己一般化的模型。如果要对此做详细解释的话,需要进行更多的数学计算,而你应该把这一点当作为一个准则,让你的模型尽可能得简单。

  4. 机器学习的质量与训练所用数据的质量强相关。俗话说“你往计算机输入一堆垃圾,输出的一定也是一堆垃圾数据”,虽然这句话的出现早于机器学习,但这恰恰是机器学习存在的关键限制。机器学习只能发现训练数据中存在的模式。对于监督机器学习任务来说(例如分类),你需要一个健壮的、正确标记的、丰富的训练数据集。

  5. 机器学习只有在训练数据具有代表性的前提下才会起作用。正如基金招股说明书警告的那样“过去的表现不能保证未来的结果”。机器学习也应该发一个类似的警告申明:它仅能基于与训练数据相同分布的数据才能工作。因此,需警惕训练数据和生产数据之间的偏差,并经常性地重复训练模型,这样才能保证其不会过时。

  6. 机器学习大部分的工作是数据转换。在机器学习技术天花乱坠的宣传下,你可能会认为机器学习所做的主要是选择和调整算法。但现实却是平淡无奇的:你大部分的时间和精力都将花在数据清理和特征工程上,也就是将原始特征转换为能更好地代表数据信号的特征。

  7. 深度学习是一场革命性的进步,但并不是灵丹妙药。由于机器学习在很多领域都得到了应用与发展,因此深度学习也被宣传得天花乱坠。此外,深度学习促使一些传统上通过特征工程进行的工作变得自动化,特别是对于图像和视频数据。但深度学习并不是灵丹妙药。没有现成的可以让你使用,你仍然需要投入大量的精力去清理和转换数据。

  8. 机器学习系统很容易受到操作员错误的影响。向NRA道歉,“机器学习算法不会杀人,是人在杀人”。当机器学习系统出现故障时,很少是因为机器学习算法存在问题。更有可能的情况是人为的错误被引入了到训练数据中,从而产生偏差或其他的系统错误。我们应始终持怀疑的态度,并采用适用于软件工程学的方式来对待机器学习。

  9. 机器学习可能会在无意中创造了一个自我实现的预言。在机器学习的许多应用中,你今天所做的决策会影响明天收集的训练数据。一旦机器学习系统将偏差融入到模型中,它可以会继续生成偏差增强了的新训练数据。 而且,一些偏差可能会毁掉人们的生活。请负责任一点:不要创造自我实现的预言。

  10. AI不会自我觉醒、造反并毁灭人性。相当多的人似乎是从科幻电影中得到有关人造智能的概念的。我们应该从科幻小说中得到启发,但并不能这么傻,把小说误认为是现实。从有意识的邪恶人类到无意识的有偏差的机器学习模型,有太多的现实和危险需要担心。所以你可以不用担心SkyNet和“superintelligence”(译者注:SkyNet和superintelligence分别是科幻电影和科幻小说)。

机器学习涉及到的内容远远超过我上面提到的十点说明。希望这些介绍性的内容对非专业人士有用。

文章原标题《10 Things Everyone Should Know About Machine Learning》,作者:Daniel Tunkelang

来源阿里云社区

https://yq.aliyun.com/articles/202933?spm=5176.100239.0.0.BhrYkR



欢迎转发到你的微信群和朋友圈,分享专业AI知识!

特别提示:

专知,为人工智能从业者提供专业可信的AI知识分发服务;请登录www.zhuanzhi.ai或者点击阅读原文,顶端搜索“人工智能” 主题,直接获取查看获得关于机器学习更多的知识资料,包括链路荟萃动态资讯精华文章等资料,帮助你更好获取机器学习知识!如下图所示。



专知荟萃知识资料全集获取,请查看:

【专知荟萃01】深度学习知识资料大全集(入门/进阶/论文/代码/数据/综述/领域专家等)(附pdf下载)

【专知荟萃02】自然语言处理NLP知识资料大全集(入门/进阶/论文/Toolkit/数据/综述/专家等)(附pdf下载)

【专知荟萃03】知识图谱KG知识资料全集(入门/进阶/论文/代码/数据/综述/专家等)(附pdf下载)

【专知荟萃04】自动问答QA知识资料全集(入门/进阶/论文/代码/数据/综述/专家等)(附pdf下载)

【专知荟萃05】聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专家等)(附pdf下载)

【专知荟萃06】计算机视觉CV知识资料大全集(入门/进阶/论文/课程/会议/专家等)(附pdf下载)

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

【GAN货】生成对抗网络知识资料全集(论文/代码/教程/视频/文章等)

【干货】Google GAN之父Ian Goodfellow ICCV2017演讲:解读生成对抗网络的原理与应用

【AlphaGoZero核心技术】深度强化学习知识资料全集(论文/代码/教程/视频/文章等)



获取更多关于机器学习以及人工智能知识资料,请访问www.zhuanzhi.ai,  或者点击阅读原文,即可得到!


-END-

欢迎使用专知

专知,一个新的认知方式!目前聚焦在人工智能领域为AI从业者提供专业可信的知识分发服务, 包括主题定制、主题链路、搜索发现等服务,帮你又好又快找到所需知识。


使用方法>>访问www.zhuanzhi.ai, 或点击文章下方“阅读原文”即可访问专知


中国科学院自动化研究所专知团队

@2017 专知


专 · 知



关注我们的公众号,获取最新关于专知以及人工智能的资讯、技术、算法、深度干货等内容。扫一扫下方关注我们的微信公众号。

点击“阅读原文”,使用专知


登录查看更多
0

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
最新《机器学习理论初探》概述
专知会员服务
46+阅读 · 2020年5月19日
专知会员服务
124+阅读 · 2020年3月26日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
AI从业者必须了解的决策树指南
AI前线
7+阅读 · 2019年1月14日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
入坑机器学习,十个知识点你不得不知
人工智能头条
7+阅读 · 2017年9月15日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关VIP内容
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
最新《机器学习理论初探》概述
专知会员服务
46+阅读 · 2020年5月19日
专知会员服务
124+阅读 · 2020年3月26日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
相关资讯
AI从业者必须了解的决策树指南
AI前线
7+阅读 · 2019年1月14日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
入坑机器学习,十个知识点你不得不知
人工智能头条
7+阅读 · 2017年9月15日
相关论文
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
12+阅读 · 2018年1月12日
Top
微信扫码咨询专知VIP会员