每天能留给学习的时间不多,当入门一个新技术的时候,多么希望学到的每一个字都能立马派上用场,所以我们会偏向选择那些可以“速成”但学完依旧没有什么卵用的技能,对于可以提升整体实力的技能,却只停留在跃跃欲试的阶段,这可能不是你不够勇敢,而是学习的路径不够通畅,尤其对于一门技术来说:
基础要把握多少才可以开始?
是不是要先熟练的会用一个编程语言,需要会用所有的库么?
算法那么多,要学哪一些?
究竟学到多少算入了门?
对于要入门机器学习的人,以上关于度的问题就像学做饭,最讨厌别人告诉我“要适量”,适量是多少?就算你告诉我要放“一茶匙”的盐,各家的茶匙还不一样大呢,这些问题已经够让人慌的一批,后面还怎么开始……
最有效的方式是“数学基础+编程基础+算法实现+项目实践”,这样的过程,即便是从零开始,也能确保每个部分都是最核心最有用的。
“数学不好能搞机器学习么?”
“机器学习不需要数学,很多算法封装好了,调个包就行?”
“机器学习对数学功底的要求有多高?”
“数学”二字听起来就是个可怕的存在,对于一大波毕业了的老阿姨老哥哥们,更是最好提都不要提,在机器学习的门口碰上了数学这只拦路虎,大都先学会了一门乐器——退堂鼓。
确实,机器学习的算法是建立在数学理论上的,在实际应用中,需要你对算法做很多的改变,数学不好你还没办法透彻理解,更别说实现和优化算法。
数学知识不该成为我们打开新世界的拦门石。
因为没必要从头学习,那个太多了,会死在半路的……你需要的,才是基础:
线性代数(向量与矩阵)
多元微积分(微分与导数)
概率论与数理统计(变量与分布)
信息论及优化理论
对于机器学习的入门来说,这样的数学知识量就可以达到理解相关算法的水平了,所以对于基础,我们推荐走一条效率更高但需要一些针对性的路。
虽然机器学习方向对代码的要求,要远远小于前端和后台,但是掌握一门编程语言是必要的。
在花大量时间学习一门语言之前,建议根据自己的用途来决定选择哪种编程语言,切记千万不可跟风。
当涉及到机器学习和数据科学工作时,Python无疑是最舒服的语言。
虽然存在诸如Matlab这样的高级程序语言,但Matlab的正版软件需要花费数千美元。与之相对,由于Python是开源项目,几乎所有必要的组件都是完全免费的,毕竟在金钱面前,我永远选择妥协。
如果你不了解Python?不要绝望。
Python的强大正是体现在它是一个完美的胶水语言,你可以使用自己常用的编程语言,通过Python来访问那些浩如烟海的第三方库。
为了学习机器学习遍历所有的库显然不现实,最为主要的当属numpy和pandas库,可以说,这两个库几乎可以重写主要的机器学习算法。
入门机器学习,算法是核心和主体内容,通常会按照学习方式,分为监督学习、无监督学习、强化学习…这乍一看让人眼晕。
但如果按照“分类”、“回归”、“聚类”三类来分,就相对好理解一些:
分类,听着名字就很容易理解了,比如给你一筐水果,水果里面有苹果、香蕉,需要把它们分成两类。
回归,它可以理解成是一种预测,比如线性回归,大家都学过线性方程,比如y=ax,当你给定一个x的值时,可以推算出对应的y值。当然具体的场景中,可能不是简单的一维…
聚类,跟前面的分类有些不同,还是给你一筐水果,但你不知道里面装的是什么,需要通过味道、颜色、形状、大小等多个属性,来进行归类。
再回到学习方式中,监督学习可分为“回归”和“分类”问题;在无监督学习中,基本通过“聚类”的方式组织和处理数据;这样就很好理解“有监督”和“无监督”学习的差别了。
结合到算法里面:
分类相关的算法:K-近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机等
回归相关的算法:线性回归、树回归等
聚类相关的算法:K-均值、层次聚类、密度聚类等
掌握目前主流的监督(无监督)算法,其实你已经可以解决工作中遇到的绝大部分的问题。当然面对一些更为复杂即时性的问题时,强化学习和深度学习往往会更加有效。所以可以根据你的需求,深入到这些细分的方向。
如果可以把机器学习划分成三种境界:
第一层 :了解算法的过程和作用,也就是以上三个部分;
第二层 :能把算法运用到项目实践中,能真正的利用机器学习来解决一些问题,包括但不限于以下问题:
模式识别
真实场景中的物体
人脸识别或者表情识别
语音识别
本质提取
自由格式的文本,语音或者视频
鉴别垃圾邮件
发现异常
金融交易异常
传感器读取异常
做预测
未来股价或者货币汇率
哪个电影这个人会喜欢?
第三层 :对算法的推导,模型的训练融会贯通
这一步要求对数学公式推导了如指掌,各种模型的优化也深谙其道。除了数学知识、编程基础、算法实现,还需要一些技能来构成完整的机器学习体系:
“统计学习”既是机器学习的理论基础也是工具之一。
但对于机器学习方向的统计学知识,又不仅仅包括经典的统计学理论,还有在此基础上的新的统计学理论和方法。这部分学习可以加深对算法原理的理解和推导。
“特征工程”非常重要。
“数据与特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已。”特征对于模型的效果起大了极大的作用。实际开发中,大部分的时间都在减少数据存储和输入的代价,降低数据的维度 ,发现更多深入的特征,提升准确率。
“集成学习”——提升的秘密。
当你掌握单个模型的训练之后,“集成学习”将帮助你把多个偏好的模型完美融合。
“深度学习“。
从中掌握动态规划的方法以及各种神经网络模型的训练,实现更多的智能应用。
这些内功,才是你形成核心竞争力的关键。
这门机器学习入门课程,一切都把握的刚刚好。
编程基础+数学知识+算法实现+项目实践,通过对以上四个方面深度的把握,面向没什么基础的人群,我们历时半年打磨出了这门一切都恰到好处的课程,核心且必要且无多余的知识框架,逻辑严密且容易接受的学习路径,丰富且前沿的实战项目,一站式搞定。
课程学习路径
课程中的数学知识
课程中的实战项目
这门课程下来,独立完成基本的机器学习项目没有问题;跑个模型,说不定还能在绝大部分的数据挖掘竞赛中取得不错的成绩;课程沉淀的知识,足够你继续向高处飞翔。
其他你想知道的课程信息
录播课程,随时上课,你有绝对的学习自主权。
总共60个课时,每课时20-60分钟不等,讲懂为止。
主讲老师是袁烨,华中科技大学教授,技术好,各种深入浅出,还送两助教。
学习群老师即时答疑,专治各种不会。
课后资料里,案例代码,实现思路、重点笔记、拓展阅读全部都熬好了,直接服用即可。
匹配针对性数据竞赛,实时训练,还可以查看真实排名。
Python 3.6,不解释,只用最新的。
爱过~约~就是现在~
DC学院《机器学习》首发,限额底价
¥599(原价899),限前100名
长按下方二维码,了解详情&名额预定
课程咨询、资料获取、免费试看
长按下方二维码加入群聊
若群满,加Alice微信:datacastle2017