都说第一批AI已经开始诈骗,现在接到的诈骗电话连高兴、生气这样的情绪都能模仿的惟妙惟肖。
第一次觉得AI离我们已经是零距离,但其实日常生活中早就有AI的身影:
抖音的推荐机制、天猫的猜你喜欢、美图软件的特效、微软小冰等聊天机器人…
这些的背后都离不开机器学习做技术支撑,那么机器学习到底是什么呢?
Part.1
机器学习是什么?
关于机器学习的定义有很多,用通俗点的语言来说,一系列改善机器模拟人类行为的方法都可以称之为机器学习。
机器学习可以做很多事情,包括但不限于以下几个方面:
计算机视觉:如人脸识别,高速路上的电子眼(违章识别),火车票,身份证识别等;
自然语言处理:如大量文章自动分类(新闻分类),文章或评论情感分类等;
语音识别、语音合成:如浏览器里语音搜索,语音输入法,智能音箱等;
个性化内容推荐:如电商平台的猜你喜欢,今日头条文章推荐等。
机器学习中的很多内容和人本身的行为是很像的,尤其是深度学习那一部分,最初是从人类大脑的仿生学借鉴而来的。
比如金融领域的信用评估,
人类的思维模式:
假如一个人来向你借钱,你需要判断他的信用等级,来确定是否借钱给他,借多少钱给他,你最终从他的工作,收入,是否有车,是否有房,是否有社保,是否有公积金等维度来判断他属于哪一类人。
机器的计算方式:
同人的思考方式是很类似的,不同的是机器更高效了,机器可以一天24小时不间断的工作,一天可以处理上百万个借钱订单,这是人远远不及的。
Part.2
机器学习难吗?
任何学习都需要由浅入深,先入门把基础打扎实,再去攻克其它内容。想要成为一名优秀的机器学习算法工程师,需要掌握一张不算小的知识网络:
(文末可获取图片清晰版本)
01:基础开发能力
所谓算法工程师,首先需要是一名工程师,那么就要掌握所有开发工程师都需要掌握的一些能力。在大多数企业的大多数职位中,算法工程师需要负责从算法设计到算法实现再到算法上线这一个全流程的工作。
02:概率和统计基础
概率和统计可以说是机器学习领域的基石之一,从某个角度来看,机器学习可以看做是建立在概率思维之上的一种对不确定世界的系统性思考和认知方式。
在统计方面,一些常用的参数估计方法也需要掌握,典型的如最大似然估计、最大后验估计、EM 算法等。这些理论和最优化理论一样,都是可以应用于所有模型的理论,是基础中的基础。
03:开发语言和开发工具
近年来 Python 可以说是数据科学和算法领域最火的语言,主要原因是它使用门槛低,上手容易,同时具有着完备的工具生态圈,同时各种平台对其支持也比较好。
但是在模型训练方面,有一些更加专注的工具可以给出更好的训练精度和性能,典型的如 LibSVM、Liblinear、XGBoost等。大数据工具方面,目前离线计算的主流工具仍然是Hadoop和Spark,实时计算方面 Spark Streaming 和 Storm 也是比较主流的选择。
04:机器学习理论(最重要)
虽然现在开箱即用的开源工具包越来越多,但并不意味着算法工程师就可以忽略机器学习基础理论的学习和掌握。这样做主要有两方面的意义:
掌握理论才能对各种工具、技巧灵活应用,而不是只会照搬套用。只有在这个基础上才能够真正具备搭建一套机器学习系统的能力,并对其进行持续优化。否则只能算是机器学习搬砖工人,算不得合格的工程师。出了问题也不会解决,更谈不上对系统做优化。
学习机器学习基础理论的目的不仅仅是学会如何构建机器学习系统,更重要的是,这些基础理论里面体现的是一套思想和思维模式,其内涵包括概率性思维、矩阵化思维、最优化思维等多个子领域,这一套思维模式对于在当今这个大数据时代做数据的处理、分析和建模是非常有帮助的。如果你脑子里没有这套思维,面对大数据环境还在用老一套非概率的、标量式的思维去思考问题,那么思考的效率和深度都会非常受限。
Part.3
机器学习算法工程师学习资源推荐
统计学习,基础理论方面:
如VC维、正则化、bias-variancetradeoff、最优化方法、信息论等。推荐李航老师的《统计学习方法》,入门必读。
有监督学习:
如线性回归、logistic、决策树、knn、SVM、神经网络、朴素贝叶斯等。推荐周志华老师的西瓜书《机器学习》和《机器学习实战》,经典中的经典。
无监督学习:
如EM算法、聚类、竞争学习等,可以参考《机器学习》的部分章节。
深度学习:
如CNN、RNN、LSTM等,推荐Goodfellow的《深度学习》,DL的圣经。
强化学习:
近年来比较火,AlphaGo的核心算法,推荐RichardSutton的《强化学习》
如果对于机器学习感兴趣,想要入门却不知从哪里下手更合适,推荐网易云课堂推出的免费直播课,并且有免费的学习社群,拥有多年实战经验的老师为你答疑解惑,和同好交流学习经验,入群即可领取机器学习大礼包:
PART 1
免费直播课
▼
直播主题
《用机器学习算法剖析大神战术,顺利吃鸡!》
12月13日 周四 20:00
直播大纲
1. 数据可视化, 花样分析吃鸡的必胜之道
2. 从数据角度区分玩家风格
非监督学习之k-means聚类
3.动态数据可视化,深层分析每一类玩家特征
4. 搭建游戏排名预测的基线
监督学习之RandomForest做回归预测
5.特征工程在预测中的重要性,如何提升预测准确率
直播讲师
潘皓文 哥伦比亚大学
三年Kaggle 比赛经历,多次获得top 5%名次
主研机器学习在金融行业的应用和深度学习终端产品化落地
PART 2
免费体验课
▼
《机器学习基础》
课程大纲
1.机器学习的就业前景
2.Python实战学习
(附15天学习计划和趣味项目源码)
3.机器学习工程师的实际应用
小姐姐群内答疑
▼
PART 3
人工智能学习资料包
▼
6个实战案例学习资料及代码
▼
面试相关问题
▼
程序员简历模板
▼
数学基础学习资料
▼
134篇国际经典论文集
领取方式
扫码即可预约小姐姐直播
获取所有免费福利
报名成功即可领取上文知识图谱
点击【阅读原文】,一键领取所有福利~