机器学习如何入门?这五大机器学习项目带你飞

2019 年 4 月 20 日 中国人工智能学会

转自专知 

【导读】本文介绍了包括图像分类、交易预测、情感分类、推荐系统、股票预测等在内的若干个机器学习应用及数据集。

作者:Michiel Mulders



1. 鸢尾花分类

Iris Flowers数据集被视为ML的“Hello World”,因为它是分类的典型例子。这个数据集的好处是它只有四个属性:花瓣长度,花瓣宽度,萼片长度和萼片宽度,可加载到内存中。

该项目涉及使用四种已知特的不同种类的鸢尾花。


分类类型?这里使用多类分类。这意味着我们应该能够准确地预测数据点属于哪个类。


目标:根据花的特性对三种花进行分类:花瓣和萼片的尺寸。


鸢尾花数据集

http://archive.ics.uci.edu/ml/datasets/Iris

完整指南:

https://machinelearningmastery.com/machine-learning-in-python-step-by-step/


2. 交易预测

GNY的小组发布了一个演示程序,展示了该平台如何通过其强大的神经网络预测零售交易组,并且该平台的完全可下载和可定制版本将在今年夏天推出。GNY将有一个可选择的机器学习代码集库,可以根据每个人的要求进行选择,并可以应用于他们的侧链(因为GNY将使用Lisk的侧链技术)。


为什么这个这么重要?几乎所有企业都在寻找一种经济实惠的方式来挖掘其数据中的隐藏价值,但是如果它将它们暴露给安全风险则不会。区块链的固有结构有助于控制数据一致性,并保持对数据的控制


性能提高,因为在前一个块仍处于活动状态时,已经可以为后续块启动验证。验证包括检查用户是否有足够的余额。只有错误预测的交易,才需要重做这项工作。

这个演示是一个有趣的入门项目,适合想要预测简单数字的人,今年夏天推出的完整平台应该为开发人员提供更多功能和定制。可以在MLWave找到一个好的数据集,用于使用购买历史来预测重复购买者。


目标:根据支出历史预测未来交易。


3. Twitter的情感分析

机器学习的一个有趣应用是情感分析。随着加密货币的兴起,情绪分析取得了重大突破。许多人试图建立包含情绪分析的交易机器人,以做出更好的交易决策。

还有许多其他平台可用于情绪分析,如Reddit,Facebook或LinkedIn,因为它们都提供易于使用的API来检索数据。但是,由于Twitter平台上数据的格式一致,这是机器学习的首选数据。由于推文主要由文本,URL和主题标签组成,因此预处理也更容易。


Twitter API知道许多可用于集成到项目中的API库。可以使用!pip install python-twitter通过pip安装Python的包装器。


分析几个有趣的例子:


围绕新发布的电影的评论,并将其与IMDB和其他评级网站上的评论进行比较。

围绕特定选举或任何其他趋势政治话题的情绪。

根据推文的情绪预测前50种加密货币价格的未来方向。

目标:情绪分析器学习一段内容背后的各种情绪。此任务可帮助您考虑设计各种模型以将推文标记为正面或负面。在后期阶段,我们可以用更加细致的方式标记推文,如“中性”,“愤怒”,“乐观”,......


Github概述:所有与Twitter相关的数据集

https://github.com/shaypal5/awesome-twitter-data


4.使用Movielens的推荐系统

推荐系统是机器学习技术在商业中最成功和最广泛的应用之一。您可以在日常生活中随处找到推荐系统。例如,在观看Youtube视频时,Youtube算法会根据您的观看习惯向您推荐视频,同时也会根据观察运行ML算法的模式对全世界人们的观看行为提出关键见解。


我们可以为推荐系统找到两种算法:


基于内容:它寻找内容的相其与其他人进行比较以找到类似的行为/喜好。下图说明了这一点。


目前,Movielens提供了最受欢迎的电影评级数据集之一,这是初学者试验的理想数据集。


目标:根据评分,预测用户喜欢哪些电影。


网站:Grouplens.org


教程:Towardsdatascience提供了使用Python构建简单的推荐系统的教程。

https://towardsdatascience.com/how-to-build-a-simple-recommender-system-in-python-375093c3fb7d


5. Quandl股票价格预测

股票价格预测器是一个了解公司业绩并预测未来股票价格的系统。股票价格预测的问题是可以使用许多类型和数据来源:

波动率指数

历史价格

全球宏观经济指标

基本面分析

使用指标的技术分析


分析股票市场的好处是它具有更短的反馈周期,这使得更容易验证您的预测。如果您不了解市场周期,我建议您阅读有关此主题的内容,以了解典型周期的情况。

为了简单起见,您可以选择一个简单的机器学习示例,如根据组织的季度报告预测6个月的价格变动。


目标:使用基本和技术指标预测未来价格。


下载:Quandl.com或Quantoplan.com的股票市场数据集。

原文链接:

https://hackernoon.com/top-5-machine-learning-projects-for-beginners-47b184e7837f

-END-


专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!530+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

登录查看更多
1

相关内容

Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
专知会员服务
115+阅读 · 2019年12月24日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
3月份Github上最热门的数据科学和机器学习项目
大数据技术
7+阅读 · 2018年4月23日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关资讯
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
3月份Github上最热门的数据科学和机器学习项目
大数据技术
7+阅读 · 2018年4月23日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
相关论文
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
7+阅读 · 2018年3月22日
Top
微信扫码咨询专知VIP会员