19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)

2018 年 7 月 9 日 数据派THU

作者:AARSHAY JAIN

翻译:王婷

校对:丁楠雅

本文共4700字,建议阅读10+分钟

本文为你介绍GUI驱动的数据科学工具,帮助新手构建高质量的机器学习模型。


引言


编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?

 

难道他们就没办法成为一名数据科学家了吗?

 

近年来,随着数据科学的蓬勃发展,许多人都有兴趣进入这个领域。但对编程却一筹莫展。事实上,在我的第一份工作之前,我也是非编程联盟的成员。因此,我明白当一个你从未学过的东西在任何一步都困扰着你的时候,有多么可怕。

 

 

好消息是无论你的编程技巧如何,你都有办法成为数据科学家!有一些工具可以避免编程,并提供用户友好的GUI(图形用户界面),因此任何对算法知之甚少的人都可以简单地使用它们来构建高质量的机器学习模型。

 

许多公司(尤其是初创公司)最近推出了GUI驱动的数据科学工具。我尽力在本文中介绍一些重要的工具,并尽可能提供视频。

 

注意:所有提供的信息都是从开源信息源收集的。我们只是展示一些事实而不是观点。我们决不会尝试宣传或为任何产品/服务打广告。


以下是本次介绍的工具列表:

 

1. RapidMiner


链接:

https://rapidminer.com/


介绍视频:

https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750


RapidMiner(RM)最初于2006年作为一款名为Rapid-I的开源独立软件被启动。多年来,他们以RapidMiner的名字给它命名,并获得了约3500万美元的资金。该工具的旧版本(低于v6)是开源的,但最新版本会有14天的试用期并在此之后需要许可证。

 

RM涵盖了预测建模的整个生命周期,从数据准备到建模,最后验证和部署。GUI基于一个框图方法,与Matlab Simulink非常相似。有预定义的块用作即插即用设备。你只需要以正确的方式连接它们,就可以在没有一行代码的情况下运行各种各样的算法。最重要的是,它们允许将自定义的R和Python脚本集成到系统中。

 

目前的产品包括以下内容:

 

  • RapidMiner Studio:一款可用于数据准备、可视化和统计建模的独立软件。

  • RapidMiner服务器:它是一个企业级环境,具有中央存储库,可以轻松进行团队工作,项目管理和模型部署。

  • RapidMiner Radoop实现以Hadoop为中心的大数据分析功能。

  • RapidMiner Cloud:一个基于云的存储库,可以轻松地在各种设备之间共享信息。


RM目前已经应用于汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等各个行业。


2. DataRobot

链接:

https://www.datarobot.com/


介绍视频:

https://youtu.be/wZCNKDX1q4o


DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers构建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。该平台声称已经消除了对数据科学家的需求。这从他们网站的一句话中可以明显看出 - “数据科学需要数学和统计资质、编程技能和商业知识。借助DataRobot,你只需提供商业知识和数据,而我们的尖端自动化负责其余部分。”

 

DR宣称具有以下优点:


  • 模型优化:

    • 平台通过采用文本挖掘、变量类型检测、编码、插补、缩放、转换等自动检测最佳数据预处理和特征工程。

    • 根据误差度量和验证集合分数自动选择超参数。


  • 并行处理:

    • 计算被分给数千个多核服务器。

    • 使用分布式算法来扩展到大型数据集。


  • 署:

    • 只需点击几下即可轻松部署设施(无需编写任何新代码)。

  • 对于软件工程师:

    • Python SDK和API可用于将模型快速集成到工具和软件中。

 

3. BigML

链接:

https://bigml.com/


介绍视频:

https://youtu.be/JVM8qIn3xPQ


BigML提供了一个良好的图形用户界面,可以让用户通过以下6个步骤掌握:

 

  • 来源:使用各种信息来源

  • 数据集:使用定义的源创建数据集

  • 模型:制作预测模型

  • 预测:基于模型生成预测

  • 合成:创建各种模型的合成

  • 评估:针对验证集的非常模型


这些过程显然会以不同的顺序迭代。BigML平台提供了很好的结果可视化,并具有求解分类、回归、聚类、异常检测和关联发现问题的算法。他们提供按月、季度和年度订阅捆绑在一起的几个软件包。他们甚至提供免费套餐,但上传数据集的大小限制为16MB。

 

您可以通过他们的YouTube频道了解他们的界面如何运作。

 

4. Google Cloud AutoML

链接:

https://cloud.google.com/automl/


介绍视频:

https://youtu.be/GbLQE2C181U


Cloud AutoML是Google机器学习组件的一部分,它允许有限ML专业知识的人员来构建高质量模型。作为Cloud AutoML产品组合的一部分,第一款产品是Cloud AutoMLVision。该服务使得训练图像识别模型变得更加简单。它具有拖放界面,可以让您上传图像,训练模型,然后直接在Google Cloud上部署这些模型。

 

Cloud AutoML Vision基于Google的迁移学习和神经架构搜索等技术。这个工具已经被很多组织所使用。看看这篇文章,看看AutoML在两个惊人的现实生活例子的表现,以及它如何产生比任何其他工具更好的结果。

 

5. Paxata

链接:

https://www.paxata.com/


介绍视频:

https://youtu.be/bxxsCLmXmms


Paxata是少数几家专注于数据清洗和预处理的组织之一,而不是机器学习或统计建模部分。这是一个易于使用的MS Excel类应用程序。它还提供了可视化的指导,可以轻松地将数据汇集在一起,查找并修复数据中混杂的噪音或缺失,以及在团队之间共享和重复使用数据项目。与本文中提到的其他工具一样,Paxata取消了编码或脚本,从而克服了处理数据所涉及的技术障碍。

 

Paxata平台遵循以下流程:

 

  • 添加日期:使用广泛的来源获取数据。

  • 探查:使用强大的视觉效果进行数据探查,使用户可以轻松识别数据中的空白。

  • 清理+更改:使用插补等步骤执行数据清理,使用NLP对相似值进行规范化,检测重复值。

  • 形状:制作数据的枢纽,执行分组和聚合。

  • 分享+管理:允许在强有力的身份验证和授权的情况下进行分享和协作。

  • 结合:专有技术称为SmartFusion允许通过1次点击结合数据帧,因为它可以自动检测到最佳组合;多个数据集可以组合成一个AnswerSet。

  • 商务智能工具:可以在常用的商务智能工具中轻松实现最终答案集的可视化;还可以轻松实现数据预处理和可视化之间的迭代。

 

Praxata已经涉足金融服务、消费品和网络领域。如果您的工作需要大量数据清洗,它可能是一个很好的工具。

 

6. Trifacta

链接:

https://www.trifacta.com/


介绍视频:

https://youtu.be/L-jWAsJNmAU


Trifacta是另一家重点关注数据预处理的创业公司。它有3种产品:

 

  • Wrangler:一款免费的独立软件。允许处理多达100MB的数据。

  • WranglerPro:上述的升级版本。它允许单用户和多用户并且数据量限制为40GB。

  • WranglerEnterprise:Trifacta的终极产品。它对处理的数据量没有任何限制,并允许无限制的用户。非常适合大型组织。


Trifacta提供了一个非常直观的GUI来执行数据清洗。它将数据作为输入并按列提供各种统计数据的摘要。另外,对于每一列,它都会自动推荐一些可以通过单击进行选择的转换。可以使用一些预先定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。

 

Trifacta平台使用以下数据准备步骤:

 

  1. 发现:首先看看数据和分布,以便快速了解您的具体情况。

  2. 结构:为数据分配适当的形态和变量类型并解决异常。

  3. 清理:此步骤包括插补、文本标准化等过程。这是使数据模型准备就绪所必需的一步。

  4. 充实:此步骤有助于提高分析的质量,可以通过添加更多数据源或对现有数据执行一些功能工程来完成。

  5. 验证:此步骤对数据执行最终检测。

  6. 发布:最后将数据导出以供进一步使用。

 

Trifacta主要应用于金融、生命科学和电信行业。

 

7. MLBase

链接:

http://mlbase.org/


介绍视频:

https://youtu.be/W-WPclNo8v0


MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。

 

它有3种产品:

 

  • MLlib:它是Apache Spark中的核心分布式ML库。它最初是作为MLBase项目的一部分开发的,但现在Spark社区也支持它。

  • MLI:用于特征提取和算法开发的实验性API,它引入了高级ML编程抽象。

  • ML优化器:该层旨在自动执行ML管道构建任务。优化器通过包含在MLI和MLlib中的特征提取器和ML算法来解决搜索问题。


8. Auto-WEKA


链接:

http://www.cs.ubc.ca/labs/beta/Projects/autoweka/


介绍视频:

https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD


Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。它的最大优点是它是开源的,开发人员提供了教程和论文来帮助你入门。你可以在AV的文章中了解更多相关信息。目前它主要应用于教育和学术目的。

 

9. Driverless AI

链接:

https://www.h2o.ai/driverless-ai/


介绍视频:

https://youtu.be/KkvWX3FD7yI


Driverless AI是支持自动机器学习的h2o.ai企业的神奇平台。这个链接上可以使用1月试用版的docker映像。您只需使用简单的下拉列表选择文件来训练,测试并指定您想要跟踪模型性能的指标。坐下来,看着界面直观的平台在你的数据集上训练出优秀的结果,并能与一个经验丰富的数据科学家能够提出的好解决方案相比。

 

这些是Driverless AI 的业务功能:

 

  • 它支持XGBOOST,GLM和K-Means等多GPU支持,即使对于大型复杂数据集也能提供出色的训练速度。

  • 自动功能工程,调整和综合各种模型以产生高度准确的预测。

  • 在训练过程中,有解释模型以及用于实时特征重要性排序的面板的强大功能。

 

10. Microsoft Azure ML Studio

链接:

https://studio.azureml.net/


介绍视频:

https://youtu.be/tW1JV6bHXFA


当这个领域有这么多大牌玩家时,微软怎么会落后?Azure ML Studio是一个简单却强大的基于浏览器的ML平台。它有一个可视化的拖放环境,不需要编程。他们已经为新手发布了全面的教程和示例实验,可以帮助他们快速掌握该工具。


它采用简单的五个步骤:

 

  1. 导入数据集。

  2. 如有必要,执行数据清洗和其他预处理步骤。

  3. 将数据分解为训练和测试集。

  4. 应用内置ML算法来训练您的模型。

  5. 评价你的模型,并得到你的预测!

 

11. MLJar

链接:

https://mljar.com/


介绍视频:

https://youtu.be/ijmw94h4qCk


MLJar是一个基于浏览器的平台,用于快速构建和部署机器学习模型。它有一个直观的界面,并允许您并行地训练模型。它具有内置的超参数搜索功能,可以更轻松地部署模型。MLJar提供与NVIDIA的CUDA,python,TensorFlow等的集成。

 

你只需要执行三个步骤来建立一个不错的模型:

 

  • 上传你的数据集。

  • 训练和调整许多机器学习算法并选择最佳的算法。

  • 使用最佳模型进行预测并分享您的结果。

 

目前该工具用于订阅版本。它有一个免费的版本并且有0.25GB的数据集限制。这绝对值得一试。

 

12. Amazon Lex

链接:

https://aws.amazon.com/cn/lex/


介绍视频:

https://youtu.be/d3LYlNqfuzI


Amazon Lex提供了一个易于使用的控制台,可在几分钟内构建自己的聊天机器人。您可以使用Lex在应用程序或网站中构建对话界面。所有你需要做的是提供一些短语,Amazon Lex完成其余步骤!它构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。

 

它还内置了与亚马逊网络服务(AWS)平台的集成。Amazon Lex是一项完全托管服务,因此您的用户参与度不断增加,您无需担心配置硬件和管理基础设施以提高您的机器人体验。

 

13. IBM Wastson Studio


链接:

https://www.ibm.com/cloud/watson-studio


介绍视频:

https://youtu.be/1_W6Y3c2Aeg


本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio为构建和部署学习机和深度学习模型提供了一个美丽的平台。您可以交互式地发现、清理和转换您的数据,使用Jupyter笔记本电脑和RStudio等熟悉的开源工具,访问最流行的库,训练深度神经网络以及大量其他事物。

 

对于刚进入这个领域的人来说,他们提供了一系列视频以简化入门阶段。您可以选择免费试用,并亲自查看这款超棒的工具。以上视频将指导您如何在Watson Studio中创建项目。

 

14. Automatic Statistician


链接:

https://www.automaticstatistician.com/index/

 


Automatic Statistician本身不是一个产品,而是一个创建数据探索和分析工具的研究机构。它可以采用各种数据,并以其自然语言处理为核心,生成详细的报告。它由在剑桥和麻省理工学院工作的研究人员开发,并以75万美元的价格赢得了Google的焦点研究奖。

 

它目前仍处于积极发展阶段,但在不久的将来应该密切关注。您可以在这里查看一些关于最终报告的示例。

 

更多工具


  • KNIME (https://www.knime.com/)- 这个工具非常适合训练机器学习模型。最初需要习惯,但是一开始使用就会觉得GUI很棒。它产生的结果与大多数工具相同,也是免费的。

  • FeatureLab (http://www.featurelab.co/)- 它允许使用GUI进行简单的预测建模和部署。最好的卖点之一是自动进行特征工程。

  • MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更侧重于优化而非预测分析。

  • Logical Gluehttp://www.logicalglue.com/) - 从原始数据到模型部署的另一个基于GUI的机器学习平台。

  • Pure Predictive (http://www.purepredictive.com/)- 该工具使用有专利的人工智能系统,该系统可以避免部分数据准备和模型调整;它使用AI将1000个模型组合成他们所谓的“超级模型”。


如果你是第一次听到这些名字,你不是一个人!随着越来越多的数据被收集,自动化机器学习的市场正在扩大。他们在未来几年会被淹没在市场中吗?时间会证明一切。但是,这些优秀的工具可以帮助那些希望开始学习机器学习,或者正在寻找替代方案来添加到他们现有目录的组织。

 

结束语


在本文中,我们已经讨论了几项旨在自动化解决数据科学问题的举措。其中一些处于初期研究阶段,一些是开源的,另一些已经在该行业中应用并有数百万资金。所有这些都对数据科学家的工作构成了潜在威胁,预计这一工作在不久的将来会大幅增长。这些工具最适合那些不熟悉编程和编码的人员。

 

如果你知道在这个领域探索的其他创业公司或计划,请随时在下面发表评论并启发我们!

 

您也可以在Analytics Vidhya的Android APP上阅读篇文章,可以在Google Play上获取它。


原文标题:

19 Data Science and Machine Learning Tools for people who Don’t Know Programming

原文链接:

https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/


译者简介


王婷,南京理工大学在读研究生,爱笑得有眼角鱼尾纹的运气不赖的女生。不喜欢呆板、教条、无聊,喜欢接触新事物,参加新活动,融入新环境,结交新朋友,互相学习,取长补短。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

登录查看更多
6

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
五个给机器学习和数据科学入门者的学习建议
机器之心
3+阅读 · 2019年9月16日
PyTorch  深度学习新手入门指南
机器学习算法与Python学习
9+阅读 · 2019年9月16日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
数据科学、机器学习IDE概览
论智
9+阅读 · 2018年11月12日
MATLAB畅销书主编的寒假系列课(送100G资料包),最后 70 个报名名额!
机器学习算法与Python学习
6+阅读 · 2018年1月26日
MATLAB畅销书主编推出寒假系列课 限量优惠+送100G资料礼包!
数据挖掘入门与实战
8+阅读 · 2018年1月4日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
Arxiv
14+阅读 · 2020年1月27日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Arxiv
3+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
3+阅读 · 2018年4月3日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
相关资讯
五个给机器学习和数据科学入门者的学习建议
机器之心
3+阅读 · 2019年9月16日
PyTorch  深度学习新手入门指南
机器学习算法与Python学习
9+阅读 · 2019年9月16日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
数据科学、机器学习IDE概览
论智
9+阅读 · 2018年11月12日
MATLAB畅销书主编的寒假系列课(送100G资料包),最后 70 个报名名额!
机器学习算法与Python学习
6+阅读 · 2018年1月26日
MATLAB畅销书主编推出寒假系列课 限量优惠+送100G资料礼包!
数据挖掘入门与实战
8+阅读 · 2018年1月4日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员