原文标题:15 Trending Data Science GitHub Repositories you can not miss in 2017
作者:SUNIL RAY
翻译:杨金鸿
校对:闵黎
本文长度为3400字,建议阅读5分钟
本文为你分享2017年最热门的GitHub项目列表。
GitHub最初的只是一个控制软件版本的工具,如今已经发展成为由来自不同背景的GitHub使用者共享他们自己开发的工具/库,甚至是有用代码库。
GitHub是一座蕴藏了丰富资源的知识宝库,您不仅可以看到最优秀的开源贡献项目,还可以看到这些项目的代码是如何编写和实现的。作为一名狂热的数据科学爱好者,我在2017年末我整理了一份最热门的GitHub项目列表。快来享受和坚持学习吧!
一、学习资源库
1.强大的数据科学
2.机器学习/深度学习手册
3. 牛津深度自然语言处理课程讲座
4. PyTorch——教程
5. NIPS 2017资源
二、开源软件
1. TensorFlow
2. TuriCreate-一个简化的机器学习库
3. OpenPose
4. DeepSpeech
5. 移动深度学习
6. Visdom
7. 深度照片类型转换
8. CycleGAN
9.Seq2seq
10.Pix2code
GitHub库是数据科学首选的终极资源指南。多年来,它是建立在多个不同的开源的资源项目基础之上,这些资源包括从入门指南、信息图表到人们的社交资源网站如:twitter、facebook、Instagram等。不管你是新手还是老手,这里都有大量的项目资源等待着你学习。
从GitHub库的目录结构中可以看出,所有的Github库都是与各种资源库的深度集合。
Github库的连接地址:
https://github.com/bulutyazilim/awesome-datascience
这个资源库把常用的工具和技术以参考指南的形式组织起来。这些参考指南内容从非常简单的工具(如pandas)到非常复杂的技术(如深度学习)应有尽有。当你提供了一颗星星或分支一个资源库之后,就不再需要通过谷歌浏览器来搜索常用的提示和小技巧。
让我们来看一看有哪些不同类型的参考指南,例如pandas, numpy, scikit learn, matplotlib, ggplot, dplyr, tidyr, pySpark 和神经网络等。
这些参考指南资料的链接地址:
https://github.com/kailashahirwar/cheatsheets-ai
斯坦福大学的NLP课程一直是人们想要进入自然语言处理领域的黄金课程。但是随着深度学习的出现,NLP已经取得了巨大的进步,这一切都要归功于像RNN和LSTMs这样的深度学习架构。
基于牛津大学NLP课程的资源库把NLP的学习带向了新的高度。这些课程涵盖了与实践操作相关的技术和术语,例如使用RNNs进行语言建模,语音识别,语音合成文本等。这个资源库是牛津课程所有教材的一站式存储,为实践操作提供了必备的资料。
这个库的链接地址:
https://github.com/oxford-cs-deepnlp-2017/lectures
到目前为止,PyTorch是Tensorflow唯一的竞争对手。PyTorch的Python化的编码风格、动态计算和快速的原型设计赢得了盛赞,因此获得了深度学习社区的高度关注。
这个资源库包含了用于深度学习的工作代码,例如在PyTorch中创建一个神经网络这样的基本任务,以及编写RNN、GANs和神经风格迁移算法的代码。大多数模型的功能实现只需要30行代码。这说明PyTorch所提供的抽象化功能,使研究人员能够集中精力快速寻找正确的模型,而不是纠缠于编程语言或工具选择这些细节的问题。
PyTorch库的链接地址:
https://github.com/yunjey/pytorch-tutorial
这个资源库提供了NIPS 2017大会的资源列表,包括了所有邀请的会谈、教程讲座和研讨会上的资料和幻灯片。NIPS (Neural Information Processing Systems), 是专门为机器学习和计算神经科学领域举办的年度顶级国际会议。
在过去几年中,在数据科学行业中发生的大多数突破性研究成果都是在这个会议上提出的。如果你想立于数据科学的潮头,那么这里是你获得正确资源的源头。
TensorFlow正式发布已经有2年了,但它一直保持着顶尖的机器学习/深度学习库的地位。Google大脑和TensorFlow开发的社区一直在积极地作出贡献,并保持与最新的技术发展同步,特别是在深度学习领域。
TensorFlow最初是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。但是从TensorFlow的发展现状看,可以说它是一个构建深度学习模型的完整资源库。虽然TensorFlow主要支持Python,但它也支持C、C++、Java等语言,最要的是它可以在移动平台上运行。
TensorFlow的链接地址:
https://github.com/tensorflow/tensorflow
最近最热的话题是苹果公司的开源贡献项目TuriCreate。它简化了机器学习模型的创建和部署,可用于复杂的任务,如对象检测、活动分类和推荐系统。
作为一名数据科学爱好者,我记得Turi创建了GraphLab——一个神奇的机器学习库,因而被苹果公司收购。数据科学行业的每个人都在期待这种爆炸性的事情发生。
TuriCreate是专门为Python的使用者开发的。它提供的最好的功能之一是可以轻松地将机器学习模型部署到Core ML(苹果公司的另一个开源软件)中,使用在iOS、macOS、watchOS和tvOS的应用程序中。
TuriCreate的链接地址:
https://github.com/apple/turicreate
OpenPose是一个多目标人体关键点检测库,它可以帮助你实时检测图像或视频中人的位置。OpenPose由CMU的感知计算实验室开发,下面这个例子很好地说明了开源的研究项目也可以很容易被工业界接受。
动图请查看原文链接
OpenPose这个最好的使用案例是帮助人们解决活动检测的问题。例如,参与者所做的动作可以被实时捕获。然后,这些关键点和他们的动作可以被制作成动画电影。
OpenPose用C++的API访问。同时,也可以用简单的命令行界面来处理图像或者视频。
OpenPose的链接地址:
https://github.com/CMU-Perceptual-Computing-Lab/openpose
DeepSpeech库是百度研究中最先进的语音文本合成技术的开源项目。它基于TensorFlow,可以在Python,NodeJS和命令行中使用。
Mozilla是从无到有参与构建开源DeepSpeech库的主要成员之一“只有少数几家主导商业优质语音识别服务的大公司才可以做出好的深度语言技术。这不仅减少了用户的可选择性,也降低了初创公司、研究人员甚至更大的公司对产品的可用性。因此这些公司想要让他们的产品和服务变得更好,就要与志同道合的开发者、公司和研究人员组成一个社区。我们采用了先进的机器学习和各种各样的创新技术来构建一个语音到文本的引擎”。Mozilla的技术战略副总裁肖恩怀特在一篇博文(https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/)中写道。
DeepSpeech库的链接地址:
https://github.com/CMU-Perceptual-Computing-Lab/openpose
这个知识库为移动平台带来了最先进的数据科学技术。该知识库是由百度研究开发,目的是在Android和IOS等移动设备上部署深度学习模型,降低复杂性,提高运行速度。用移动深度学习库中的一个简单的用例来解释,例如对象检测,它可以识别一个移动物体在图像中的确切位置,是不是很酷啊?
动图请查看原文链接
移动深度学习库的地址:
https://github.com/baidu/mobile-deep-learning
Visdom是一个支持在协作者之间传播图形、图像和文本的库。您可以通过编写程序程或UI生成您的可视化空间,创建实时数据的显示板,检查实验结果,或调试实验代码。
对于绘图函数输入的精度不同,尽管它们中的大多数都是输入一个张量(三维)X不包含数据,和一个(可选择)张量(三维)Y包含可选的数据变量(如标签或时间戳)。绘图函数支持所有的基本绘图类型,创建由Plotly提供的可视化。
Visdom支持在Python中使用Torch和Numpy。
Visdom库的连接地址:
https://github.com/facebookresearch/visdom
该库来源于一篇研究论文(https://arxiv.org/pdf/1703.07511.pdf),介绍了一种深入学习摄影类型转换方法,它可以处理大量的图像内容,忠实传递图片相关类型样式。该方法成功地抑制了失真,并在各种场景中,,包括时间的转移、天气、季节和艺术编辑,产生了令人满意的相片般逼真的风格。这段代码是基于Torch实现。
该库的连接地址:
https://github.com/luanfujun/deep-photo-styletransfer
CycleGAN是一个有趣且功能强大的库,展示了潜在的最先进技术。举个例子,下面的图片是该库可以做的事情——调整图像的深度感知。它的先进性在于不需要你告诉算法,需要处理图像的哪一部分,它能通过自己的算法做出判断。
目前,该库是用Lua编写的,但也可以在命令行中使用。
该库的链接地址:
https://github.com/junyanz/CycleGAN
Seq2seq最初是为机器翻译而编写的,但后来被开发用于各种其他任务,包括摘要、会话建模和图像字幕。只要一个问题能够以一种格式编码输入并解码成另一种格式输出,就可以使用这个框架。它是用Python中流行的Tensorflow库编写的。
该库的链接地址:
https://github.com/google/seq2seq
Pix2code是深度学习领域一个非常振奋的项目,这个项目的功能点在于试图给GUI自动生成代码。当构建网站或移动界面时,前端工程师通常需要编写重复的代码,这个耗时且非生产性的工作阻碍了开发人员将大部分时间用于实现他们正在构建的软件的实际功能和逻辑。Pix2code可自动完成这个这个繁琐的工作。它基于一种新颖的方法,允许从单个GUI屏幕截图中生成计算机标识语言作为输入。
这有是一个解释pix2code用例的视频,链接地址:
https://youtu.be/pqKeXkhFA3I
Pix2code是用python编写的,可用于捕获移动和web界面的图像并将其转换成代码。
该库的连接地址:
https://github.com/tonybeltramelli/pix2code
我希望你能了解到2017年GitHub上发布的一些新开源工具或技术。如果你在过去看到过更多这样有用的资源,请在下面的评论中告诉我。
原文链接:
https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/
杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。
翻译组招募信息
工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!
你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。
其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”加入组织~