成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
1
盘点当下大热的 7 大 Github 机器学习『创新』项目
2019 年 9 月 20 日
机器学习算法与Python学习
本文将会分享近期发布的七大GitHub机器学习项目。这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP)、计算机视觉、大数据等。
最顶尖的Github机器学习项目
1. PyTorch-Transformers(NLP)
传送门:
https://github.com/huggingface/pytorch-transformers
自然语言处理(NLP)的力量令人叹服。NLP改变了文本的处理方式,几乎到了无法用语言描述的程度。
在最先进的一系列NLP库中,PyTorch-Transformers出现最晚,却已打破各种NLP任务中已有的一切基准。它最吸引人的地方在于涵盖了PyTorch实现、预训练模型权重及其他重要元素,可以帮助用户快速入门。
运行最先进的模型需要庞大的计算能力。PyTorch-Transformers在很大程度上解决了这个问题,它能够帮助这类人群建立起最先进的NLP模型。
这里有几篇深度剖析PyTorch-Transformers的文章,可以帮助用户了解这一模型(及NLP中预训练模型的概念):
·
PyTorch-Transformers:
一款可处理最先进NLP的惊人模型库(使用Python)
https://www.analyticsvidhya.com/blog/2019/07/pytorch-transformers-nlp-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
· 8个入门NLP最优秀的预训练模型
https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
· PyTorch——一个简单而强大的深度学习库
https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
2. NeuralClassifier (NLP)
传送门:
https://github.com/Tencent/NeuralNLP-NeuralClassifier
在现实世界中,文本数据的多标签分类是一个巨大的挑战。早期面对NLP问题时,我们通常处理的是单一标签任务,但在真实生活中却远不是这么简单。
在多标签分类问题中,实例/记录具备多个标签,且每个实例的标签数量并不固定。
NeuralClassifier使我们能够在多层、多标签分类任务中快速实现神经模型。我最喜欢的是NeuralClassifier,提供了各种大众熟知的文本编码器,例如FastText、RCNN、Transformer等等。
用NeuralClassifier可以执行以下分类任务:
·
双层文本分类
·
多层文本分类
·
多标签文本分类
·
多层(多标签)文本分类
以下两篇优秀的文章介绍了究竟什么是多标签分类,以及如何在Python中执行多标签分类:
·
使用NLP预测电影类型——多标签分类的精彩介绍
https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
·
使用Python构建你的第一个多标签图像分类模型
https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
3. TDEngine (大数据)
传送门:
https://github.com/taosdata/TDengine
TDEngine数据库在几乎不到一个月的时间内就累积了近10,000个star。继续往下读,你立马就能明白这是为何。
TDEngine是一个开源大数据平台,针对:
·
物联网(IoT)
·
车联网
·
工业物联网
·
IT基础架构等等
本质上,TDEngine提供了一整套与数据工程相关的任务,用户可以用极快的速度完成所有这些工作(查询处理速度将提高10倍,计算使用率将降低到1/5)。
目前有一点需要注意——TDEngine仅支持在Linux上执行。TDEngine数据库包含完整的文件资料以及包含代码的入门指南。
建议你阅读这一篇针对数据工程师的综合资源指南:
·
想成为数据工程师?这里列出了入门应看的综合资源
https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
4. Video Object Removal (计算机视觉)
传送门:
https://github.com/zllrunning/video-object-removal
你是否接触过图像数据?计算机视觉是一种十分先进的技术,用于操纵和处理图像的。想要成为计算机视觉专家,图像的目标检测通常被认为是必经之路。
那么视频呢?如果要对几个视频中的目标绘制边界框,虽然看似简单,实际难度却远不止如此,而且目标的动态性会使任务更加复杂。
所以Video Object Removal非常棒,只要在视频中某一目标周围绘制边界框,即可将它删除。就是这么简单!以下是一个范例:
如果你在计算机视觉的世界里还是个小白,这里有两篇能帮助你入门并快速上手的文章:
· 对基础目标检测算法的全面介绍
https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
· 使用深度学习2.0掌握计算机视觉
https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
5. Python Autocomplete (编程)
传送门:
https://github.com/vpj/python_autocomplete
你一定会爱上Python Autocomplete的。数据科学家的所有工作就是对各种算法进行试验(至少是大多数人),而Python Autocomplete可以利用一个LSTM简单模型自动写完Python代码。
下图中,灰色的部分就是LSTM模型自动填写的代码(结果位于图像底部):
开发人员如是描述:
首先清除Python代码中的注释、字符串和空行,然后进行训练和预测。模型训练的前提是对python代码进行标记化,相比使用字节编码来预测字节,这似乎更为有效。
如果你曾花费(浪费)时间编写一行行单调的Python代码,那么这一模型可能正是你所寻找的。不过它的开发还处于非常早期的阶段,操作中不可避免会出现一些问题。
如果你想知道LSTM到底是什么,请阅读这篇文章中的介绍:
·
深度学习的要点:
长短时记忆(LSTM)入门
https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
6. tfpyth–从TensorFlow到PyTorch再到TensorFlow (编程)
传送门:
https://github.com/BlackHC/tfpyth
TensorFlow和PyTorch两大模型都坐拥庞大的用户群,但后者的使用率高得惊人,在未来一两年内很可能超过前者。不过请注意:这并不会打击Tensorflow,因为它的地位相当稳固。
所以如果你曾经在TensorFlow中写了一串代码,后来又在PyTorch中写了另一串代码,现在希望将两者结合起来用以训练模型——那么tfpyth框架会是一个好选择。Tfpyth最大的优势就在于用户不需要重写先前写好的代码。
这一项目对tfpyth的使用方法给出了结构严谨的示例,这无疑是对TensorFlow与PyTorch争论的一种重新审视。
安装tfpyth易如反掌:
pip install tfpyth
以下是两篇深度介绍TensorFlow和PyTorch如何运作的文章:
· 深度学习指南:
使用Python中的TensorFlow实现神经网络
https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
· PyTorch——一个简单而强大的深度学习库
https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
7. MedicalNet
MedicalNet中包含了一个PyTorch项目,该项目将《Med3D:用迁移学习分析3D医学图像》(https://arxiv.org/abs/1904.00625)这篇论文中的想法付诸实践。这一机器学习项目将医学数据集与不同的模态、目标器官和病理结合起来,以构建规模较大的数据集。
众所周知,深度学习模型(通常)需要大量训练数据,而TenCent发布的MedicalNet是一个相当出色的开源项目,希望大家都能尝试使用它。
MedicalNet的开发人员已经发布了四个预训练模型,这些模型基于23个数据集。如果你需要,下文对迁移学习进行了直观的介绍:
·
迁移学习及在深度学习中使用预训练模型的艺术
https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
推荐阅读
拿不到 offer 退学费 | 廖雪峰的“大数据分析全栈工程师”课程第9期开始招生
陈立杰再获FOCS 2019最佳学生论文奖
奖金711万!这位“山东宝妈”破解美国运算100万年才可能解开的密码!
瓜瓜笔记 | 8 月份机器学习热门开源项目
BAT年薪80W+人工智能、大数据开发全链路教程(源码+视频)都在这儿【今日免费】
登录查看更多
点赞并收藏
1
暂时没有读者
12
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
多标签分类
关注
2
史上机器学习 &深度学习课程大合集,一站搞定,Deep Learning Drizzle
专知会员服务
172+阅读 · 2020年5月10日
CVPR 2020 论文开源项目合集
专知会员服务
109+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【AI学习实战资料】人工智能实战就业(面试)学习路线图' by TangYudi GitHub
专知会员服务
112+阅读 · 2020年2月8日
FB大牛撰文推介,PySlowFast!Facebook开源视频理解前沿算法代码库,视频SOTA技术全在这了!
专知会员服务
64+阅读 · 2020年1月6日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
84+阅读 · 2019年12月27日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南(29页综述)
专知会员服务
59+阅读 · 2019年1月7日
机器学习开源项目Top10
AI100
4+阅读 · 2019年1月20日
盘点 | 2018年度机器学习开源项目及框架(附链接)
THU数据派
7+阅读 · 2018年12月21日
2018年度盘点:机器学习开源项目及框架(附链接)
新智元
12+阅读 · 2018年12月19日
年度大盘点:机器学习开源项目及框架
云栖社区
3+阅读 · 2018年12月17日
2018年8月份GitHub上最热门的开源项目
算法与数据结构
3+阅读 · 2018年9月4日
精选10大机器学习开源项目 !(附链接)
数据派THU
7+阅读 · 2018年5月3日
2018年2月份Github上最热门的数据科学和机器学习项目
AI前线
5+阅读 · 2018年3月23日
推荐 | 机器学习开源项目 Top 10
AI100
3+阅读 · 2018年3月21日
【机器学习】2017年度盘点:15个最流行的GitHub机器学习项目
产业智能官
4+阅读 · 2017年12月24日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images
Arxiv
9+阅读 · 2019年8月28日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
Embedding Uncertain Knowledge Graphs
Arxiv
12+阅读 · 2019年2月26日
Are Generative Classifiers More Robust to Adversarial Attacks?
Arxiv
4+阅读 · 2018年7月9日
GANE: A Generative Adversarial Network Embedding
Arxiv
4+阅读 · 2018年5月21日
Variance Reduction Methods for Sublinear Reinforcement Learning
Arxiv
4+阅读 · 2018年4月25日
CapsuleGAN: Generative Adversarial Capsule Network
Arxiv
10+阅读 · 2018年2月17日
Adversarial Attribute-Image Person Re-identification
Arxiv
7+阅读 · 2018年2月6日
DOTA: A Large-scale Dataset for Object Detection in Aerial Images
Arxiv
19+阅读 · 2018年1月27日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
多标签分类
PyTorch
NLP
GitHub
Medium
Python
相关VIP内容
史上机器学习 &深度学习课程大合集,一站搞定,Deep Learning Drizzle
专知会员服务
172+阅读 · 2020年5月10日
CVPR 2020 论文开源项目合集
专知会员服务
109+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【AI学习实战资料】人工智能实战就业(面试)学习路线图' by TangYudi GitHub
专知会员服务
112+阅读 · 2020年2月8日
FB大牛撰文推介,PySlowFast!Facebook开源视频理解前沿算法代码库,视频SOTA技术全在这了!
专知会员服务
64+阅读 · 2020年1月6日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
84+阅读 · 2019年12月27日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南(29页综述)
专知会员服务
59+阅读 · 2019年1月7日
热门VIP内容
开通专知VIP会员 享更多权益服务
世界模型:安全性视角
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
从规则驱动到群智涌现: 多机器人空地协同研究综述
从基础到突破的LLM微调终极指南:技术、研究、最佳实践、应用研究挑战与机遇的全面综述
相关资讯
机器学习开源项目Top10
AI100
4+阅读 · 2019年1月20日
盘点 | 2018年度机器学习开源项目及框架(附链接)
THU数据派
7+阅读 · 2018年12月21日
2018年度盘点:机器学习开源项目及框架(附链接)
新智元
12+阅读 · 2018年12月19日
年度大盘点:机器学习开源项目及框架
云栖社区
3+阅读 · 2018年12月17日
2018年8月份GitHub上最热门的开源项目
算法与数据结构
3+阅读 · 2018年9月4日
精选10大机器学习开源项目 !(附链接)
数据派THU
7+阅读 · 2018年5月3日
2018年2月份Github上最热门的数据科学和机器学习项目
AI前线
5+阅读 · 2018年3月23日
推荐 | 机器学习开源项目 Top 10
AI100
3+阅读 · 2018年3月21日
【机器学习】2017年度盘点:15个最流行的GitHub机器学习项目
产业智能官
4+阅读 · 2017年12月24日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images
Arxiv
9+阅读 · 2019年8月28日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
Embedding Uncertain Knowledge Graphs
Arxiv
12+阅读 · 2019年2月26日
Are Generative Classifiers More Robust to Adversarial Attacks?
Arxiv
4+阅读 · 2018年7月9日
GANE: A Generative Adversarial Network Embedding
Arxiv
4+阅读 · 2018年5月21日
Variance Reduction Methods for Sublinear Reinforcement Learning
Arxiv
4+阅读 · 2018年4月25日
CapsuleGAN: Generative Adversarial Capsule Network
Arxiv
10+阅读 · 2018年2月17日
Adversarial Attribute-Image Person Re-identification
Arxiv
7+阅读 · 2018年2月6日
DOTA: A Large-scale Dataset for Object Detection in Aerial Images
Arxiv
19+阅读 · 2018年1月27日
大家都在搜
palantir
MoE
强化学习方法
自主系统
时间序列
汽车智能化
智能推荐
大模型
笛卡尔
EBSD晶体学织构基础及数据处理
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top