有趣的Github项目万里挑一 !(附论文、项目链接)

2018 年 3 月 30 日 数据派THU

来源:PaperWeekly

本文共1000字,建议阅读5分钟
本文为你介绍9个最新机器学习开源项目。


本文带你快速 get 每个精选Github项目的亮点和痛点,时刻紧跟 AI 前沿成果。


01

InsightFace

#基于MXNet的人脸识别开源库


InsightFace 是 DeepInsight 实验室对其论文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition 的开源实现。本文工作将 MegaFace 的精度提升到 98%,超过俄罗斯 Vocord 公司保持的 91% 的纪录。


此外,该项目还包括打包对齐好的人脸训练数据(MS1M 和 VGG2)、网络框架(ResNet,InceptionResNet_v2,DenseNet,DPN 和 MobiletNet)和 loss 设计(Softmax,SphereFace,AMSoftmax,CosFace 和 Triplet Loss)。


在此基础上,研究人员可以专注于人脸识别的算法实验,工业界也可以方便地根据自身需求训练,或者凭借该项目提供的高精度预训练模型进行产品化。


论文链接:https://www.paperweekly.site/ papers/1785


项目链接:https://github.com/deepinsight/ insightface


02

#Python图像增强库


Augmentor 是一个 Python 图像增强库,减少了使用图像库自己编写代码的繁杂工序,能够批量完成图像的旋转,放大,缩小,添加噪音以扩充数据量。


▲ 输入图像


▲ 输出图像


项目链接:https://github.com/mdbloice/ Augmentor


03

#序列距离测算


TextDistance 是一个包含 30+ 种算法的 Python 库,用于计算两个或多个序列之间的距离。


项目特性如下: 


  • 30+ 种算法

  • 纯 Python 实现

  • 操作简便

  • 支持两种以上序列对比

  • 部分算法具备多种实现

  • 支持 Numpy 获取最大速度优化





项目链接:https://github.com/orsinium/ textdistance


04

Neural Network Voices

#模仿Kate Winslet说话


本项目是 Siraj Raval 在 YouTube 上发布的神经网络语音合成教学视频对应代码,如何使用深度神经网络将普通人的声音转化为英国著名女演员 Kate Winslet 的声音。本项目使用的数据集为 Kate Winslet 朗读的有声书音频。



教学视频:https://youtu.be/6KHSPiYlZ-U


项目链接:https://github.com/llSourcell/ Neural_Network_Voices


05

Personae

#强化、监督学习在金融市场中的应用


Personae 基于 TensorFlow 和 PyTorch 对深度强化学习、监督学习算法和论文进行实现,并尝试将其应用于金融市场(股市)。该项目已实现的算法包含 DDPG,Policy Gradient 和 DualAttnRNN。


▲ 股票交易收益对比


▲ 股价预测结果


项目链接:https://github.com/ceruleanacg/ Personae


06

NNDial

#端到端对话系统开源工具包


NNDial 是一个用于构建端到端可训练任务型对话模型的开源工具包,本项目来自剑桥大学,使用的数据集为 CamRest676。


▲ 测试结果


项目链接:https://github.com/shawnwun/ NNDIAL


07

Voice Activity Detection Toolkit

#语音端点检测工具包


本项目是论文 Voice Activity Detection Using an Adaptive Context Attention Model 的开源实现,此外还包含作者团队自行录制的语音数据集。


该工具包支持 4 种基于 MRCG 的分类器:


  • 自适应上下文注意模型(ACAM)

  • 增强型深度神经网络(bDNN)

  • 深度神经网络(DNN)

  • 基于LSTM的循环神经网络(LSTM-RNN)


项目链接:https://github.com/jtkim-kaist/VAD


08

Knowledge Graph Representation

#用PyTorch实现知识图谱表示


该项目整理了知识图谱表示常用的四个数据集,提供了数据清洗整理的代码,用 PyTorch 实现了四种基于平移的算法。在评估阶段,使用了多进程加速,将 MeanRank 和 Hits@10 的评估时间压缩到小于 1 分钟。


项目链接:https://github.com/jimmywang heng/knowledge_representation_pytorch


09

PyHanLP

#HanLP的Python接口


本项目是汉语言处理包 HanLP 的 Python 接口,支持自动下载与升级 HanLP,兼容 py2 和 py3。


HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。


HanLP 可提供中文分词、词性标注、命名实体识别、关键词提取、文本推荐、依存句法分析、文本分类、word2vec 和语料库工具等功能。


HanLP主页:http://www.hankcs.com/nlp/ hanlp.html


项目链接:https://github.com/hankcs/pyhanlp


登录查看更多
2

相关内容

GitHub.com 使用 Git 作为版本控制系统(version control system)提供在线源码托管的服务,同时是个有社交功能的开发者社区。 国外类似服务: Bitbucket.com
Gitlab.com
国内类似服务:
Coding.net
还在修改博士论文?这份《博士论文写作技巧》为你指南
专知会员服务
171+阅读 · 2020年6月4日
专知会员服务
109+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
近期值得关注的8款AI开源项目 | 本周Github精选
PaperWeekly
4+阅读 · 2018年8月3日
精选10大机器学习开源项目 !(附链接)
数据派THU
7+阅读 · 2018年5月3日
本周值得读:13 份最新开源「Paper + Code」
PaperWeekly
9+阅读 · 2018年1月19日
资源 | 2017年GitHub中最为流行的30个开源机器学习项目
黑龙江大学自然语言处理实验室
3+阅读 · 2018年1月8日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
Arxiv
5+阅读 · 2020年3月16日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
VIP会员
相关资讯
近期值得关注的8款AI开源项目 | 本周Github精选
PaperWeekly
4+阅读 · 2018年8月3日
精选10大机器学习开源项目 !(附链接)
数据派THU
7+阅读 · 2018年5月3日
本周值得读:13 份最新开源「Paper + Code」
PaperWeekly
9+阅读 · 2018年1月19日
资源 | 2017年GitHub中最为流行的30个开源机器学习项目
黑龙江大学自然语言处理实验室
3+阅读 · 2018年1月8日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员