推荐|xlearn:大规模稀疏数据的机器学习库,提速13陪!

2017 年 11 月 25 日 全球人工智能 马超


——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

——日薪5k-10k招兼职AI讲师>>

--全国招募1000名AI推广大使>>

在机器学习里,除了深度学习和树模型 (GBDT, RF) 之外,如何高效地处理高维稀疏数据也是非常重要的课题,Sparse LR, FM, FFM 这些算法被广泛运用在实际生产和kaggle比赛中。现有的开源软件例如 liblinear, libfm, libffm 都只能针对特定的算法,并且可扩展性、灵活性、易用性都不够友好。基于此,(北大马超博士)我在博士期间开发了 xLearn,一款专门针对大规模稀疏数据的机器学习库,曾在之前 NIPS 上做过展示。经过打磨,现开源 O网页链接。我们的 vision 是将 xLearn 打造成和 xgboost,MXNet一样的工业事实标准。相比于已有的软件,xLearn的优势主要有


(1)通用性好,我们用统一的架构将主流的算法(lr, fm, ffm  等)全部囊括,用户不用再切换于不同软件之间。

(2)性能好。xLearn由高性能c++开发,提供 cache-aware 和 lock-free learning,并且经过手工 SSE/AVX 指令优化。 在单机MacBook Pro上测试 xLearn 可以比 libfm 快13倍,比  libffm 和 liblinear 快5倍(基于Criteo CTR数据 bechmark)。



(3)易用性和灵活性,xLearn 提供简单的 python 接口,并且集合了机器学习比赛中许多有用的功能,例如:cross-validation,early-stopping 等。除此之外,用户可以灵活选择优化算法(例如,SGD,AdaGrad, FTRL 等)

(4) 可扩展性好。xLearn 提供 out-of-core 计算,利用外存计算可以在单机处理 1TB 数据。

除此之外,xLearn 也提供分布式训练功能。这里我希望更多的朋友加入这个开源项目!

开源地址:https://github.com/aksnzhy/xlearn

热门文章推荐

招聘|AI学院长期招聘AI课程讲师(兼职):日薪5k-10k

浙大才女:用人耳听不到的超声波(攻击)控制语音助手!

Science:最新发现哈希可能是大脑的通用计算原理!

厉害|波士顿动力新版人形机器人Atlas,后空翻很完美!

吴恩达:AI论文已经够多了,赶紧“搞点事”吧!

厉害了!吉利宣布收购飞行汽车公司Terrafugia !

周志华:实验表明gcForest是最好的非深度神经网络方法

黑科技|Adobe出图象技术神器!视频也可以PS了!!

史上第一个被授予公民身份的机器人索菲亚和人对答如流!

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统!

周志华点评AlphaGo Zero:这6大特点非常值得注意!

登录查看更多
3

相关内容

在数据库中,稀疏数据是指在二维表中含有大量空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息。
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
81+阅读 · 2020年5月23日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
85+阅读 · 2020年5月11日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
6月份最热门的机器学习开源项目Top10
AI前线
8+阅读 · 2018年7月3日
推荐免费书|MIT出版《Reinforcement Learning: An Introduction》
全球人工智能
3+阅读 · 2017年12月1日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
视频|PyData:神经网络推荐系统!
全球人工智能
4+阅读 · 2017年11月20日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
15+阅读 · 2017年8月3日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
相关资讯
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
6月份最热门的机器学习开源项目Top10
AI前线
8+阅读 · 2018年7月3日
推荐免费书|MIT出版《Reinforcement Learning: An Introduction》
全球人工智能
3+阅读 · 2017年12月1日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
视频|PyData:神经网络推荐系统!
全球人工智能
4+阅读 · 2017年11月20日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
15+阅读 · 2017年8月3日
Top
微信扫码咨询专知VIP会员