推荐｜xlearn:大规模稀疏数据的机器学习库，提速13陪! - 专知

会员服务 ·

0

推荐｜xlearn:大规模稀疏数据的机器学习库，提速13陪!

2017 年 11 月 25 日 全球人工智能 马超

——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

——日薪5k-10k招兼职AI讲师>>

－－全国招募1000名AI推广大使>>

在机器学习里，除了深度学习和树模型 (GBDT, RF) 之外，如何高效地处理高维稀疏数据也是非常重要的课题，Sparse LR, FM, FFM 这些算法被广泛运用在实际生产和kaggle比赛中。现有的开源软件例如 liblinear, libfm, libffm 都只能针对特定的算法，并且可扩展性、灵活性、易用性都不够友好。基于此，（北大马超博士）我在博士期间开发了 xLearn，一款专门针对大规模稀疏数据的机器学习库，曾在之前 NIPS 上做过展示。经过打磨，现开源 O网页链接。我们的 vision 是将 xLearn 打造成和 xgboost，MXNet一样的工业事实标准。相比于已有的软件，xLearn的优势主要有

（1）通用性好，我们用统一的架构将主流的算法（lr, fm, ffm 等）全部囊括，用户不用再切换于不同软件之间。

（2）性能好。xLearn由高性能c++开发，提供 cache-aware 和 lock-free learning，并且经过手工 SSE／AVX 指令优化。在单机MacBook Pro上测试 xLearn 可以比 libfm 快13倍，比 libffm 和 liblinear 快5倍（基于Criteo CTR数据 bechmark）。

（3）易用性和灵活性，xLearn 提供简单的 python 接口，并且集合了机器学习比赛中许多有用的功能，例如：cross-validation，early-stopping 等。除此之外，用户可以灵活选择优化算法（例如，SGD，AdaGrad, FTRL 等）

(4) 可扩展性好。xLearn 提供 out-of-core 计算，利用外存计算可以在单机处理 1TB 数据。

除此之外，xLearn 也提供分布式训练功能。这里我希望更多的朋友加入这个开源项目！

开源地址：https://github.com/aksnzhy/xlearn

热门文章推荐

招聘｜AI学院长期招聘AI课程讲师（兼职）：日薪5k-10k

浙大才女：用人耳听不到的超声波（攻击）控制语音助手！

Science：最新发现哈希可能是大脑的通用计算原理！

厉害｜波士顿动力新版人形机器人Atlas，后空翻很完美！

吴恩达：AI论文已经够多了，赶紧“搞点事”吧！

厉害了！吉利宣布收购飞行汽车公司Terrafugia ！

周志华：实验表明gcForest是最好的非深度神经网络方法

黑科技｜Adobe出图象技术神器！视频也可以PS了！！

史上第一个被授予公民身份的机器人索菲亚和人对答如流！

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统！

周志华点评AlphaGo Zero：这6大特点非常值得注意！

登录查看更多

3

相关内容

稀疏数据

在数据库中，稀疏数据是指在二维表中含有大量空值的数据；即稀疏数据是指，在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据，只不过是信息不完全，通过适当的手段是可以挖掘出大量有用信息。

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

73+阅读 · 2020年6月1日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【陈天奇】TVM：端到端自动深度学习编译器，244页ppt

【陈天奇】TVM：端到端自动深度学习编译器，244页ppt

专知会员服务

87+阅读 · 2020年5月11日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

专知会员服务

156+阅读 · 2019年12月20日

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

专知会员服务

45+阅读 · 2019年11月19日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

Github项目推荐 | Optuna - 支持剪枝&并行化的贝叶斯超参数优化框架

Github项目推荐 | Optuna - 支持剪枝&并行化的贝叶斯超参数优化框架

AI研习社

9+阅读 · 2019年1月22日

10月机器学习开源项目Top10

10月机器学习开源项目Top10

机器学习算法与Python学习

3+阅读 · 2018年10月30日

6月份最热门的机器学习开源项目Top10

6月份最热门的机器学习开源项目Top10

AI前线

8+阅读 · 2018年7月3日

推荐免费书｜MIT出版《Reinforcement Learning: An Introduction》

推荐免费书｜MIT出版《Reinforcement Learning: An Introduction》

全球人工智能

3+阅读 · 2017年12月1日

推荐| 国立台湾大学: Machine Learning And Having it Deep and Structured

推荐| 国立台湾大学: Machine Learning And Having it Deep and Structured

全球人工智能

5+阅读 · 2017年11月26日

Capsule Networks教程

Capsule Networks教程

全球人工智能

10+阅读 · 2017年11月24日

视频｜PyData:神经网络推荐系统!

视频｜PyData:神经网络推荐系统!

全球人工智能

4+阅读 · 2017年11月20日

35个最著名的机器学习、深度学习AI项目 ‖ 开源

35个最著名的机器学习、深度学习AI项目 ‖ 开源

机械鸡

5+阅读 · 2017年9月23日

【机器学习】推荐13个机器学习框架

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

FuzzerGym: A Competitive Framework for Fuzzing and Learning

FuzzerGym: A Competitive Framework for Fuzzing and Learning

Arxiv

4+阅读 · 2018年7月19日

Adversarial Structure Matching Loss for Image Segmentation

Arxiv

7+阅读 · 2018年5月18日

Deep Reinforcement Learning for Page-wise Recommendations

Arxiv

8+阅读 · 2018年5月7日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

Adaptive Graph Convolutional Neural Networks

Arxiv

7+阅读 · 2018年1月10日

VIP会员

相关主题

梯度提升决策树

相关VIP内容

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

73+阅读 · 2020年6月1日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【陈天奇】TVM：端到端自动深度学习编译器，244页ppt

【陈天奇】TVM：端到端自动深度学习编译器，244页ppt

专知会员服务

87+阅读 · 2020年5月11日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

【Gilles Louppe Spring 2019硬核课程推荐】深度学习：Deep Learning，附639页ppt

专知会员服务

156+阅读 · 2019年12月20日

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

专知会员服务

45+阅读 · 2019年11月19日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

Github项目推荐 | Optuna - 支持剪枝&并行化的贝叶斯超参数优化框架

Github项目推荐 | Optuna - 支持剪枝&并行化的贝叶斯超参数优化框架

AI研习社

9+阅读 · 2019年1月22日

10月机器学习开源项目Top10

10月机器学习开源项目Top10

机器学习算法与Python学习

3+阅读 · 2018年10月30日

6月份最热门的机器学习开源项目Top10

6月份最热门的机器学习开源项目Top10

AI前线

8+阅读 · 2018年7月3日

推荐免费书｜MIT出版《Reinforcement Learning: An Introduction》

推荐免费书｜MIT出版《Reinforcement Learning: An Introduction》

全球人工智能

3+阅读 · 2017年12月1日

推荐| 国立台湾大学: Machine Learning And Having it Deep and Structured

推荐| 国立台湾大学: Machine Learning And Having it Deep and Structured

全球人工智能

5+阅读 · 2017年11月26日

Capsule Networks教程

Capsule Networks教程

全球人工智能

10+阅读 · 2017年11月24日

视频｜PyData:神经网络推荐系统!

视频｜PyData:神经网络推荐系统!

全球人工智能

4+阅读 · 2017年11月20日

35个最著名的机器学习、深度学习AI项目 ‖ 开源

35个最著名的机器学习、深度学习AI项目 ‖ 开源

机械鸡

5+阅读 · 2017年9月23日

【机器学习】推荐13个机器学习框架

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

相关论文

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

FuzzerGym: A Competitive Framework for Fuzzing and Learning

FuzzerGym: A Competitive Framework for Fuzzing and Learning

Arxiv

4+阅读 · 2018年7月19日

Adversarial Structure Matching Loss for Image Segmentation

Arxiv

7+阅读 · 2018年5月18日

Deep Reinforcement Learning for Page-wise Recommendations

Arxiv

8+阅读 · 2018年5月7日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

Adaptive Graph Convolutional Neural Networks

Arxiv

7+阅读 · 2018年1月10日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员