ThunderGBM:快成一道闪电的梯度提升决策树

2019 年 5 月 8 日 极市平台

极市正在推出CVPR2019的专题直播分享会邀请CVPR2019的论文作者进行线上直播,分享优秀的科研工作和技术干货,也欢迎各位小伙伴自荐或推荐优秀的CVPR论文作者到极市进行技术分享~

本周四(5月9日)晚,中科院自动化所模式识别国家重点实验室的张志鹏,将为我们分享

基于siamese网络的单目标跟踪CVPR2019 Oral),公众号回复“41”即可获取直播详情。


来源 | 机器之心

论文链接 | 

https://www.comp.nus.edu.sg/~wenzy/papers/thundergbm.pdf

项目地址 | 

https://github.com/Xtra-Computing/thundergbm

想在 GPU 上使用使用闪电般快速的提升方法?了解这个库就好了。在很多任务上,它都比 LightGBM 和 XGBoost 快。


尽管近年来神经网络复兴并大为流行,但提升算法在训练样本量有限、所需训练时间较短、缺乏调参知识等场景依然有其不可或缺的优势。目前代表性的提升方法有 CatBoost、Light GBM 和 XGBoost 等,本文介绍一项新的开源工作,它构建了另一种基于 GPU 的极速梯度提升决策树和随机森林算法。


项目地址:https://github.com/Xtra-Computing/thundergbm


那么我们为什么加速 GBDT 和随机森林?2017 年,一份 Kaggle 调查显示,数据挖掘和机器学习从业者中分别有 50%、46% 和 24% 的人使用决策树、随机森林和 GBM。GBDT 和随机森林经常被用来创建当前最佳的数据科学解决方案,这就要求我们能使用 GPU 在大型数据集上完成高效训练。



两棵决策树的集成方法,选自 XGBoost 文档。


尽管 XGBoost 等库已经支持 GPU 了,但毕竟不是一开始就为 GPU 而设计的,因此在优化和加速上会有一些瑕疵。而 ThunderGBM 旨在帮助用户轻松高效地应用 GBDT 和随机森林来解决问题,它可以利用 GPU 完成高效训练。


对于 GPU 而言,ThunderGBM 在很多任务上都比其它几个库要快。


ThunderGBM 的主要特征如下:


  • 通常是其它库的 10 倍。

  • 支持 Python(scikit-learn)接口。

  • 支持操作系统 Linux。

  • 支持分类、回归和排序。


ThunderGBM 预测和训练的整体流程。


ThunderGBM 主要作者包括新加坡国立大学的 Zeyi Wen 和 Qinbin Li、华南理工大学的 Jiashuai Shi 等,指导教师为 NUS 的 Bingsheng He。


入门指南


ThunderGBM 要求开发环境满足 cmake 2.8 或更高版本;对于 Linux,使用 gcc 4.8 或更高版本;C++boost; CUDA 8 或更高版本。


下载:


git clone https://github.com/zeyiwen/thundergbm.gitcd thundergbm# under the directory of thundergbmgit submodule init cub && git submodule update


在 Linux 上构建:


#under the directory of thundergbmmkdir build && cd build && cmake .. && make -j


快速测试:


./bin/thundergbm-train ../dataset/machine.conf./bin/thundergbm-predict ../dataset/machine.conf


成功运行后,你将看到 RMSE = 0.489562。


相关研究


如果读者对实现的技术及模型细节感兴趣,可以查阅原论文:

https://www.comp.nus.edu.sg/~wenzy/papers/thundergbm.pdf


其它相关文献:


  • 论文:Efficient Gradient Boosted Decision Tree Training on GPUs

  • 作者:Zeyi Wen, Bingsheng He, Kotagiri Ramamohanarao, Shengliang Lu, and Jiashuai Shi

  • 地址:https://www.comp.nus.edu.sg/~hebs/pub/IPDPS18-GPUGBDT.pdf





*延伸阅读



点击左下角阅读原文”,即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~



觉得有用麻烦给个好看啦~  

登录查看更多
1

相关内容

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
【干货书】现代数据平台架构,636页pdf
专知会员服务
256+阅读 · 2020年6月15日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
专知会员服务
32+阅读 · 2020年4月24日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【新书】Python中的经典计算机科学问题,224页pdf
专知会员服务
147+阅读 · 2019年12月28日
线性模型已退场,XGBoost时代早已来
全球人工智能
9+阅读 · 2019年4月16日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
深大教授开源的人脸检测库,速度号称史上最快
大数据技术
9+阅读 · 2019年3月21日
春招已近,这份GitHub万星的ML算法面试大全请收下
算法与数学之美
6+阅读 · 2019年2月27日
LightGBM 大战 XGBoost,谁将夺得桂冠?
AI研习社
7+阅读 · 2018年4月17日
干货 | 详解scikit-learn中随机森林(RF)和梯度提升决策树(GBDT)的参数调优
机器学习算法与Python学习
6+阅读 · 2017年7月26日
利用TensorFlow实现多元逻辑回归和多元线性回归
数据挖掘入门与实战
5+阅读 · 2017年7月4日
Arxiv
35+阅读 · 2019年11月7日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
5+阅读 · 2018年5月16日
VIP会员
相关VIP内容
【干货书】现代数据平台架构,636页pdf
专知会员服务
256+阅读 · 2020年6月15日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
专知会员服务
32+阅读 · 2020年4月24日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【新书】Python中的经典计算机科学问题,224页pdf
专知会员服务
147+阅读 · 2019年12月28日
相关资讯
线性模型已退场,XGBoost时代早已来
全球人工智能
9+阅读 · 2019年4月16日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
深大教授开源的人脸检测库,速度号称史上最快
大数据技术
9+阅读 · 2019年3月21日
春招已近,这份GitHub万星的ML算法面试大全请收下
算法与数学之美
6+阅读 · 2019年2月27日
LightGBM 大战 XGBoost,谁将夺得桂冠?
AI研习社
7+阅读 · 2018年4月17日
干货 | 详解scikit-learn中随机森林(RF)和梯度提升决策树(GBDT)的参数调优
机器学习算法与Python学习
6+阅读 · 2017年7月26日
利用TensorFlow实现多元逻辑回归和多元线性回归
数据挖掘入门与实战
5+阅读 · 2017年7月4日
Top
微信扫码咨询专知VIP会员