深度森林,是探索神经网络以外 AI 领域重要的研究方向之一,在表格数据建模任务中已初现锋芒。但是,由于基于决策树的集成模型在具体实现当中,经常会遇到内存不足,硬件效率不如神经网络等问题,是推动其大规模应用的主要瓶颈之一。

2021年2月1日,南大教授周志华微博宣布,他们团队新的深度森林软件包DF21在 GitHub与开源中国同时开源了。该软件包尝试解决了这一方向在上述实际应用过程中所遇到的关键问题,未来在各类在数据建模过程中,大家啊也可以便捷地使用深度森林了。据介绍,该项目目前主要由南大徐轶轩进行开发和维护,在正式发布之前它已经在南大机器学习与数据挖掘研究所(LAMDA)内部经过测试和使用。

项目地址:http://www.lamda.nju.edu.cn/deep-forest/

Gitee 地址:https://gitee.com/lamda-nju/deep-forest

Github 地址:https://github.com/LAMDA-NJU/Deep-Forest

深度森林参与者之一冯霁博士提到,深度森林在表格数据建模上,相对传统算法效果显著,但是之前开源的代码主要用于算法验证,以及辅助其他科研工作者进行深度森林算法相关的研究,代码本身对内存和服务器性能要求较高。徐同学开源的这一版更为简单易用,做了很好的封装,同时进行了高性能优化,大幅降低了内存依赖,对于科研和实际落地应用都是很好的工具。

徐轶轩提到,这个模型的全名是:DF21: A Practical Deep Forest for Tabular Datasets,内存消耗是DF21主要解决的问题。此前的gcForest在处理百万级别的表格型数据集上,占用的内存可能会达到上百 GB。但在新版本中,在千万级别的表格型数据集上进行训练,占用的内存约为原来的十分之一左右。

成为VIP会员查看完整内容
20

相关内容

小米在预训练模型的探索与优化
专知会员服务
18+阅读 · 2020年12月31日
【南京大学冯雯博士论文】新型深度学习模型的研究
专知会员服务
67+阅读 · 2020年12月5日
专知会员服务
80+阅读 · 2020年6月20日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
周志华与「深度森林」
网易智能菌
7+阅读 · 2018年8月2日
超全总结:神经网络加速之量化模型 | 附带代码
周志华提出的gcForest能否取代深度神经网络?
全球人工智能
10+阅读 · 2018年4月19日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Arxiv
0+阅读 · 2021年3月22日
Arxiv
0+阅读 · 2021年3月22日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
相关主题
微信扫码咨询专知VIP会员