使用随机森林分类器预测森林火灾规模

2018 年 5 月 15 日 论智 Sky Williams
作者: Sky B.T. Williams
编译:weakish

编者按:Quicken Loans数据分析开发者Sky B.T. Williams分享了在数据分类失衡情形下调优随机森林模型的经验。

不管你信不信,美国每年发生约8万起森林火灾。大多数是非常小的火灾,无人注意,仅仅影响几英亩无人居住的乡间,但有些却发展为无法控制的森林大火,咆哮着毁灭沿途的一切。仅北加利福尼亚一地,2017年10月至12月间,有关森林火灾的保险理赔申报金额就达到了120亿美元(www.insurance.ca.gov)。并不令人意外的是,森林火灾可能非常危险,据报告,在1920至2015年期间,森林火灾夺去了1114人的生命(www.nifc.gov)。什么造成森林火灾,什么影响森林火灾的规模和传播,什么影响森林火灾的表现,我们能从中学到的任何东西都可能有助于森林火灾的扑救和预防。在这个项目中,我构建了一个模型预测森林火灾的规模,使用了US Forest Service Archive提供的1992-2015年期间一百八十八万场火灾的数据,以及Berkeley Earth提供的历史气温数据。(链接见文末)

特征,探索数据分析,基线

美国根据焚毁的总面积对森林火灾进行分类,A类森林火灾不足1/4英亩,G类超过5000英亩。我搜集了一些特征用于分析,例如发现森林火灾的州,火灾发生地的产权性质(联邦所有,州所有,部落所有,私人所有,等等),火灾的起因(闪电、烟火、营火,等等),经度,纬度,气温;我接着计算出了一些额外特征,例如每个州发生的火灾总数,年平均气温。我选择了总数据的20%(约367000场火灾)作为子样本,以减少算力负担。我确保子样本是随机选取的,以保证子样本中各类火灾的比例和总数据集中的比例一致。接着,我分别使用逻辑回归和随机森林拟合数据,数据集按照80%训练、20%验证的比例切分,使用了5折交叉验证,结果不怎么样。

从上表可以看到,C至G类,逻辑回归的召回是0.00,基本上这意味着它没有成功分类任何属于这些组的火灾,很不好。右边随机森林的结果也好不到哪里去。


为了理解为何我的模型在预测大型火灾方面表现如此之差,我重新查看了全数据集,探索了火灾分类的分布,结果发现小于10英亩的两类火灾,“A”和“B”占据了数据点的绝大部分;此外,和大部分分类相比,分类“G”的数量特别低。这一类别失衡导致了我的两个模型的偏差。此外,我还查看了每个分类累计焚毁的面积,“G”类火灾,尽管只在全国的所有森林火灾中占0.2%,事实上焚毁了75%的总面积。上面的视频是我使用D3动画做的一个演示,显示了这一失衡状态。

调整模型

为了补偿数据点的失衡,我为模型实现了权重分类,让模型在训练时重点关注更少见的分类。重新训练和测试两个模型后,随机森林再一次超过了逻辑回归,以及其他基于距离的模型,因此我决定继续优化随机森林。之前为了比较两个模型的表现,我需要完全一致的数据,所有有些不适合逻辑回归的特征(Null值,缺失部分值的特征)没有使用。现在,我重新加入了这些特征。此外,我还使用了随机森林模型的特征重要性评分消除了一些和区别分类无关的特征。

调整随机森林模型时,我发现对高优先级目标分类的召回影响最大的超参数为:

  • 决定分割时考虑的特征数

  • 每棵树的最大分割数

  • 每个分割包含的最小样本数

  • 创建叶节点的最小样本数

当我在20%的子样本上调好模型后,我初始化了一个内存够多、算力够强的Amazon Web服务,在整个数据集上运行模型(仍然分为80%训练集,20%测试集),使用5折交叉验证再次调整了我的模型。最后,我使用留置的测试数据进行了评估。

最终评估

最终“G”类的召回评分达到了0.62,比刚开始要好太多。不幸的时,准确率非常糟糕,但这和我的决策有关,也是我可以接受的折衷。我选择让这个模型触发很多假警报,将很多小型火灾误报为大型火灾,以最小化漏报毁灭性的大型火灾的概率。

模型告诉了我们什么

当我查看最终模型的特征重要性评分时,我发现最重要的区分火灾分类的三个特征是:经度、纬度、气温。这很重要,因为经度和纬度可能是其他真实环境条件的代理,例如气温、湿度、降水量、风力、海拔,我的模型判定这些因素比起火原因、土地所有性质等特征更加重要。在开始项目的时候,我本来打算在分析时使用更多环境因素,但时间限制了我对数据获取和数据预处理的关注。基于这些结果,如果我打算继续改进模型,毫无疑问我将在随机森林分类器中加入更多额外的环境特征,希望增加其预测能力。

一个非常精确的、维护良好的模型可以实时识别在什么条件下森林火灾最可能蔓延为危险的毁灭性森林大火,以帮助消防人员更好地分配资源,预防财产损失和人员伤亡。

数据集

Wildfires Data

Short, Karen C. 2017. Spatial wildfire occurrence data for the United States, 1992–2015 [FPAFOD20170508]. 4th Edition. Fort Collins, CO: Forest Service Research Data Archive. https://doi.org/10.2737/RDS-2013-0009.4

https://www.kaggle.com/rtatman/188-million-us-wildfires

Air Temperature Data

http://berkeleyearth.org/data/

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

登录查看更多
13

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
151+阅读 · 2020年6月27日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
贝叶斯网络入门
论智
15+阅读 · 2017年11月19日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
6+阅读 · 2018年7月12日
VIP会员
相关资讯
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
贝叶斯网络入门
论智
15+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员