树形结构为什么不需要归一化？ - 专知

会员服务 ·

0

树形结构为什么不需要归一化？

2019 年 4 月 30 日 七月在线实验室

树形结构为什么不需要归一化？

解析：

因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。
按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。
而且，树模型是不能进行梯度下降的，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。

既然树形结构（如决策树、RF）不需要归一化，那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢？

对于线性模型，特征值差别很大时，比如说LR，我有两个特征，一个是(0,1)的，一个是(0,10000)的，运用梯度下降的时候，损失等高线是椭圆形，需要进行多次迭代才能到达最优点。
但是如果进行了归一化，那么等高线就是圆形的，促使SGD往原点迭代，从而导致需要的迭代次数较少。

除了归一化，我们还会经常提到标准化，那到底什么是标准化和归一化呢？

标准化：特征均值为0，方差为1
公式：
归一化：把每个特征向量（特别是奇异样本数据）的值都缩放到相同数值范围，如[0,1]或[-1,1]。

最常用的归一化形式就是将特征向量调整为L1范数（就是绝对值相加），使特征向量的数值之和为1。
而L2范数就是欧几里得之和。
data_normalized = preprocessing.normalize( data , norm="L1" )

公式：

这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异，即确保数据处于同一数量级（同一量纲），提高不同特征数据的可比性。

END

今日学习推荐

【机器学习集训营第八期】

火热报名中

2019年5月6日开课

前160人特惠价:15399

报名加送18VIP

[包2018全年在线课程和全年GPU]

且两人及两人以上组团还能各减500元

有意的亲们抓紧时间喽

咨询/报名/组团可添加微信客服

julyedukefu_02

扫描下方二维码

免费试听↓

试听为PC端页面，手机使用舒适度会略逊

可点阅读原文进入手机端页面

●一文览尽人工智能波澜壮阔70年

●面试常问的经典排序算法全攻略

●0元快速入门Python数据分析

●如何理解模型的过拟合与欠拟合，以及如何解决？

●哪些机器学习算法不需要做归一化处理？

●一文详解：什么是B树？

●34个最优秀好用的Python开源框架

●Python打牢基础，从19个语法开始！

扫描下方二维码关注：七月在线实验室

后台回复：100 免费领取【机器学习面试100题】

后台回复：干货免费领取【全体系人工智能学习资料】

后台回复： 领资料 【NLP工程师必备干货资料】

▼更多精彩推荐，请关注我们▼

戳“阅读原文”开始学习，成为更好的自己。

在看点一下

登录查看更多

8

相关内容

归一化

最新《自动微分手册》77页pdf

最新《自动微分手册》77页pdf

专知会员服务

103+阅读 · 2020年6月6日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

L1和L2正则先验分别服从什么分布

L1和L2正则先验分别服从什么分布

七月在线实验室

11+阅读 · 2019年5月8日

今日面试题分享：L1和L2的区别

今日面试题分享：L1和L2的区别

七月在线实验室

7+阅读 · 2019年3月14日

今日面试题分享：为什么xgboost要用泰勒展开，优势在哪里？

今日面试题分享：为什么xgboost要用泰勒展开，优势在哪里？

七月在线实验室

22+阅读 · 2019年3月13日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

干货 | 深度学习之卷积神经网络(CNN)的模型结构

干货 | 深度学习之卷积神经网络(CNN)的模型结构

机器学习算法与Python学习

12+阅读 · 2017年11月1日

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

SlugNERDS: A Named Entity Recognition Tool for Open Domain Dialogue Systems

Arxiv

5+阅读 · 2018年5月10日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

VIP会员

相关主题

相关VIP内容

最新《自动微分手册》77页pdf

最新《自动微分手册》77页pdf

专知会员服务

103+阅读 · 2020年6月6日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

L1和L2正则先验分别服从什么分布

L1和L2正则先验分别服从什么分布

七月在线实验室

11+阅读 · 2019年5月8日

今日面试题分享：L1和L2的区别

今日面试题分享：L1和L2的区别

七月在线实验室

7+阅读 · 2019年3月14日

今日面试题分享：为什么xgboost要用泰勒展开，优势在哪里？

今日面试题分享：为什么xgboost要用泰勒展开，优势在哪里？

七月在线实验室

22+阅读 · 2019年3月13日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

干货 | 深度学习之卷积神经网络(CNN)的模型结构

干货 | 深度学习之卷积神经网络(CNN)的模型结构

机器学习算法与Python学习

12+阅读 · 2017年11月1日

相关论文

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

SlugNERDS: A Named Entity Recognition Tool for Open Domain Dialogue Systems

Arxiv

5+阅读 · 2018年5月10日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员