改进的迭代尺度法(IIS)中f#(x,y)的意义

改进的迭代尺度法(IIS)中f#(x,y)的意义

发现网络上对于IIS方法中出现的一个定义 f^{\#}(x, y)=\sum_{i} f_{i}(x, y) 的理解有歧义,并且也没有对这个概念的详细解读,都是范范而谈,我觉得有必要专门写一个简单的小篇来对此进行一个解释。

这个解释性的小篇摘录自:

舟晓南:统计学习方法 - 改进的迭代尺度法IIS解析 | 数据分析,机器学习,学习历程全记录

如果仅对f#(x, y)的理解有困难,看本篇就够了,如果想要对IIS算法有一个更整体的理解,可以点击上面的链接。


以下是我对这个公式的个人理解:

首先在IIS方法中,我们会得到下面的式子:

\\L(w+\delta)-L(w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \stackrel{\sim}{P}(x) \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \\=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \times \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)

我们将等式右端记为: A(\delta \mid w) ,这是似然函数的下界,于是有:

\\L(w+\delta)-L(w) \geq A(\delta \mid w)

为了使 \delta_{i} 更易求,这里就引入了有歧义的一个量:

\\f^{\#}(x, y)=\sum_{i} f_{i}(x, y)

表示所有特征在(x,y)中出现的次数。在书中对f#为常数或不为常数的情况做了讨论,不过对于f#什么时候为常数,网络上各有理解。我们首先回顾一下f(x,y)是什么:

\\f(x, y)=\left\{\begin{array}{cc}1, & x \text { 与 } y \text { 满足某一事实 } \\ 0, & \text { 否则 }\end{array}\right.

首先这个函数f本身代表的是一个规则,即x与y满足某一事实,则为1,否则为0,括号内的x和y是输入值,即每一个数据点的数据,或者说是每一个实例的数据。

可以理解为这个实例的数据是否包含f(x, y)所对应的特征,如果有这个特征,当然就是1,如果没有,就是0。

那么fi(x, y)中的下标i表示的是不同的规则,比如f1(x, y)在x=1, y=2的情况下为1,否则为0;f2(x, y)在x=2,y=2的情况下为1,否则为0。

对某一个实例而言,我们将其代入f1和f2中,判断这个实例的数据是否符合f1和f2的规则,如果仅符合f1而不符合f2,则f1=1,f2=0。

那么 \sum f_{i}(x, y) 实际上是对一个特定的实例的数据进行i次不同规则的判断。

举一个例子,如果f1(x, y)为x1=1, y=0则为1,否则为0,f2(x, y)为x2=0,y=0为1,否则为0。那么对于某一个实例(x1=1, x2=0, y=0)来说,它既满足f1也满足f2,所以f1=1, f2=1,那么 \sum f_{i}(x, y) =2, i=1,2

那么对于另一个实例(x1=1, x2=1, y=0),它满足f1但不满足f2,所以f1=1,f2=0,那么 \sum f_{i}(x, y) =1, i=1,2

这就是为什么在《统计学习方法》中提到f#(x, y)可能为常数,也可能不为常数。在常数的情况下,说明每一个实例的数据符合的规则的数量是一样的,比如有三个规则,实例1符合规则1和规则2,实例2符合规则2和规则3,实例3符合规则1和规则3,尽管它们符合的规则不同,但数量相同,三个实例的f#(x, y)都为2。

当然,f#(x, y)为常数的情况发生的概率很小,因此f#(x, y)在大部分情况下都不是常数。

为了更好的理解,我们再看下标i还出现在权值和权值的更新值上,这说明实际上每一个特征函数fi(x, y)都对应了一个权值wi,对于一个特定的实例来说,如果它符合f1(x, y)的规则,那么权值w1就会作用在这个实例上,也就是说在预测或者分类的时候,模型会考虑f1(x, y)所代表的特征,如果该实例不符合f2(x, y),那么w2就不会作用在这个实例上,毕竟f2(x, y)=0,这样模型在预测或分类时,就不会考虑f2(x, y)所代表的特征,毕竟这个实例都没有这个特征,又为什么要去考虑它呢?

回到IIS算法本身,定义了f#(x, y)后,可以将 A(\delta \mid w) 改写为:

\\ A(\delta \mid w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\\\sum_{x}^{\sim} P(x) \sum_{y} P_{w}(y \mid x) \times \exp \left(f^{\#}(x, y) \sum_{i=1}^{n} \frac{\delta_{i} f_{i}(x, y)}{f^{\#}(x, y)}\right)

接下来只要继续按照IIS方法中的推导去理解就好了。


github:

如果觉得对您有帮助,还烦请点击下面的链接,帮忙github点个star~谢谢~

Zhouxiaonnan/machine-learning-notesandcode


欢迎关注专栏:


机器学习模型Python复现:

舟晓南:感知机模型python复现 - 随机梯度下降法;梯度下降法;adagrad;对偶形式

舟晓南:k近邻(KNN)模型python复现 - 线性扫描;带权值的近邻点优化方法

舟晓南:朴素贝叶斯(Bayes)模型python复现 - 贝叶斯估计;下溢出问题

舟晓南:决策树(Decision Tree)模型python复现 - ID3;C4.5;CART;剪枝

舟晓南:逻辑斯蒂回归(LR)模型python复现 - 随机梯度下降法;SGDM;RMSProp;Adam

舟晓南:支持向量机(SVM)模型python复现 - SMO算法;核技巧;高斯核函数

舟晓南:提升树(BoostingTree)模型python复现 - Adaboost

舟晓南:EM算法python复现 - 高斯混合模型


机器学习模型理论部分:

舟晓南:统计学习方法 - 感知机模型解读 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 感知机模型的收敛性解读 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - k近邻模型解读 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 朴素贝叶斯模型解读 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 朴素贝叶斯之后验概率最大化的含义 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 决策树,CART决策树解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 逻辑斯蒂回归解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 最大熵模型解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 改进的迭代尺度法IIS解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 线性可分支持向量机解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 线性支持向量机解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 非线性支持向量机解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 序列最小最优化算法(SMO)解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 提升算法Adaboost解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 提升树算法解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - EM算法解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 高斯混合模型的EM算法解析 | 数据分析,机器学习,学习历程全记录

舟晓南:统计学习方法 - 隐马尔可夫模型解析 | 数据分析,机器学习,学习历程全记录


MySQL:

舟晓南:转行数据分析师如何开始学习SQL | 工科生三个月转行数据分析学习心得

舟晓南:MySQL的执行逻辑和表的结构 | 数据分析学习历程全记录

舟晓南:MySQL优化查询1:索引及其使用技巧 | 数据分析学习历程全记录

舟晓南:MySQL优化查询2:如何查找低效率语句 | 数据分析学习历程全记录

舟晓南:MySQL优化查询3:explain和show profiles | 数据分析学习历程全记录

舟晓南:MySQL优化查询4:24种查询优化的具体方法 | 数据分析学习历程全记录

舟晓南:MySQL优化查询5:窗口函数的使用和框架范围 | 数据分析学习历程全记录


转行数据分析相关:

舟晓南:如何转行和学习数据分析 | 工科生三个月成功转行数据分析心得浅谈

舟晓南:求职数据分析师岗位,简历应该如何写?|工科生三个月成功转行数据分析心得浅谈


数据分析,机器学习学习社群正式启动~

需要学习资料,想要加入社群均可私信~

在这里会分享各种数据分析相关资源,技能学习技巧和经验等等~

详情私信,一起进步吧!


写于成都 2020-10-13

发布于 2020-10-13 09:52