改进的迭代尺度法(IIS)中f#(x,y)的意义

舟晓南

发现网络上对于IIS方法中出现的一个定义 f^{\#}(x， y)=\sum_{i} f_{i}(x， y) 的理解有歧义，并且也没有对这个概念的详细解读，都是范范而谈，我觉得有必要专门写一个简单的小篇来对此进行一个解释。

这个解释性的小篇摘录自：

舟晓南：统计学习方法 - 改进的迭代尺度法IIS解析 | 数据分析，机器学习，学习历程全记录

如果仅对f#(x, y)的理解有困难，看本篇就够了，如果想要对IIS算法有一个更整体的理解，可以点击上面的链接。

以下是我对这个公式的个人理解：

首先在IIS方法中，我们会得到下面的式子：

\\L(w+\delta)-L(w) \geqslant \sum_{x， y} \tilde{P}(x， y) \sum_{i=1}^{n} \delta_{i} f_{i}(x， y)+1-\sum_{x} \stackrel{\sim}{P}(x) \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \\=\sum_{x， y} \tilde{P}(x， y) \sum_{i=1}^{n} \delta_{i} f_{i}(x， y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \times \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x， y)

我们将等式右端记为： A(\delta \mid w) ，这是似然函数的下界，于是有：

\\L(w+\delta)-L(w) \geq A(\delta \mid w)

为了使 \delta_{i} 更易求，这里就引入了有歧义的一个量：

\\f^{\#}(x， y)=\sum_{i} f_{i}(x， y)

表示所有特征在(x,y)中出现的次数。在书中对f#为常数或不为常数的情况做了讨论，不过对于f#什么时候为常数，网络上各有理解。我们首先回顾一下f(x,y)是什么：

\\f(x， y)=\left\{\begin{array}{cc}1， & x \text { 与 } y \text { 满足某一事实 } \\ 0， & \text { 否则 }\end{array}\right.

首先这个函数f本身代表的是一个规则，即x与y满足某一事实，则为1，否则为0，括号内的x和y是输入值，即每一个数据点的数据，或者说是每一个实例的数据。

可以理解为这个实例的数据是否包含f(x, y)所对应的特征，如果有这个特征，当然就是1，如果没有，就是0。

那么fi(x, y)中的下标i表示的是不同的规则，比如f1(x, y)在x=1, y=2的情况下为1，否则为0；f2(x, y)在x=2，y=2的情况下为1，否则为0。

对某一个实例而言，我们将其代入f1和f2中，判断这个实例的数据是否符合f1和f2的规则，如果仅符合f1而不符合f2，则f1=1，f2=0。

那么 \sum f_{i}(x， y) 实际上是对一个特定的实例的数据进行i次不同规则的判断。

举一个例子，如果f1(x, y)为x1=1, y=0则为1，否则为0，f2(x, y)为x2=0，y=0为1，否则为0。那么对于某一个实例(x1=1, x2=0, y=0)来说，它既满足f1也满足f2，所以f1=1, f2=1，那么 \sum f_{i}(x， y) =2, i=1,2 。

那么对于另一个实例(x1=1, x2=1, y=0)，它满足f1但不满足f2，所以f1=1，f2=0，那么 \sum f_{i}(x， y) =1, i=1,2 。

这就是为什么在《统计学习方法》中提到f#(x, y)可能为常数，也可能不为常数。在常数的情况下，说明每一个实例的数据符合的规则的数量是一样的，比如有三个规则，实例1符合规则1和规则2，实例2符合规则2和规则3，实例3符合规则1和规则3，尽管它们符合的规则不同，但数量相同，三个实例的f#(x, y)都为2。

当然，f#(x, y)为常数的情况发生的概率很小，因此f#(x, y)在大部分情况下都不是常数。

为了更好的理解，我们再看下标i还出现在权值和权值的更新值上，这说明实际上每一个特征函数fi(x, y)都对应了一个权值wi，对于一个特定的实例来说，如果它符合f1(x, y)的规则，那么权值w1就会作用在这个实例上，也就是说在预测或者分类的时候，模型会考虑f1(x, y)所代表的特征，如果该实例不符合f2(x, y)，那么w2就不会作用在这个实例上，毕竟f2(x, y)=0，这样模型在预测或分类时，就不会考虑f2(x, y)所代表的特征，毕竟这个实例都没有这个特征，又为什么要去考虑它呢？

回到IIS算法本身，定义了f#(x, y)后，可以将 A(\delta \mid w) 改写为：

\\ A(\delta \mid w)=\sum_{x， y} \tilde{P}(x， y) \sum_{i=1}^{n} \delta_{i} f_{i}(x， y)+1-\\\sum_{x}^{\sim} P(x) \sum_{y} P_{w}(y \mid x) \times \exp \left(f^{\#}(x， y) \sum_{i=1}^{n} \frac{\delta_{i} f_{i}(x， y)}{f^{\#}(x， y)}\right)

接下来只要继续按照IIS方法中的推导去理解就好了。

github：

如果觉得对您有帮助，还烦请点击下面的链接，帮忙github点个star~谢谢~

Zhouxiaonnan/machine-learning-notesandcode

欢迎关注专栏：

机器学习模型Python复现：

舟晓南：感知机模型python复现 - 随机梯度下降法；梯度下降法；adagrad；对偶形式

舟晓南：k近邻（KNN）模型python复现 - 线性扫描；带权值的近邻点优化方法

舟晓南：朴素贝叶斯（Bayes）模型python复现 - 贝叶斯估计；下溢出问题

舟晓南：决策树（Decision Tree）模型python复现 - ID3；C4.5；CART；剪枝

舟晓南：逻辑斯蒂回归（LR）模型python复现 - 随机梯度下降法；SGDM；RMSProp；Adam

舟晓南：支持向量机（SVM）模型python复现 - SMO算法；核技巧；高斯核函数