在最速梯度下降法中,可以知道迭代点的更新为:x^(k+1)=x^(k)+tkdf(x^(k)) ,可以看到只用到了目标函数的一阶导数信息(迭代方向df(x^(k))),而牛顿法则用到了二阶导数信息,下面讲解如何用到了二阶导数信息。
用目标函数的二阶泰勒展开近似该目标函数,通过求解这个二次函数的极小值来求解凸优化的搜索方向。
以上推导来自于:凸优化(七)——牛顿法
转自:机器学习算法与自然语言处理
完整内容请点击“阅读原文”