前言:
阅读文档 《机器学习与应用》
一 最优化方法
1.1 梯度下降法
根据多元函数的泰勒展开公式,忽略二次以上的项,函数 f(x)
在点 x 可以展开为
如果
则函数单调递减的,则
从初始点出发,使用下面迭代公式
只要没大道梯度为 0 的点,函数值会沿着
递减,最终会收敛到
梯度值为 0 点,这就是梯度下降法。
这里要弄清楚
梯度, 偏导数,方向导数的基本概念与模型
1.2 牛顿法
因为目标函数是损失函数,函数在
点取得极值,就是导数为 0.
直接求解
点很困难,依然泰勒公式展开,忽略二次以及以上的项
两边同时对
求导
则
牛顿法算法流程
和 阀值精度 e
给定初始的
计算梯度 gk,以及海森矩阵 Hk
如果||gk||
坐标下降法求解流程为:
给定一个初始可解
循环,i=1,2,…n
求解子问题:
坐标下降法每次迭代的时候,沿着一个坐标轴方向进行一维搜索,
固定其它方向,找个一个一元函数极小值,整个搜索过程中使用不同的
坐标方向进行迭代
1.4 拉格朗日乘数法
几何解释: 极点处目标函数的梯度是约束函数梯度的线性组合
问题引出:
拉格朗日乘数法构造下面的目标函数,称为拉格朗日函数
分别对 x 以及 求导,得到下列方程组
1.5 凸优化
对于 n 维空间中点的集合 C,如果对于任意两点 x 和 y,以及实数
任意两点两点连接起来,直线上的点仍然属于该集合
则称为凸集,如下
非凸集
N 维实向量空间
,显然如果
则有
2 仿射子空间
给定 m*n 矩阵 A 和 m 维向量 b,仿射子空间定义如下向量的集合
他是非其次方程组的解,这个结论意义 由线性等式约束条件定义的可行域
是一个凸集
证明
3 多面体
多面体定义如下集合:
它就是由线性不等式围成的区域,下面给出证明
有如下:
由线性不等式约束定义的可行域仍然是一个凸集
假设
为凸集,它们的交集为
。
对于仍以两点
由此
如果等式或者不等式的约束条件定义集合是凸集,那么这些条件联合起来
的集合还是凸集
凸函数定义
如果把等式去掉就是严格的凸函数
凸函数的一阶判定规则为
几何解释:
函数在任何点的切线都位于函数下方
一个重要的结论,凸函数的非负性的组合是凸函数
数学归纳法证明
G(x)是不等式约束函数,为凸函数
H(x) 是等式约束函数,是仿射函数
凸优化问题定义: 目标函数是凸函数,优化函数的可行变量域是凸集,
如下两个都不能保证局部最小值是全局最小值