正则化_过拟合.docx

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：0.11M 资料格式：docx 举报版权申诉

qq_24729325-11201320-4744302542968012237.docx.pdf-第1页.png

第1页 / 共2页

qq_24729325-11201320-4744302542968012237.docx.pdf-第2页.png

第2页 / 共2页

过拟合、正则化点点滴滴

1.判断方法

2.产生的原因

3.解决方法|防止过拟合

4.为什么正则化能解决过拟合？

5.L1和L2正则化？

6.L1为什么更能容易得到稀疏解？

7.L1和L2正则化的区别？

过拟合、正则化点点滴滴 1. 判断方法过拟合（Over-fitting），模型在训练样本表现的过于优越，在验证集和测试集表现不佳。出现这种现象的原因是训练数据中存在噪音或者训练数据太少。过拟合问题，特征维度（或参数）过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果较差。 2. 产生的原因造成过拟合的原因可以归结为：参数过多或样本过少常见的原因： 1) 训练样本数据量太少、样本标注错误 2) 样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则 3) 参数太多，模型复杂度过高 4) 权值学习迭代次数足够多（Overtraining）即训练轮数过大，拟合了训练数据中的噪音和训练样例中没有代表性的特征。 3. 解决方法|防止过拟合 1) 在神经网络模型中，可使用权值衰减（L2）的方法，即每次迭代过程中以某个小因子降低每个权值。 Early stopping：选取合适的停止训练标准，使对机器的训练在合适的程度 2) 3) 数据增强 4) 正则化，L1 和 L2 正则化、Dropout 随机选取正则化。 4. 为什么正则化能解决过拟合？特征变量过多会导致过拟合，为了防止过拟合会选择一些比较重要的特征变量，删掉很多次要的特征变量，但是我们希望利用这些特征信息，所以添加正则化来约束这些特征变量，使得这些特征变量的权重很小，接近 0，这样就能保留这些特征变量，又不至于使得这些特征变量的影响过大。 5. L1 和 L2 正则化？ L2 和 L1 范数正则化都有助于降低过拟合风险，但是 L1 还会带来一个额外的好处，L1 正则化更易获得“稀疏”解，即它求得的参数 W 会有更少的非零分量。

6. L1 为什么更能容易得到稀疏解？假定特征集合 x 两个特征，x={x1,x2}。对应的 W 也有两个分量即 w={W1,W2}。然后分别再 2 维坐标上绘制出损失函数的等值线(即在（W_1,W_2）空间中平方误差项值相同的点的连线)。然后分别绘制出 L1 范数和 L2 范数的等值线。如下图所示：带正则化项求得的解 w 要在损失函数项和正则化项之间这种，即出现在图中损失函数项等值线与正则化项等值线相交处。从图 2-2 可以看出，采用 L1 范数时平方损失项的等值线与正则化项等值线的交点出现在（参数空间）坐标轴上，即 w1 或 w2 为 0；而在采用 L2 范数时，两个等值线的相交点常出现在某个象限内（如图示第 2 象限），即 w1 或 w2 均非 0。从图示例可以看出，在目标函数中，加入采用 L1 范数比 L2 范数更易于得到稀疏解。 7. L1 和 L2 正则化的区别？公式 L1 正则化：权重向量 w 中各个元素的绝对值之和 L2 正则化：权重向量 w 中各个元素的平方和再平方根都可解决过拟合（over-fitting）的问题。 L1 具有稀疏性：产生稀疏权值矩阵，可用于特征选择 L2 具有鲁棒性；权重减轻

分享到：

赞收藏

资料库

正则化_过拟合.docx

相关推荐

人工智能

热门标签

最新资料