python机器学习——正则化

时间:2020-02-18 Xlgd 人气:2

我们在训练的时候经常会遇到这两种情况：

1、模型在训练集上误差很大。

2、模型在训练集上误差很小，表现不错，但是在测试集上的误差很大

我们先来分析一下这两个问题：

对于第一个问题，明显就是没有训练好，也就是模型没有很好拟合数据的能力，并没有学会如何拟合，可能是因为在训练时我们选择了较少的特征，或者是我们选择的模型太简单了，不能稍微复杂的拟合数据，我们可以通过尝试选取更多的特征、增加一些多项式特征或者直接选用非线性的较复杂的模型来训练。

对于第二个问题，可以说是第一个问题的另外一个极端，就是模型对训练集拟合的太好了，以至于把训练集数据中的那些无关紧要的特征或者噪音也学习到了，导致的结果就是当我们使用测试集来评估模型的泛化能力时，模型表现的很差。打个不恰当比方就是你平时把作业都背下来了，但是其实你并没有学会如何正确解题，所以遇到考试就考的很差。解决方法就是增加训练集的数据量或者减少特征数量来尝试解决。

第一个问题我们叫做欠拟合（underfitting），第二个问题我们叫做过拟合（overfitting）

这两个问题还存在一种解决方法，就是我接下来要说的正则化。

我们之前说模型学习的过程也就是调整权重参数的过程，通过训练集中的数据来将模型的权重参数调整到一个使得损失函数最小的值。

对于一个分布较复杂的样本，如果训练得到的权重参数维度太少或者参数过小，也就是特征项很少，一些重要的特征没有起到作用，那么这条拟合曲线就会变得很简单，我们看上图的欠拟合图像，里面的拟合曲线是一条直线，这就是权重参数维度太少的结果。而如果权重参数维度过多或者参数过大，导致拟合曲线过于复杂，如上图的过拟合图像，拟合曲线可以完美的将两类不同的样本点区分开，但是我们也可以看出这条曲线很复杂，权重参数的项数一定很多。

现在进入正题，对于正则化，我们常见的形式是L2正则：
\[ \frac \lambda 2\lVert w \lVert^2 = \frac \lambda 2 \sum_{j=1}^m{w_j^2} \]
这里的
\[ \lambda \]
就是正则化系数。

我们将正则项直接添加到损失函数后即可使用，比如对于逻辑回归模型，带有L2正则项的损失函数为：
\[ J(w)=\sum_{i=1}^n\left[-y^{(i)}log(\phi(z^{(i)}))-(1-y^{(i)})log(1-\phi(z^{(i)}))\right] + \frac \lambda 2\lVert w \lVert^2 \]
我们通过控制正则化系数来控制权重参数的大小。一般正则化用于解决模型过拟合的问题，我们的训练目标是为了使损失函数最小，但是如果权重参数过大会导致过拟合，模型泛化能力下降，那么为了解决这个问题，将正则项加到损失函数后面，组成一个新的损失函数，为了最小化这个新的损失函数，我们在训练过程中不仅要使得误差小，还要保证正则项不能太大，于是如果我们选择一个较大的正则化系数，那么为了保证正则项不能太大，就会使得权重参数变小，这也就是我们的最终目的：在保证误差不大的情况下，使得权重参数也不能太大，缓解了过拟合问题。正则化系数越大，正则化越强，权重参数越小。

所以对于欠拟合的模型，我们也可以尝试减小正则化系数来增大权重参数，而对于过拟合模型，我们尝试增大正则化系数来减小权重参数。

加载全部内容