R语言LASSO回归 R语言实现LASSO回归的方法

时间:2021-03-15 R_qun 人气:7

想了解R语言实现LASSO回归的方法的相关内容吗，R_qun在本文为您仔细讲解R语言LASSO回归的相关知识和一些Code实例，欢迎阅读和指正，我们先划重点：R语言LASSO回归，下面大家一起来学习吧。

Lasso回归又称为套索回归，是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法，其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于0的回归系数，进一步得到可以解释的模型。R语言中有多个包可以实现Lasso回归，这里使用lars包实现。

1.利用lars函数实现lasso回归并可视化显示

x = as.matrix(data5[, 2:7]) #data5为自己的数据集
y = as.matrix(data5[, 1])
lar1 <-lars(x,y,type = "lasso")
lar1 #查看得到的结果

在这里插入图片描述

从图1可以看出通过lasso回归得到的R^2为0.426，较低。标红的部分是在进行lasso回归时，自变量被选入的顺序。下面用图表的形式显示。

plot(lar1)

在这里插入图片描述

可以看到图2中的竖线对应于lasso中迭代的次数，对应的系数值不为0的自变量即为选入的，竖线的标号与图1中的step相对应。

2.选取cp值最小时对应的模型，获取模型对应系数

对于选取最小cp值对应的模型可以通过两种方式实现：
（1）显示所有cp值，从中挑选最小的

summary(lar1) #输出lasso对象的细节，包括Df、RSS和Cp，其中Cp是MallowsCp统计量，通常选取Cp最小的那个模型

在这里插入图片描述

图3显示了lasso回归中所有的cp值，选择最小的，即上图标红的部分，对应的df=3,最前面一列对应迭代次数（即步数），step=2 。

（2）直接选取最小的cp值

lar1$Cp[which.min(lar$Cp)] #选择最小Cp，结果如下：

在这里插入图片描述

与图3中标红的部分结果一样，但是要注意，2表示的是step大小。

3.选取cp值最小时对应的模型系数

（1）获取所有迭代系数，根据step大小选择cp值最小对应的自变量系数值

lar1$beta #可以得到每一步对应的自变量对应的系数

在这里插入图片描述

图4标红的部分就是step=2对应的cp值最小时对应的模型的自变量的系数

（2）获取指定迭代次数（即步数）对应的自变量的系数，可以通过下面的代码实现：

coef <-coef.lars(lar,mode="step",s=3) #s为step+1，也比图2中竖线为2的迭代次数对应，与图3中df值相等；s取值范围1-7.
coef[coef!=0] #获取系数值不为零的自变量对应的系数值

在这里插入图片描述

与图4中标红部分一样。

4.获取截距的系数

通过第4部分可以获取cp值最小时对应的自变量的系数，但是没有办法获取对应模型的截距值，下面的代码可以获取对应模型的截距值。

上面的代码就是求取cp值最小时对应的模型的截距值，结果如下：

在这里插入图片描述

总结：

通过上面的4步可以利用R语言实现Lasso回归，并可以获取模型相应的系数和截距值。

加载全部内容