使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso 算法则是一种能够实现指标集合精简的估计方法。
给出一组输入值 $x_1,x_2,\cdots x_p$ 和输出值 $y$,lasso 满足下面的线性模型:
$$\hat y = b_0 + b_1 \times x_1 +b_2 \times x_2 + \cdots b_p \times x_p$$
其标准是
$$ \min \vert \vert y- \hat y \vert \vert ^2 $$
$$ s.t. \sum_j \vert b_j \vert \leq s,s \geq 0 $$
$s$ 是调参。当 $s$ 足够大时,约束条件没有影响,其解只是通常的 $y$ 在 $x_1,x_2,\cdots x_p$ 上的线性最小二乘回归。当 $s$ 比较小时,求解方法是缩小版的最小二乘估计(shrunken versions of the least squares estimates)。通常情况下,系数 $b_j = 0$,对 $s$ 的选择就如同选择回归模型的中使用的预测值,交叉验证是估计 $s$ 的一个比较好的方法。
未完待续