Lasso算法

✍ dations ◷ 2025-08-17 05:22:57 #Lasso算法

在统计学和机器学习中,Lasso算法(英语:least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法)是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性,最初由斯坦福大学统计学教授Robert Tibshirani(英语:Robert Tibshirani)于1996年基于Leo Breiman的非负参数推断(Nonnegative Garrote, NNG)提出。Lasso算法最初用于计算最小二乘法模型,这个简单的算法揭示了很多估计量的重要性质,如估计量与岭回归(Ridge regression,也叫吉洪诺夫正则化)和最佳子集选择的关系,Lasso系数估计值(estimate)和软阈值(soft thresholding)之间的联系。它也揭示了当协变量共线时,Lasso系数估计值不一定唯一(类似标准线性回归)。

虽然最早是为应用最小二乘法而定义的算法,lasso正则化可以简单直接地拓展应用于许多统计学模型上,包括广义线性模型,广义估计方程,成比例灾难模型和M-估计。Lasso选择子集的能力依赖于限制条件的形式并且有多种表现形式,包括几何学,贝叶斯统计,和凸分析。

Lasso算法与基追踪降噪联系紧密。

Robert Tibshirani最初使用Lasso来提高预测的准确性与回归模型的可解释性,他修改了模型拟合的过程,在协变量中只选择一个子集应用到最终模型中,而非用上全部协变量。这是基于有着相似目的,但方法有所不同的Breiman的非负参数推断。

在Lasso之前,选择模型中协变量最常用的方法是移步选择,这种方法在某些情况下是准确的,例如一些协变量与模型输出值有强相关性情况。然而在另一些情况下,这种方法会让预测结果更差。在当时,岭回归是提高模型预测准确性最常用的方法。岭回归可以通过缩小大的回归系数来减少过拟合从而改善模型预测偏差。但是它并不选择协变量,所以对模型的准确构建和解释没有帮助。

Lasso结合了上述的两种方法,它通过强制让回归系数绝对值之和小于某固定值,即强制一些回归系数变为0,有效地选择了不包括这些回归系数对应的协变量的更简单的模型。这种方法和岭回归类似,在岭回归中,回归系数平方和被强制小于某定值,不同点在于岭回归只改变系数的值,而不把任何值设为0。

Lasso最初为了最小二乘法而被设计出来,Lasso的最小二乘法应用能够简单明了地展示Lasso的许多特性。

假设一个样本包括N种事件,每个事件包括个协变量和一个输出值。让 y i {displaystyle y_{i}} 行,那么上式可以写成更紧凑的形式:

这里 β p = ( i = 1 N | β i | p ) 1 / p {displaystyle |beta |_{p}=left(sum _{i=1}^{N}|beta _{i}|^{p}right)^{1/p}} and , are identical for each case, so that x ( j ) = x ( k ) {displaystyle x_{(j)}=x_{(k)}} , where x ( j ) , i = x i j {displaystyle x_{(j),i}=x_{ij}} . Then the values of β j {displaystyle beta _{j}} and β k {displaystyle beta _{k}} that minimize the lasso objective function are not uniquely determined. In fact, if there is some solution β ^ {displaystyle {hat {beta }}} in which β ^ j β ^ k 0 {displaystyle {hat {beta }}_{j}{hat {beta }}_{k}geq 0} , then if s {displaystyle sin } replacing β ^ j {displaystyle {hat {beta }}_{j}} by s ( β ^ j + β ^ k ) {displaystyle s({hat {beta }}_{j}+{hat {beta }}_{k})} and β ^ k {displaystyle {hat {beta }}_{k}} by ( 1 s ) ( β ^ j + β ^ k ) {displaystyle (1-s)({hat {beta }}_{j}+{hat {beta }}_{k})} , while keeping all the other β ^ i {displaystyle {hat {beta }}_{i}} fixed, gives a new solution, so the lasso objective function then has a continuum of valid minimizers. Several variants of the lasso, including the Elastic Net, have been designed to address this shortcoming, which are discussed below.


相关

  • 桂枝二麻黄一汤桂枝二麻黄一汤,故名思义是由桂枝汤二份及麻黄汤一份相合而组成的方剂,为太阳症处方,辛温解表轻剂。用于治疗服用桂枝汤后汗出太过所产生的病症。其产生的症状有如疟疾一般。《
  • 阿卡语阿卡语是阿卡人使用的语言,使用范围分布于中国云南、缅甸掸邦、老挝北部以及泰国北部。西方学者将阿卡语、哈尼语及豪尼语(英语:Honi language)归类于哈尼语支之下,将它们视为彼
  • “尼克松在中国”“尼克松在中国”或“尼克松到中国”(英文:Nixon in China或Nixon goes to China)是美国的政治譬喻,源于美国总统理查德·尼克松1972年访问中华人民共和国之行。现常用来比喻某
  • 伍丁维尔伍丁维尔(Woodinville)位于美国华盛顿州金郡,本市的北边紧邻西雅图。2010年美国人口普查时人口为10,938人。本市是西雅图都会区的一部分。在附近的金郡(山寨湖)和斯诺霍米什郡(莫
  • 西马其顿西马其顿大区(希腊语:Δυτική Μακεδονία,转写:Ditiki Makedonia),13个希腊大区之一,面积9451平方公里,下辖四州:弗洛里纳州、格莱维纳州、卡斯托利亚州、科扎尼州,大区
  • 何兰阶何兰阶(1910年12月21日-2002年10月15日),男,湖北麻城人,中华人民共和国政治人物,曾任中华人民共和国最高人民法院副院长。1930年,参加中国工农红军,历任红四方面军红一师警卫连排长,三
  • Araon号Araon号是韩国自行设计建造的首艘破冰船,世宗科学基地和张保皋科学基地(英语:Jang Bogo Station)两个南极科学考察站的科考船。“ARAON”是韩语“大海”和“全部”两个单词发音
  • 霍斯特-迪特·霍特格斯霍斯特-迪特·霍特格斯(德语:Horst-Dieter Höttges,1943年9月10日-),前德国足球运动员,职业生涯曾先后效力于门兴格拉德巴赫和云达不来梅等球队,并随西德国家足球队赢得1974年世界杯足球赛冠军。
  • 月风魔传:不朽之月《月风魔传:不朽之月》(英语:GetsuFumaDen: Undying Moon)是一款由科乐美数位娱乐与GuruGuru共同开发的动作游戏,也是1987年红白机游戏《月风魔传》的续作。预定于2021年5月14日发行体验版,2022年发行正式版。
  • 东山支线高速公路东山支线高速公路是福建省的一条高速公路,又称沈海高速公路东山连接线、东山联络线,省高速编号为S64(原编号S1526,曾使用S59),起点在 沈海高速,终点在东山县,全长11.199公里,于2013年5月1日开工,2015年9月26日通车。