Lasso算法

✍ dations ◷ 2025-10-29 00:35:06 #Lasso算法

在统计学和机器学习中,Lasso算法(英语:least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法)是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性,最初由斯坦福大学统计学教授Robert Tibshirani(英语:Robert Tibshirani)于1996年基于Leo Breiman的非负参数推断(Nonnegative Garrote, NNG)提出。Lasso算法最初用于计算最小二乘法模型,这个简单的算法揭示了很多估计量的重要性质,如估计量与岭回归(Ridge regression,也叫吉洪诺夫正则化)和最佳子集选择的关系,Lasso系数估计值(estimate)和软阈值(soft thresholding)之间的联系。它也揭示了当协变量共线时,Lasso系数估计值不一定唯一(类似标准线性回归)。

虽然最早是为应用最小二乘法而定义的算法,lasso正则化可以简单直接地拓展应用于许多统计学模型上,包括广义线性模型,广义估计方程,成比例灾难模型和M-估计。Lasso选择子集的能力依赖于限制条件的形式并且有多种表现形式,包括几何学,贝叶斯统计,和凸分析。

Lasso算法与基追踪降噪联系紧密。

Robert Tibshirani最初使用Lasso来提高预测的准确性与回归模型的可解释性,他修改了模型拟合的过程,在协变量中只选择一个子集应用到最终模型中,而非用上全部协变量。这是基于有着相似目的,但方法有所不同的Breiman的非负参数推断。

在Lasso之前,选择模型中协变量最常用的方法是移步选择,这种方法在某些情况下是准确的,例如一些协变量与模型输出值有强相关性情况。然而在另一些情况下,这种方法会让预测结果更差。在当时,岭回归是提高模型预测准确性最常用的方法。岭回归可以通过缩小大的回归系数来减少过拟合从而改善模型预测偏差。但是它并不选择协变量,所以对模型的准确构建和解释没有帮助。

Lasso结合了上述的两种方法,它通过强制让回归系数绝对值之和小于某固定值,即强制一些回归系数变为0,有效地选择了不包括这些回归系数对应的协变量的更简单的模型。这种方法和岭回归类似,在岭回归中,回归系数平方和被强制小于某定值,不同点在于岭回归只改变系数的值,而不把任何值设为0。

Lasso最初为了最小二乘法而被设计出来,Lasso的最小二乘法应用能够简单明了地展示Lasso的许多特性。

假设一个样本包括N种事件,每个事件包括个协变量和一个输出值。让 y i {displaystyle y_{i}} 行,那么上式可以写成更紧凑的形式:

这里 β p = ( i = 1 N | β i | p ) 1 / p {displaystyle |beta |_{p}=left(sum _{i=1}^{N}|beta _{i}|^{p}right)^{1/p}} and , are identical for each case, so that x ( j ) = x ( k ) {displaystyle x_{(j)}=x_{(k)}} , where x ( j ) , i = x i j {displaystyle x_{(j),i}=x_{ij}} . Then the values of β j {displaystyle beta _{j}} and β k {displaystyle beta _{k}} that minimize the lasso objective function are not uniquely determined. In fact, if there is some solution β ^ {displaystyle {hat {beta }}} in which β ^ j β ^ k 0 {displaystyle {hat {beta }}_{j}{hat {beta }}_{k}geq 0} , then if s {displaystyle sin } replacing β ^ j {displaystyle {hat {beta }}_{j}} by s ( β ^ j + β ^ k ) {displaystyle s({hat {beta }}_{j}+{hat {beta }}_{k})} and β ^ k {displaystyle {hat {beta }}_{k}} by ( 1 s ) ( β ^ j + β ^ k ) {displaystyle (1-s)({hat {beta }}_{j}+{hat {beta }}_{k})} , while keeping all the other β ^ i {displaystyle {hat {beta }}_{i}} fixed, gives a new solution, so the lasso objective function then has a continuum of valid minimizers. Several variants of the lasso, including the Elastic Net, have been designed to address this shortcoming, which are discussed below.


相关

  • 先天性免疫系统先天免疫系统(英语:Innate immunity)又称为非特异性免疫、固有免疫、非专一性防御,包括一系列的细胞及相关机制,可以以非特异性的方式抵御外来感染。先天免疫系统的细胞会非特异
  • 复层噬菌体科复层噬菌体属 Tectivirus复层噬菌体科(Tectiviridae),也译作复层病毒科,tecti来自拉丁文的tectus,有有盖的之意。主要宿主为细菌。代表种:
  • 超椭圆超椭圆(superellipse)也称为拉梅曲线(Lamé curve),是在笛卡儿坐标系下满足以下方程式的点的集合:其中n、a及b为正数。上述方程式的解会是一个在−a ≤ x ≤ +a及−b ≤ y ≤
  • 查尔斯·狄龙·珀赖因查尔斯·狄龙·珀赖因(Charles Dillon Perrine,1867年7月28日-1951年6月21日),出生于美国的阿根廷天文学家。珀赖因出生于俄亥俄州斯托本维尔,1893年至1909年间就职于利克天文台,其
  • 陈元直 (1917年)陈元直(1917年-2008年),男,回族,湖北武汉人,中国编辑家、出版家,机械工业出版社原社长、总编辑,首届韬奋出版奖获得者。
  • 庄亲王和硕庄亲王(满语:ᡥᠣᡧᠣᡳ ᠠᠮᠪᠠᠯᡳᠩᡤᡡ ᠴᡳᠨ ᠸᠠᠩ,穆麟德:,太清:),清朝世袭亲王。顺治八年(1651年),清太宗皇太极第五子硕塞被其弟顺治帝封为承泽亲王(满语:ᡥᠣᡧᠣᡳ ᡴ
  • 李尚顺李尚顺(1974年8月5日-)是韩国男歌手及作曲家。在1999年以乐团Rollor Coaster的成员出道。在2010年与东律组成 Verandah Project。曾于荷兰阿姆斯特丹音乐院留学。在一次救助流
  • 再生制动再生制动(英语:Regenerative brake),又称回馈制动或回生制动,是利用电动机的可逆性原理而设计的制动技术,在制动工况将电动机切换成发电机运转,利用车的惯性带动电动机转子旋转而产生反转力矩,将一部分的动能或势能转化为电能并加以储存或利用,因此这是一个能量回收(英语:Energy recovery)的过程。再生制动被广泛应用于纯电动车、混合动力汽车、铁路机车车辆上。汽车采用再生制动时将电动机转变为发电状态,使车辆产生制动力矩,同时将所产生的电能以飞轮、蓄电池或超级电容等方式储存,从而有效地回收
  • 第九届中国电影导演协会2017年度奖第九届中国电影导演协会2017年度奖是中国电影导演协会对2017年中国电影给予的表彰,于2018年2月27日公布初评入围名单,3月22日在北京举行提名晚宴,公布提名名单,4月21日在北京举行颁奖典礼,于4月22日晚22点在东方卫视播出。参评资格初评委员会陆川(主席)、刘杰、刘仪伟、滕华涛、肖央终评委员会张艺谋(主席)、张建亚、李少红、杨凤良、尹力、章明、陆川、赵薇、程耳      为最终表彰获得者本次评委会对第五代电影人进行特别表彰,“在20世纪承上启下的历史节点,第五代电影人从题材和样式到主题和意
  • 千叶和彦千叶和彦(1985年6月21日-),日本足球运动员,现效力日乙球队新潟天鹅,前日本国家足球队成员。千叶和彦生于1985年7月21日,司职后卫,毕业于日生学园第二高等学校。2003年加盟荷甲球队阿珀尔多伦。一年后加盟多德勒支。千叶和彦已经回到了日本,加盟了新潟天鹅。千叶和彦从2012年开始效力广岛三箭7个赛季,经历了球队三次夺得联赛冠军。但上赛季出场机会减少,联赛最终出赛11场。 ​名古屋鲸鱼25日宣布从广岛三箭转会获得后卫千叶和彦。2014年2月25日,亚冠小组赛F组的首轮比赛中,北京国安客场1比1战平广