偏最小二乘回归

✍ dations ◷ 2025-05-17 00:47:00 #偏最小二乘回归
偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差的超平面,而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型。当Y是分类数据时有“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”,是PLS的一个变形。偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是吉洪诺夫正则化)。偏最小二乘算法被用在偏最小二乘路径建模中, 一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。偏最小二乘的一般多元底层模型是其中 X {displaystyle X} 是一个 n × m {displaystyle ntimes m} 的预测矩阵, Y {displaystyle Y} 是一个 n × p {displaystyle ntimes p} 的响应矩阵; T {displaystyle T} 和 U {displaystyle U} 是 n × l {displaystyle ntimes l} 的矩阵,分别为 X {displaystyle X} 的投影(“X分数”、“组件”或“因子”矩阵)和 Y {displaystyle Y} 的投影(“Y分数”); P {displaystyle P} 和 Q {displaystyle Q} 分别是 m × l {displaystyle mtimes l} 和 p × l {displaystyle ptimes l} 的正交载荷矩阵,以及矩阵 E {displaystyle E} 和 F {displaystyle F} 是错误项,假设是独立同分布的随机正态变量。对 X {displaystyle X} 和 Y {displaystyle Y} 分解来最大化 T {displaystyle T} 和 U {displaystyle U} 之间的协方差。偏最小二乘的许多变量是为了估计因子和载荷矩阵 T , U , P {displaystyle T,U,P} 和 Q {displaystyle Q} 。它们中大多数构造了 X {displaystyle X} 和 Y {displaystyle Y} 之间线性回归的估计 Y = X B ~ + B ~ 0 {displaystyle Y=X{tilde {B}}+{tilde {B}}_{0}} 。一些偏最小二乘算法只适合 Y {displaystyle Y} 是一个列向量的情况,而其它的算法则处理了 Y {displaystyle Y} 是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵 T {displaystyle T} 为一个正交矩阵而不同。 最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。PLS1是一个 Y {displaystyle Y} 是向量时广泛使用的算法。它估计 T {displaystyle T} 是一个正交矩阵。以下是伪代码(大写字母是矩阵,带上标的小写字母是向量,带下标的小写字母和单独的小写字母都是标量):这种形式的算法不需要输入 X {displaystyle X} 和 Y {displaystyle Y} 定中心,因为算法隐式处理了。这个算法的特点是收缩于 X {displaystyle X} (减去 t k t ( k ) p ( k ) T {displaystyle t_{k}t^{(k)}{p^{(k)}}^{T}} ),但向量 y {displaystyle y} 不收缩,因为没有必要(可以证明收缩 y {displaystyle y} 和不收缩的结果是一样的)。用户提供的变量 l {displaystyle l} 是回归中隐藏因子数量的限制;如果它等于矩阵 X {displaystyle X} 的秩,算法将产生 B {displaystyle B} 和 B 0 {displaystyle B_{0}} 的最小二乘回归估计。2002年,一个叫做正交投影(英语:Orthogonal Projections to Latent Structures, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是生产力。 L-PLS通过3个连接数据块扩展了偏最小二乘回归。 同样,OPLS-DA(英语:Discriminant Analysis, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。大多数统计软件包都提供偏最小二乘回归。 R中的‘pls’包提供了一系列算法。

相关

  • 蕈类蕈类(注音:ㄒㄩㄣˋㄌㄟˋ;拼音:xùn lèi),通称蘑菇、菇类,是大型、高等的真菌,子实体通常肉眼可见。菌丝具横隔壁,将菌丝分隔成多细胞。不过,蘑菇一词通常是对蘑菇属(Agaricus)部分食
  • 意大利语意大利语(Italiano),中文也简称为意语,隶属于印欧语系的罗曼语族。现有约7千万人日常用意大利语,大多是意大利居民。另有28个国家使用意大利语,其中4个立它为官方语言。正规意大利
  • HNOsub4/sub过硝酸,又称过氧硝酸,化学式为HNO4(或者HOONO2)是一种不稳定具有爆炸性的晶体,亦有极强的氧化性,强过高氯酸,但还是不能溶解玻璃,N2O5与H2O2反应除形成HNO3外,还形成过硝酸。目前还没
  • 第六次反法同盟在第六次反法同盟(1812年—1814年)中,由匈牙利、普鲁士、俄罗斯、瑞典、大不列颠与爱尔兰联合王国及莱茵联邦的某些邦国组成的同盟,打败了法国,拿破仑被放逐到意大利的厄尔巴岛。
  • 城市热岛效应热岛效应是一个自1960年代开始,在世界各地大城市所发现的一个地区性气候现象。具体来说,无论从早上到日落以后,城市的气温都比周边地区来得高,并容易产生雾气。这个现象的发现,是
  • 穆罕默德·阿里治下穆罕默德·阿里王朝(阿拉伯语:أسرة محمد علي Usrat Muhammad 'Ali)是十九世纪至二十世纪埃及和苏丹的统治王朝,以其创立者穆罕默德·阿里为名,穆罕默德·阿里被视为现
  • 约翰内斯·勃拉姆斯约翰内斯·勃拉姆斯(德语:Johannes Brahms,德语:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code20
  • 德国铁路公司德国铁路股份公司(德语:Deutsche Bahn AG)一般简称为德国铁路(DB),是一家总部设于柏林的德国国有运输公司,于1994年在法兰克福创立,由原德国联邦铁路及德国国营铁路合并而成。公司重
  • 表征学习在机器学习中,特征学习或表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的
  • 藜属藜属(学名:Chenopodium)是一种苋科藜亚科的植物,包含约150种一年生或多年生草本开花植物,几乎在全世界均有生长,而且是现时世上多个山区民族的主粮。较早分类方法归类为藜科,藜科在