首页 >
偏最小二乘回归
✍ dations ◷ 2025-04-04 11:16:07 #偏最小二乘回归
偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差的超平面,而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型。当Y是分类数据时有“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”,是PLS的一个变形。偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是吉洪诺夫正则化)。偏最小二乘算法被用在偏最小二乘路径建模中, 一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。偏最小二乘的一般多元底层模型是其中
X
{displaystyle X}
是一个
n
×
m
{displaystyle ntimes m}
的预测矩阵,
Y
{displaystyle Y}
是一个
n
×
p
{displaystyle ntimes p}
的响应矩阵;
T
{displaystyle T}
和
U
{displaystyle U}
是
n
×
l
{displaystyle ntimes l}
的矩阵,分别为
X
{displaystyle X}
的投影(“X分数”、“组件”或“因子”矩阵)和
Y
{displaystyle Y}
的投影(“Y分数”);
P
{displaystyle P}
和
Q
{displaystyle Q}
分别是
m
×
l
{displaystyle mtimes l}
和
p
×
l
{displaystyle ptimes l}
的正交载荷矩阵,以及矩阵
E
{displaystyle E}
和
F
{displaystyle F}
是错误项,假设是独立同分布的随机正态变量。对
X
{displaystyle X}
和
Y
{displaystyle Y}
分解来最大化
T
{displaystyle T}
和
U
{displaystyle U}
之间的协方差。偏最小二乘的许多变量是为了估计因子和载荷矩阵
T
,
U
,
P
{displaystyle T,U,P}
和
Q
{displaystyle Q}
。它们中大多数构造了
X
{displaystyle X}
和
Y
{displaystyle Y}
之间线性回归的估计
Y
=
X
B
~
+
B
~
0
{displaystyle Y=X{tilde {B}}+{tilde {B}}_{0}}
。一些偏最小二乘算法只适合
Y
{displaystyle Y}
是一个列向量的情况,而其它的算法则处理了
Y
{displaystyle Y}
是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵
T
{displaystyle T}
为一个正交矩阵而不同。
最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。PLS1是一个
Y
{displaystyle Y}
是向量时广泛使用的算法。它估计
T
{displaystyle T}
是一个正交矩阵。以下是伪代码(大写字母是矩阵,带上标的小写字母是向量,带下标的小写字母和单独的小写字母都是标量):这种形式的算法不需要输入
X
{displaystyle X}
和
Y
{displaystyle Y}
定中心,因为算法隐式处理了。这个算法的特点是收缩于
X
{displaystyle X}
(减去
t
k
t
(
k
)
p
(
k
)
T
{displaystyle t_{k}t^{(k)}{p^{(k)}}^{T}}
),但向量
y
{displaystyle y}
不收缩,因为没有必要(可以证明收缩
y
{displaystyle y}
和不收缩的结果是一样的)。用户提供的变量
l
{displaystyle l}
是回归中隐藏因子数量的限制;如果它等于矩阵
X
{displaystyle X}
的秩,算法将产生
B
{displaystyle B}
和
B
0
{displaystyle B_{0}}
的最小二乘回归估计。2002年,一个叫做正交投影(英语:Orthogonal Projections to Latent Structures, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是生产力。 L-PLS通过3个连接数据块扩展了偏最小二乘回归。 同样,OPLS-DA(英语:Discriminant Analysis, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。大多数统计软件包都提供偏最小二乘回归。
R中的‘pls’包提供了一系列算法。
相关
- 人类繁殖人类繁殖 是任何导致人体受精的有性生殖,通常带有一男一女的性交。 在性交过程中,男性生殖系统以及女性生殖系统的动作导致出女性的卵子和男性的精子的受精作用。 这些专门用
- 马西莫·达莱马马西莫·达莱马(Massimo D'Alema,1949年4月20日- ),意大利政治家,曾任总理。达莱马是首位具意大利共产党背景的意大利总理。达莱马出生在罗马。其父亲朱塞佩·莫德斯蒂是意大利共
- 贾汉吉尔贾汉吉尔 (英语 : Jahangir)(1569年8月31日-1627年10月28日),是统治印度次大陆的莫卧儿帝国的第四任皇帝,生于1569年,死于1627年。他被认为是莫卧儿帝国最伟大的皇帝之一。他在其
- 司马炎晋武帝司马炎(236年-290年5月16日),字安世,河内郡温县(今河南省焦作市温县)人,曹魏权臣司马昭长子,晋朝开国皇帝,谥号武皇帝,在位二十五年。魏咸熙二年(266年2月8日)十二月丙寅,晋王、相国
- NK细胞自然杀伤细胞(英语:natural killer cell)是一种细胞质中具有大颗粒的细胞,简称NK细胞(NK cell),也称作大颗粒淋巴细胞(LGL, Large Granular Lymphocytes)。由骨髓淋巴样干细胞发育而
- 50味觉感受器,类型2,成员50,TAS2R50 是一个人类基因组中TAS2R50基因编码的蛋白质,是苦味味觉感受器的一员。
- 泌尿道阻塞尿潴留(英语:renal retention或 urinary retention),又称尿滞留、尿液滞留,是膀胱内的尿液无法排出的状况,最常见的原因是良性前列腺增生症。正常成年男性的膀胱涨满时,容积约为500
- 拉林拉林(西班牙语:Lalín),是西班牙加利西亚自治区蓬特韦德拉省的一个市镇。 总面积327平方公里,总人口19.869人(2001年),人口密度61人/平方公里。
- 拉面日本拉面(日语: 拉麺, ラーメン Rāmen ?)是日式中华料理所使用的面条与面食种类之一,多以切制而非拉制而成。在日本其他常见名称包括“中華そば”。日本最早关于中国面条的
- 亚历山大·多尔戈波洛夫亚力山大·多尔戈波洛夫(Alexandr Dolgopolov,1988年11月7日-),是一位乌克兰职业网球运动员。于2006年转为职业选手。多尔戈波洛夫,3岁开始打网球,他的父亲为他的教练,也曾是乌克兰