首页 >
偏最小二乘回归
✍ dations ◷ 2025-07-16 05:22:36 #偏最小二乘回归
偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差的超平面,而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型。当Y是分类数据时有“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”,是PLS的一个变形。偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是吉洪诺夫正则化)。偏最小二乘算法被用在偏最小二乘路径建模中, 一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。偏最小二乘的一般多元底层模型是其中
X
{displaystyle X}
是一个
n
×
m
{displaystyle ntimes m}
的预测矩阵,
Y
{displaystyle Y}
是一个
n
×
p
{displaystyle ntimes p}
的响应矩阵;
T
{displaystyle T}
和
U
{displaystyle U}
是
n
×
l
{displaystyle ntimes l}
的矩阵,分别为
X
{displaystyle X}
的投影(“X分数”、“组件”或“因子”矩阵)和
Y
{displaystyle Y}
的投影(“Y分数”);
P
{displaystyle P}
和
Q
{displaystyle Q}
分别是
m
×
l
{displaystyle mtimes l}
和
p
×
l
{displaystyle ptimes l}
的正交载荷矩阵,以及矩阵
E
{displaystyle E}
和
F
{displaystyle F}
是错误项,假设是独立同分布的随机正态变量。对
X
{displaystyle X}
和
Y
{displaystyle Y}
分解来最大化
T
{displaystyle T}
和
U
{displaystyle U}
之间的协方差。偏最小二乘的许多变量是为了估计因子和载荷矩阵
T
,
U
,
P
{displaystyle T,U,P}
和
Q
{displaystyle Q}
。它们中大多数构造了
X
{displaystyle X}
和
Y
{displaystyle Y}
之间线性回归的估计
Y
=
X
B
~
+
B
~
0
{displaystyle Y=X{tilde {B}}+{tilde {B}}_{0}}
。一些偏最小二乘算法只适合
Y
{displaystyle Y}
是一个列向量的情况,而其它的算法则处理了
Y
{displaystyle Y}
是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵
T
{displaystyle T}
为一个正交矩阵而不同。
最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。PLS1是一个
Y
{displaystyle Y}
是向量时广泛使用的算法。它估计
T
{displaystyle T}
是一个正交矩阵。以下是伪代码(大写字母是矩阵,带上标的小写字母是向量,带下标的小写字母和单独的小写字母都是标量):这种形式的算法不需要输入
X
{displaystyle X}
和
Y
{displaystyle Y}
定中心,因为算法隐式处理了。这个算法的特点是收缩于
X
{displaystyle X}
(减去
t
k
t
(
k
)
p
(
k
)
T
{displaystyle t_{k}t^{(k)}{p^{(k)}}^{T}}
),但向量
y
{displaystyle y}
不收缩,因为没有必要(可以证明收缩
y
{displaystyle y}
和不收缩的结果是一样的)。用户提供的变量
l
{displaystyle l}
是回归中隐藏因子数量的限制;如果它等于矩阵
X
{displaystyle X}
的秩,算法将产生
B
{displaystyle B}
和
B
0
{displaystyle B_{0}}
的最小二乘回归估计。2002年,一个叫做正交投影(英语:Orthogonal Projections to Latent Structures, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是生产力。 L-PLS通过3个连接数据块扩展了偏最小二乘回归。 同样,OPLS-DA(英语:Discriminant Analysis, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。大多数统计软件包都提供偏最小二乘回归。
R中的‘pls’包提供了一系列算法。
相关
- 心血管疾病心血管疾病(英语:cardiovascular disease,簡稱CVD)指的是关于心脏或血管的疾病,又称为循环系统疾病、循环系统疾病。常见的心血管疾病包括冠状动脉症候群、中风、高血压性心脏病(
- 英国大学英国的大学是根据1988年教育改革法令在英国创建的大学,通常拥有皇家特许状、教宗诏书、议会法案。通常情况下,大学的设立在英国枢密院备案,只有这样的机构才能颁发学位。申请英
- 祖语祖语(英语:proto-language)又称原始语、基础语或母语,历史语言学的重要概念,指同一系属中若干相关语言的共同祖先——一种古代语言,或者是处于语言起源的某一阶段的尚不能称作“语
- 十二羟基环己烷十二羟基环己烷是一种有机化合物,分子式为C6(OH)12。它是一种以环己烷为骨架,外加六重偕二元醇的分子,它更可被视为环己六酮的六重水合物。
- 猫空猫空(台语:猫空,Bâ-khang)位于台湾台北市文山区,属于二格山系,昔日为台北市最大产茶区之一,茶区上古道纵横,乃为运送茶叶所建,目前为茶艺及夜景胜地。“猫空”这个名称的由来,最常见
- 尸子《尸子》,东周战国尸佼撰,原书有二十卷,目录一卷。尸佼是秦相卫鞅上客,卫鞅死,尸佼恐并诛,逃至蜀国,后来尸佼对法家思想进行反思,并取各家之长,著成《尸子》一书,思想兼宗儒、墨、名、
- 耐火砖耐火砖,又称火砖,是由耐热陶瓷材料制作的砖,形状跟普通建筑用砖类似,因此常用于建筑窑炉和各种热工设备。耐火砖一方面在高温下不会有化学变化,一般也是热传导较差的材料。通常致
- 紫茉莉粉豆花(学名:Mirabilis jalapa)别名草茉莉、夜娇娇、紫茉莉、夜晚花、胭脂花、洗澡花、煮饭花、地雷花、白粉花、潮来花等,属紫茉莉科植物。紫茉莉,虽然名字中含有“茉莉”,但不是
- 闽南语语法闽南语语法描述闽南语的如何建立句子、词组以及单词等结构的规则。如同其他汉语语言,闽南语是分析语,名词没有格位、性别和数量的区别,但需使用量词,动词不分人称和数量,但会用助
- 科尔逊-契尔卡塞攻势科尔逊-契尔卡塞战役(Battle of the Korsun-Cherkassy)是德国与苏联于1944年1月24日至2月16日发生的一系列战斗,作战序列单位分别是德国南方集团军及苏联乌克兰第1方面军及乌克