线性回归

✍ dations ◷ 2025-11-26 11:37:52 #线性回归

在统计学中，线性回归（英语：linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归（multivariable linear regression）。在线性回归中，数据使用线性预测函数来建模，并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况，线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样，线性回归也把焦点放在给定X值的y的条件概率分布，而不是X和y的联合概率分布（多元分析领域）。线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合，而且产生的估计的统计特性也更容易确定。线性回归有很多实际用途。分为以下两大类：线性回归模型经常用最小二乘逼近来拟合，但他们也可能用别的方法来拟合，比如用最小化“拟合缺陷”在一些其他规范里（比如最小绝对误差回归），或者在桥回归中最小化最小二乘损失函数的惩罚。相反，最小二乘逼近可以用来拟合那些非线性的模型。因此，尽管“最小二乘法”和“线性模型”是紧密相连的，但他们是不能划等号的。给一个随机样本 ( Y i , X i 1 , … , X i p ) , i = 1 , … , n {displaystyle (Y_{i},X_{i1},ldots ,X_{ip}),,i=1,ldots ,n} ，一个线性回归模型假设回归子 Y i {displaystyle Y_{i}} 和回归量 X i 1 , … , X i p {displaystyle X_{i1},ldots ,X_{ip}} 之间的关系是除了X的影响以外，还有其他的变量存在。我们加入一个误差项 ε i {displaystyle varepsilon _{i}} （也是一个随机变量）来捕获除了 X i 1 , … , X i p {displaystyle X_{i1},ldots ,X_{ip}} 之外任何对 Y i {displaystyle Y_{i}} 的影响。所以一个多变量线性回归模型表示为以下的形式：其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示 Y i {displaystyle Y_{i}} 的条件均值在参数 β {displaystyle beta } 里是线性的。例如：模型 Y i = β 1 X i + β 2 X i 2 + ε i {displaystyle Y_{i}=beta _{1}X_{i}+beta _{2}X_{i}^{2}+varepsilon _{i}} 在 β 1 {displaystyle beta _{1}} 和 β 2 {displaystyle beta _{2}} 里是线性的，但在 X i 2 {displaystyle X_{i}^{2}} 里是非线性的，它是 X i {displaystyle X_{i}} 的非线性函数。区分随机变量和这些变量的观测值是很重要的。通常来说，观测值或数据（以小写字母表记）包括了n个值 ( y i , x i 1 , … , x i p ) , i = 1 , … , n {displaystyle (y_{i},x_{i1},ldots ,x_{ip}),,i=1,ldots ,n} .我们有 p + 1 {displaystyle p+1} 个参数 β 0 , … , β p {displaystyle beta _{0},ldots ,beta _{p}} 需要决定，为了估计这些参数，使用矩阵表记是很有用的。其中Y是一个包括了观测值 Y 1 , … , Y n {displaystyle Y_{1},ldots ,Y_{n}} 的列向量， ε {displaystyle varepsilon } 包括了未观测的随机成分 ε 1 , … , ε n {displaystyle varepsilon _{1},ldots ,varepsilon _{n}} 以及回归量的观测值矩阵 X {displaystyle X} ：X通常包括一个常数项。如果X列之间存在线性相关，那么参数向量 β {displaystyle beta } 就不能以最小二乘法估计除非 β {displaystyle beta } 被限制，比如要求它的一些元素之和为0。这些假设意味着残差项不依赖自变量的值，所以 ε i {displaystyle varepsilon _{i}} 和自变量X（预测变量）之间是相互独立的。在这些假设下，建立一个显式线性回归作为条件预期模型的简单线性回归，可以表示为：回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个最佳拟合的不同标准之中，最小二乘法是非常优越的。这种估计可以表示为：对于每一个 i = 1 , … , n {displaystyle i=1,ldots ,n} ，我们用 σ 2 {displaystyle sigma ^{2}} 代表误差项 ε {displaystyle varepsilon } 的方差。一个无偏误的估计是：其中 S := ∑ i = 1 n ε ^ i 2 {displaystyle S:=sum _{i=1}^{n}{hat {varepsilon }}_{i}^{2}} 是误差平方和（残差平方和）。估计值和实际值之间的关系是：其中 χ n − p 2 {displaystyle chi _{n-p}^{2}} 服从卡方分布，自由度是 n − p {displaystyle n-p}对普通方程的解可以冩为：这表示估计项是因变量的线性组合。进一步地说，如果所观察的误差服从正态分布。参数的估计值将服从联合正态分布。在当前的假设之下，估计的参数向量是精确分布的。其中 N ( ⋅ ) {displaystyle N(cdot )} 表示多变量正态分布。参数估计值的标准差是：参数 β j {displaystyle beta _{j}} 的 100 ( 1 − α ) % {displaystyle 100(1-alpha )%} 置信区间可以用以下式子来计算：误差项可以表示为：单变量线性回归，又称简单线性回归（simple linear regression, SLR），是最简单但用途很广的回归模型。其回归式为：为了从一组样本 ( y i , x i ) {displaystyle (y_{i},x_{i})} （其中 i = 1 , 2 , … , n {displaystyle i=1, 2,ldots ,n} ）之中估计最合适（误差最小）的 α {displaystyle alpha } 和 β {displaystyle beta } ，通常采用最小二乘法，其计算目标为最小化残差平方和：使用微分法求极值：将上式分别对 α {displaystyle alpha } 和 β {displaystyle beta } 做一阶偏微分，并令其等于0：此二元一次线性方程组可用克莱姆法则求解，得解 α ^ , β ^ {displaystyle {hat {alpha }}, {hat {beta }}} ：协方差矩阵是：平均响应置信区间为：预报响应置信区间为：在方差分析（ANOVA）中，总平方和分解为两个或更多部分。总平方和SST (sum of squares for total) 是：同等地：回归平方和SSReg (sum of squares for regression。也可写做模型平方和，SSM，sum of squares for model) 是：残差平方和SSE (sum of squares for error) 是：总平方和SST又可写做SSReg和SSE的和：回归系数R2是：广义最小二乘法可以用在当观测误差具有异方差或者自相关的情况下。总体最小二乘法用于当自变量有误时。广义线性模式应用在当误差分布函数不是正态分布时。比如指数分布，伽玛分布，逆高斯分布，泊松分布，二项式分布等。将平均绝对误差最小化，不同于在线性回归中是将均方误差最小化。一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据（如GDP、石油价格和股票价格）是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线，更恰当的方法是利用线性回归计算出趋势线的位置和斜率。有关吸烟对死亡率和发病率影响的早期证据来自采用了回归分析的观察性研究。为了在分析观测数据时减少伪相关，除最感兴趣的变量之外,通常研究人员还会在他们的回归模型里包括一些额外变量。例如，假设我们有一个回归模型，在这个回归模型中吸烟行为是我们最感兴趣的独立变量，其相关变量是经数年观察得到的吸烟者寿命。研究人员可能将社会经济地位当成一个额外的独立变量，已确保任何经观察所得的吸烟对寿命的影响不是由于教育或收入差异引起的。然而，我们不可能把所有可能混淆结果的变量都加入到实证分析中。例如，某种不存在的基因可能会增加人死亡的几率，还会让人的吸烟量增加。因此，比起采用观察数据的回归分析得出的结论，随机对照试验常能产生更令人信服的因果关系证据。当可控实验不可行时，回归分析的衍生，如工具变量回归，可尝试用来估计观测数据的因果关系。资本资产定价模型利用线性回归以及Beta系数的概念分析和计算投资的系统风险。这是从联系投资回报和所有风险性资产回报的模型Beta系数直接得出的。线性回归是经济学的主要实证工具。例如，它是用来预测消费支出，固定投资支出，存货投资，一国出口产品的购买，进口支出，要求持有流动性资产，劳动力需求、劳动力供给。

相关

下肢水肿水肿（edema、/ɪˈdimə/、oedema、dropsy、hydropsy；希腊语 οἴδημα oídēma, "swelling")，又称浮肿，是指人体皮下空腔因体液异常堆积所产生的肿大症状。水肿是指血管外
伞菌纲伞菌纲（学名：Agaricomycetes）为真菌界担子菌门的一纲，除了蕈类，也包含了被分类在较早期旧式的分类腹菌纲和同担子菌亚纲中的多个物种。本分类粗略的将同担子菌亚纲（由Hibbett & Th
象皮病象皮病（又称淋巴丝虫病，拉丁语：elephantiasis, lymphatic filariasis），是由丝虫总科（英语：Filarioidea）的寄生虫引起的疾病。许多罹患此病的病患并无症状，然而有些个案却出现手臂、脚
本雅病毒科沙状病毒科汉他病毒科内罗毕病毒科（英语：Nairoviridae）番茄斑萎病病毒科（英语：Tospoviridae） Phenuiviridae（英语：Phenuiviridae）本雅病毒目（Bunyavirales），又译为布尼亚病毒目，属于有
波斯匿王波斯匿王（梵语：Prasenajit，巴利语：Pasenadi），又译作钵逻犀那恃多王，逻犀那恃多王、啰洗曩喻那王。意译胜军王、胜光王、和悦王、月光王、明光王。古印度憍萨罗国国王，子毘琉璃、祗陀
海关总署1999年规定：印章直径5厘米，中央刊国徽，由国务院制发。中国海关标识王令浚海关副总监邹志武海关副总监李　国海关副总监张际文海关副总监中华人民共和国海关总署中华人民
白髓白髓，亦作白脾髓，是脾脏的一部分，与红脾髓一起构成脾脏的主要部分。白脾髓由马耳皮基氏脾小结及马耳皮基氏小体等腺体组织构成，外貌呈球型，包裹着小动脉。它的主要功能则为对抗外
推理规则在逻辑中，特别是数理逻辑中，推理规则（推论规则）是构造有效推论的方案。这些方案建立在一组叫做前提的公式和叫做结论的断言之间的语法关系。这些语法关系用于推理过程中，新的真的
反复用水或酒精稀释一特定物质在顺势疗法中，顺势疗法稀释（专业人士称之为"dynamisation"或"potentisation"，“激发”）是将物质用酒精或蒸馏水稀释然后剧烈摇动（被称为 "succussion"）的过程。像石英和牡蛎壳这样
溶剂溶剂是一种可以溶解固体，液体或气体溶质的液体，继而成为溶液。在日常生活中最普遍的溶剂是水。而所谓有机溶剂即是包含碳原子的有机化合物溶剂。溶剂通常拥有比较低的沸点和容