广义线性模型

✍ dations ◷ 2024-09-20 14:48:31 #统计学,回归分析

在统计学上,广义线性模型 (Generalized linear model、简称GLM) 是一种应用灵活的线性回归模型。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。此模型假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数()建立起可资解释其相关性的函数。

John Nelder与Peter McCullagh在1989年出版,被视为广义线性模式的代表性文献中提纲挈领地说明了广义线性模式的原理、计算(如最大概似估计量)及其实务应用。

广义线性模型是简单最小二乘回归(OLS)的扩展,在广义线性模式中,假设每个资料的观测值 Y {\displaystyle \mathbf {Y} } 与的概率密度函数, (在论离散型随机变量时,则为概率质量函数)可表为:

称之为,通常用以解释方差。函数、、、 及为已知。许多(不包含全部)型态的随机变量可归类为指数族

与该随机变量的期望值有关。若为恒等函数,则称该分布属于 正则型式。 另外,若为恒等而已知,则称为,其与期望值的关系可表为:

一般情形下,该分布的方差可表为:

线性预测子是用将独立变量经由线性组合来寻模式所能提供之资讯的计量变量。符号 (希腊字母 "Η")通常用来表示线性预测子。它与资料的期望值的链接函数值有关(故称"预测子")。

表为未知参数的线性组合(故为"线性")。X则为独立变量所组合而成的观测矩阵。如此一来,可表示为

X的元素通常为模式设计时可观测的资料或为实验时所得的数据。

链接函数解释了线性预测子与分布期望值的关系。链接函数的选择可视情形而定。通常只要符合链接函数的值域有包含分布期望值的条件即可。

当使用具正则参数的分布时,链接函数需符合XTY 为的充份统计量此一条件。这在与线性预测子的链接函数值相等时方成立。下面列出若干指数族分布的典则链接函数及其反函数(有时称为均值函数):

在指数分布与Gamma分布中,其典则链接函数的值域并不包含分布均值,另外其线性预测子亦可能出现负值,此两种分布绝无均值为负的可能。当进行极大似然估计进行计算时需避免上述情形出现,这时便需要使用到非典则链接函数。

有些人可能会把一般线性模式和广义线性模式给弄混了。一般线性模式可视为广义线性模式的一个链接函数为恒等的特例。一般线性模式有着悠长的发展历史。广义线性模式具非恒等链接函数者有着渐近一致的结果。

广义线性模式最简单的例子便是线性回归。此例中分布函数为正态分布而链接函数为恒等函数在方差已知的条件下并符合正规式。 这个例子具有广义线性模式罕有的最大概似估计量的解析解

在讨论二元反应结果(如跟)时,通常以二项式分布建模。其期望值'μYp

二项式分布有许多常用的链接函数,最常用的链接函数是logit:

以此建模的广义线性模式通常称为logistic回归模式。

另外,任何连续型概率分配累积函数(CDF)的反函数皆可使用此模式,因为其值域为,包含了二项式分布期望值的可能值域。正态概率分配累积函数 Φ {\displaystyle \Phi } 接近0.5的情形。 此种建模很接近logit及probit的线性转换,有时计量经济学家会称其为Harvard模式。

二元资料的广义线性模式变异函数可写为

其中变异参数 τ {\displaystyle \tau } 通常等于1,若非,则该模式称为溢变异或殆二元。

另一个常用的例子为用于计次的卜瓦松分布。此例的链接函数为自然对数,为正规链接。方差函数与均值成等比

其中变异参数 τ {\displaystyle \tau } 通常为1。 若非,此模式通常称为溢变异或似卜瓦松。

相关

  • 编码区基因的编码区(英语:Coding region),亦称为“编码序列”(Coding sequence)或“CDS”(Coding DNA Sequence),是指DNA或RNA中由外显子组成,编码蛋白质的部分。该区域的边界范围从靠近5′
  • 二异丁基氢化铝二异丁基氢化铝(DIBAL、DIBAL-H、DIBAH)是有机合成中常用的有机金属还原剂之一,化学式(i-Bu2AlH)2,室温下为无色液体。由烯烃聚合反应的共催化性质而被研究,一般以它溶于有机溶剂
  • span class=nowrapTeClsub4/sub/span四氯化碲是一种无机化合物,化学简式为TeCl4。它具有挥发性,在200 °C(0.1 mm Hg)升华。熔融的TeCl4是离子化合物,可以解离为TeCl3+和Te2Cl102−。TeCl4在气相为单体,和SF4的结构
  • 成瘾药物成瘾(英语:addiction)是指一种重复性的强迫行为,即使这些行为已知可能造成不良后果的情形下,仍然被持续重复。这种行为可能因中枢神经系统功能失调造成,重复这些行为也可以反过来
  • 刘大櫆刘大櫆(1698年-1779年),字才甫,号海峰,清代安徽省桐城县(出生地在今枞阳县境)人,清代文学家,为“桐城派”代表。应乡试,两中副榜,未中举人。后应博学宏词试,为张廷玉所黜,以教书为业,直到老
  • 欧加农国际欧加农(大陆译作“欧加农”、台湾译作“欧嘉隆”)是一家以荷兰奥斯及美国新泽西州Roseland作共同基地的药厂,亦是总部设于荷兰阿纳姆的阿克苏诺贝尔集团旗下的健康产品组成机构
  • 安布鲁瓦兹·巴累安布鲁瓦兹·帕雷(法语:Ambroise Paré),(1510年-1590年),文艺复兴时期欧洲法国外科医生之一。曾服务于亨利二世、弗兰西斯二世等君主。曾作为军医随军参加战争,后又专攻普通外科。撰
  • 鞍之战鞌之战又名鞍之战,是中国历史上春秋时期齐国和晋国之间发生于前589年六月十七的一场战斗。作战的地点是鞌(今济南西北)。前589年,齐顷公率齐军讨伐鲁国及卫国,鲁国及卫国派使者至
  • 登连片登连片,是汉语官话方言胶辽官话的一片区,主要分布于辽东半岛、山东半岛、长山群岛、庙岛群岛,此外在黑龙江虎林还有方言岛。内分大岫小片、烟威小片和蓬龙小片三小片区。大连市
  • 阿尔巴尼亚劳动党第一书记阿尔巴尼亚劳动党中央委员会第一书记是阿尔巴尼亚劳动党的最高负责人,由于阿尔巴尼亚社会主义人民共和国是一个一党制的社会主义国家,第一书记是实际上的党和国家最高领导人职