分层广义线性模型

✍ dations ◷ 2025-06-29 19:42:13 #回归分析,统计模型

在统计学中,分层广义线性模型(hierarchical generalized linear models (HGLM))可视为广义线性模型的推广。在广义线性模型中,误差分量是统计独立的, 然而这一假设并非总是成立的。即在有些情况下,误差项之间有函数关系。分层广义线性模型允许有不同的误差分量,误差分量可以统计相关的,并不必要满足正态分布。当有不同的聚类存在时,同一聚类中的观测值是相关的,并且是正相关的。在这种情况下,广义线性模型是不适用的,忽略这些关联会引起造成一些问题 。

在分层模型中,观测值可进行聚类,并且观测值的分布不仅由所有聚类的共同结构决定,也由聚类的具体结构决定。于是,模型要引入随机效应分量,并且不同的聚类有不同的随机效应分量。设 y {\displaystyle y} 为响应变量, u {\displaystyle u} 为随机效应, g {\displaystyle g} 为连结函数。在分层广义线性模型中,需要假设 y | u {\displaystyle y|u} u {\displaystyle u} 满足: y u   f ( θ , ϕ ) {\displaystyle y\mid u\sim \ f(\theta ,\,\phi )} and u   f u ( α ) . {\displaystyle u\sim \ f_{u}(\alpha ).}

线性预测器形式为:

其中, μ = E ( y ) {\displaystyle \mu =E(y)} η = X β + v {\displaystyle \eta =X\beta +v} v = v ( u ) {\displaystyle v=v(u)} u {\displaystyle u} 的严格单调函数。在分层广义线性模型中,固定效应为 β {\displaystyle \beta } ,对所有观测值都相同。随机分量 u {\displaystyle u} 是不可观测的,不同聚类对应的随机分量取值是随机的。于是,同一聚类的观测值对应的 u {\displaystyle u} 的取值相同,不同聚类的观测值对应的 u {\displaystyle u} 的取值也不同。

为了进行参数推断,有必要保证满足可识别性(英语:Identifiability) 。在以上模型中,v是不可识别的,因为

其中 a {\displaystyle a} 为常数。 要使模型可识别,需要对参数另加约束。约束常加在随机效应上,比如 E ( v ) = 0 {\displaystyle E(v)=0}

假设不同的分布函数 y u {\displaystyle y\mid u} u {\displaystyle u} ,采用不同的链接函数 g {\displaystyle g} 和 ' v {\displaystyle v} ,可以得到不同的模型。另外,广义线性混合模型(英语:generalized linear mixed model)是分层广义线性模型的一个特例。在分层广义线性模型中, 随机效应的分布函数 u {\displaystyle u} 不必要满足正态分布。如果 u {\displaystyle u} 的分布为正态分布, v {\displaystyle v} 的链接函数为恒等函数,此时的分层广义线性模型即为广义线性混合模型。

y u {\displaystyle y\mid u} u {\displaystyle u} 的分布可取为共轭分布,此时分层广义线性模型有一些特殊的性质,并且易于计算和理解。比如,如果 y u {\displaystyle y\mid u} 的分布为平均值一定的泊松分布, u {\displaystyle u} 的分布为伽玛分布,并取标准对数连接函数,则此时分层广义线性模型为泊松共轭分层广义线性模型。如果 y u {\displaystyle y\mid u} 的分布为平均值一定的二项分布, u {\displaystyle u} 的分布为共轭贝塔分布,采用标准罗吉特连接函数,则此时分层广义线性模型为贝塔共轭模型。另外,广义线性混合模型其实就是正态共轭分层广义线性模型。

常见的模型总结如下:

分层广义线性模型适用条件是观测值可归为不同的聚类。估计函数有两类:固定效应估计函数和随机效应估计函数,分别相应于 η = x β {\displaystyle \eta =\mathbf {x} {\boldsymbol {\beta }}} v ( u ) {\displaystyle \mathbf {v(u)} } 中的参数。有多种方法进行分层广义线性模型中的参数估计。如果只对固定效应估计函数感兴趣,可以采用总体平均模型。如果要推断个体,就需要估计随机效应。 拟合分层广义线性模型有多种技术。

分层广义线性模型在实际生活中有诸多应用。

这一模型可用于分析半导体制造中相互关联的过程形成的负载的层级过程。工程师可以应用此模型发现和分析重要的次过程,同时评估这些次过程对最终性能的影响 。


市场问题也可以用分层广义线性模型来分析。研究者应用此模型研究了一国范围内的消费者,以解决国际市场研究中的嵌套数据结构问题。

相关

  • 黄荣辉黄荣辉(1942年8月17日-),气象学家,福建省泉州市泉港区前黄镇前黄村人。中国科学院大气物理研究所副所长、研究员、世界气候研究计划(WCRP)中国委员会秘书长。1959年,黄荣辉考入北京
  • 让·佩蓝让·巴蒂斯特·佩兰(法语:Jean Baptiste Perrin,1870年9月30日-1942年4月17日),法国物理学家,生于法国里尔。1926年诺贝尔物理学奖获得者。让·巴蒂斯特·佩兰出生于法国 里尔,读过
  • 伍伦加龙伍伦加龙(学名:Woolungasaurus)是种已灭绝海生爬行动物,属于蛇颈龙亚目薄板龙科。属名意为“Woolunga的蜥蜴”,Woolunga是澳洲原住民神话中的一种爬行动物。格伦道尔伍伦加龙的模
  • 奥斯卡奥斯卡是一个西欧男性名字。最常见的英文拼法为Oscar。奥斯卡在盖尔语支里意思是“爱鹿者”,也是爱尔兰神话的一位人物。在古英语里意思是“神的矛”。在北约音标字母里代表
  • 东努沙登加拉东努沙登加拉省(印尼语:Nusa Tenggara Timur)是印度尼西亚的一个省,位于努沙登加拉群岛(小巽他群岛)东部。面积47,876平方公里。首府古邦位于帝汶岛西部(东部的东帝汶为一独立国家),
  • 哥伦比亚大学诺贝尔奖得主列表诺贝尔奖由瑞典皇家科学院、瑞典学院、卡罗琳学院和挪威诺贝尔委员会每年颁发一次,分别授予在化学、物理学、文学、和平、生理学或医学和经济学领域作出杰出贡献的人士。每个
  • 月海列表月海列表详列所有在月球的大而幽暗的玄武岩平原,包括月海(mare)、月洋(oceanus)、月湖(lacus)、月沼(palus)及月湾(sinus),各种称谓在地质上并无分别。现代月球命名体系是1651年由乔万尼
  • 熊毛郡 (山口县)熊毛郡(日语:熊毛郡/くまげぐん  */?)是山口县东部的郡。现管辖有以下3町:过去的范围还包括现在的光市全部地区、周南市的东侧地区以及柳井市的南侧地区。
  • 阿来·阿依达尔汗阿来·阿依达尔汗(1990年1月7日-),哈萨克族,中国歌手。2013年参加东方卫视《中国梦之声》获得全国第五名而出道至今,2014年10月推出了首张个人专辑《回忆》。
  • 尼古拉·斯托吉克维奇尼古拉·斯托吉克维奇(塞尔维亚语:Никола Стојиљковић;1992年8月17日-)是一位塞尔维亚足球运动员,在场上的位置是前锋。他现在效力于塞尔维亚足球超级联赛球队库