概率图模型

✍ dations ◷ 2025-11-04 02:53:56 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 诊断方法诊断,在医学意义上指对人体生理或精神疾病及其病理原因所作的判断。作出这种判断一般需要的的资料有:医生等专业人员根据症状、病史(包括家庭病史)、病历及医疗检查结果等。其概
  • 酸(有时用“HA”表示)的传统定义是当溶解在水中时,溶液中氢离子的浓度大于纯水中氢离子浓度的化合物。换句话说,酸性溶液的pH值小于水的pH值(25℃时为水的pH值是7)。酸一般呈酸味,
  • 和歌山县立医科大学和歌山县立医科大学(日语:わかやまけんりついかだいがく)是日本的公立大学。1945年创校。1948年设立大学部。大学略称为和医大。
  • 西斯普林菲尔德坐标:42°06′25″N 72°37′15″W / 42.10694°N 72.62083°W / 42.10694; -72.62083西斯普林菲尔德(英语:West Springfield),绰号“West Side”,是美国马萨诸塞州汉登县的一个城
  • 反共产国际协定反共产国际协定 (又称防共协定,德语:Antikominternpakt,日语:防共協定)是纳粹德国与大日本帝国在1936年11月25日签订的反对共产国际及苏联的协定。此协定后来陆续有其他国家加入。
  • 烟台烟台轨道交通是中国山东省烟台市的城市轨道交通系统,连接市内各区及蓬莱市,目前仍处于规划阶段。根据规划,烟台轨道交通将由四条线路组成,总规模约200公里。首期将建设1号线(约5
  • 临床心理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 圆锥猪笼草圆锥猪笼草(学名:)可能是新几内亚多尔曼·托普山(Mount Doorman Top)特有的热带食虫植物。其种加词“”来源于拉丁文“”,意为“圆锥花序”。其存在于山脊顶部海拔约1460米的苔藓
  • 白铁矿白铁矿与黄铁矿(FeS2)同是同质多象变体,晶体常呈板状,集合体为矛头状或鸡冠状。产于热液脉状矿床和沉积岩中,有时用于制造硫酸。
  • 迟滞现象迟滞现象(Hysteresis),或称滞回现象、滞后现象,指一系统的状态(主要多为物理系统),不仅与当下系统的输入有关,更会因其过去输入过程之路径不同,而有不同的结果,即系统的状态取决于它本