概率图模型

✍ dations ◷ 2025-11-27 10:54:43 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 毒素本文所指的毒素(英语:Toxin),是指生物体所生产出来的毒物(poison),这个术语最早是由有机化学家路德维希(Ludwig Brieger)所提出。这些物质通常是一些会干扰生物体中其他大分子作用的
  • 塞法迪犹太人塞法迪犹太人(西班牙语:Sefardí,希伯来语:סְפָרַדִּי,提比里安注音法:Səp̄āraddî),指在十五世纪被驱逐前那些祖籍伊比利半岛,遵守西班牙裔犹太人生活习惯的犹太人,是犹
  • 瓦利斯和富图纳瓦利斯和富图纳 (法语:Wallis et Futuna),位于斐济和萨摩亚群岛之间。由瓦利斯岛、富图纳岛、阿洛菲岛以及周围小岛组成,面积264平方千米。属热带海洋性气候。人口1.5万。首府马
  • 反棱柱反棱柱(Antiprism)是由两个相同边数多边形平行基底和侧面的三角形所组成的一个多面体。反棱柱的对偶多面体是偏方面体(Trapezohedron)。在一个边长为a、高为h的n角反棱柱里: 顶点
  • 下加利福尼亚半岛下加利福尼亚半岛(西班牙语:Península de Baja California)位于墨西哥西部,从北端的蒂华纳到南端的圣卢卡角,全长1250公里,把太平洋与加利福尼亚湾分隔开来,政治上分为下加利福尼
  • 代莱尼乡 (雅西县)坐标:47°28′N 26°53′E / 47.467°N 26.883°E / 47.467; 26.883代莱尼乡(罗马尼亚语:Comuna Deleni, Iași),是罗马尼亚的乡份,位于该国东北部,由雅西县负责管辖,面积151平方公
  • 程孝刚程孝刚(1892年8月16日-1977年8月1日),字叔时,江西宜黄人,机械工程专家,原交通大学校长。程孝刚于1909年进入江西省高等学堂学习,1913年作为省公费留美生前往美国普渡大学留学,攻读机
  • 二苯基-4-哌啶甲醇二苯基-4-哌啶甲醇,又称为阿扎环醇(英语:Azacyclonol)、阿扎环醇或氮杂环醇(英语:Ataractan、Calmeran、Frenoton、Frenquel、Psychosan),也有人称它为伽玛哌苯甲醇(英语:γ-pipradol),
  • 上海电影译制厂作品列表 (1990年代)上海电影译制厂1990年-1999年译制作品列表
  • 邻近效应邻近效应是指当两条(或两条以上)的导电体彼此距离较近时,由于一条导线中电流产生的磁场导致临近的其他导体上的电流不是均匀地流过导体截面,而是偏向一边的现象。