概率图模型

✍ dations ◷ 2025-11-13 10:22:47 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 猪只猪科(学名:Suidae)属于哺乳纲偶蹄目,共有约20种现生物种与许多化石物种,包括家猪以及疣猪和鹿豚等多种野猪。所有物种均原产于亚洲、欧洲、非洲等旧大陆地区。已知最早的猪科化石
  • 有机食品有机食品指的是由符合有机农场标准的机构生产的食品。在世界范围内,有机农场标准不一,但一般来说,有机农场致力于对资源的循环再利用,追求生态平衡,以及对生物多样性的保护。在有
  • 吡咯烷吡咯啶,又称四氢吡咯,是五元含氮的饱和杂环化合物。吡咯烷是无色透明有特殊氨气味的液体,见光或潮湿空气易变黄色,有毒。与水、乙醇、乙醚、氯仿混溶。四氢吡咯的衍生物广泛存在
  • 拉丁字母汉字拉丁化是指将汉语改用拉丁字母书写。汉字本身是语素文字,拉丁化将把汉字废除,改造为拉丁字母书写的全音素文字。支持者希望以此在短期内大幅增加中国人民的识字率,亦有利于
  • 阿克曼转向几何阿克曼转向几何(英语:Ackermann steering geometry)是一种为了解决交通工具转弯时,内外转向轮路径指向的圆心不同的几何学,这个想法是由德国车辆工程师“Lankensperger”于1817年
  • 360相关争议对奇虎360的争议是指奇虎360产品在众多事件上存有争议及轶闻事件。2010年2月2日,瑞星公司发布《瑞星揭露黑幕:奇虎360给用户装“后门”》的文章,发现360产品在安装进用户电脑时
  • 短梗尾叶樱桃短梗尾叶樱桃(学名: var. )为蔷薇科樱属下的一个变种。
  • M42接口M42是一种标准螺纹接口的代号,被应用在例如Praktica,福伦达,理光与Pentax(Pentax Spotmatic),Pentax ES,ES II相机系列上;M42继承于老式M39螺纹,并源于那个相机厂商还未尝试相机镜头
  • 俄勒冈振子方程俄勒冈振子方程是描写俄勒冈振子的数学模型。俄勒冈振子指下列化学反应:俄勒冈振子的数学模拟由如下常微分方程组表示:。 f 1 := e
  • 情绪状态量表情绪状态量表(Profile of Mood States)也称为盘斯心情量表,简称POMS,是心理学上评量暂时性情绪的评量表(英语:rating scale)。情绪状态量表会用以下三种量测来量测及识别情绪情形完