概率图模型

✍ dations ◷ 2025-09-11 10:28:14 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 第三人称人称是与语言中的行为动作相关的话语角色。“妈妈喂宝宝吃饭”和“我喂你吃饭”,意思可能相同,但前者是用有词汇意义的名词来表示与“喂”相关的人的具体身份,后者才是用功能性
  • 量子化学量子化学是应用量子力学的规律和方法来研究化学问题的一门学科。将量子理论应用于原子体系还是分子体系是区分量子物理学与量子化学的标准之一。目前认为最早的量子化学计算
  • 2019冠状病毒病检测SARS-CoV-2(病毒)国际运输2019冠状病毒病检测(英语:COVID-19 testing)是通过核酸或抗体等分子检测(英语:Molecular diagnostics)手段及胸腔CT断层成像等临床辅助手段,对人体是否感染2
  • 蒙古语文字蒙古文字是蒙古人用来记录蒙古语的文字。从蒙古人开始纪录自己的语言以来,在不同时期和不同地区使用过多种文字体系。室韦之蒙古部发迹于斡难河之时本来没有文字。1204年,成吉
  • 第四台 (英国)第四台(英语:Channel 4)是英国第四间电视台,1982年11月2日开始广播。第四台虽然是公共广播,但是和民营电视台一样播出商业广告。英国第四台的设立是BBC和独立电视台争夺英国第四
  • 高山市高山市(日语:高山市/たかやまし  */?)是日本岐阜县北部(飞驒地方)的一个市。现在的高山市,是2005年2月1日时旧高山市合并了周边的9个町村而成的。合并之后,该市成为日本面积最大的
  • 约翰·哈夫斯泰因约翰·哈夫斯泰因(冰岛语:Jóhann Hafstein;1915年9月19日-1980年5月15日),是冰岛总理(1970年-1971年)。1946年当选为阿尔庭雷克雅未克议员,连任到1978年。1959-1961年和1962-1963年两次
  • 狎鸥亭白夜《狎鸥亭白夜》(韩语:압구정 백야,英语:Apgujeong Midnight Sun)为韩国MBC自2014年10月6日起播出的日日特别企划剧。讲述白叶(朴荷娜饰)为了报复抛弃她和哥哥(沈亨倬 饰)的生母(
  • 伸展台伸展台(英语:runway)也称“T型台”或“天桥”,是一个时尚界词汇,指时装展览场地上呈拉丁字母“T”型向前延展至观众席中的平台,模特在上面行走来展示时装设计作品。
  • 陈辉燎陈辉燎(越南语:Trần Huy Liệu;1901年11月5日-1969年7月28日),越南革命运动活动家、历史学家、作家。越南劳动党党员。陈辉燎出生于南定省,曾在河内国家大学学习。1924年起,任《东