概率图模型

✍ dations ◷ 2025-03-04 17:18:59 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 儿汤郡儿汤郡(日语:児湯郡/こゆぐん Koyu gun */?)是日本宫崎县辖下的一个郡。现辖有以下5町1村:过去的辖区曾包括现在的西都市全境和日向市的部分地区。
  • Netscape网景通信(英语:Netscape Communications ),以前称为网景通信公司(Netscape Communications Corporation),大部分通常被简称为网景(Netscape)。网景曾经是一家美国的电脑服务公司,以其
  • 氰酸盐氰酸盐是氰酸根离子OCN−的盐,负电荷主要在氮原子上。例如氰酸钾KOCN。氰酸酯是含有OCN官能团的有机化合物。氰酸根离子具有以下两个共振式:因此共振杂化体可以下式表示:氰酸根
  • 埃芬汉县埃芬汉县(Effingham County, Georgia)是美国乔治亚州东部的一个县,东邻南卡罗莱纳州。面积1,250平方公里。根据美国2000年人口普查,共有人口37,535人。县治春田市 (Springfield)
  • 见内文虱毛目(学名:Phthiraptera)是原虱目和食毛目的合称,通称虱或虱子(英语:louse)。全世界约有3,000种。虱寄生于人体、其他哺乳动物(除了单孔目和蝙蝠外)和鸟类的身上。以人类为宿
  • 业处上座部佛教业处(巴利语:kamma-ṭ-ṭhāna;梵语:karma-s-thāna),佛教术语,本指工作处、职业;“业”(kamma)指:造作、行为、工作,“处”(ṭhāna)指:位置,环境,因素,站立在,停留,“业处”即造作、
  • 浙江承宣布政使司浙江等处承宣布政使司,简称浙江布政司,是明朝在太湖平原南部、钱塘江流域、曹娥江流域、甬江流域、椒江流域、瓯江流域等地的一级行政区名,下辖11府1散州75县。布政使司衙门驻
  • 切迪·贾根切迪·贝雷特·贾根(英语:Cheddi Berret Jagan;1918年3月22日-1997年3月6日),是圭亚那左翼政治家、圭亚那独立运动领导人,印度移民后裔,马克思主义者。在圭亚那独立之前,他于1950年创
  • 窦维廉窦维廉(英语:William H. Adolph,1890年9月1日-1958年9月23日),美国营养化学家,美北长老会教士,1915年至1950年间在中国任教长达30余年。1890年出生于费城,父亲为德国移民。1912年获宾
  • 旧孟买旧孟买(Old Bombay)是指印度孟买由孟买七岛合并形成的区域,这个称呼从19世纪一直使用到1980年代,此后不再使用这个称呼,普遍改用'town'这个称呼。 孟买七岛合并后,形成的区域就成