概率图模型

✍ dations ◷ 2025-08-22 04:55:35 #统计学,概率图模型,机器学习,图论

在概率论、统计学及机器学习中,概率图模型(Graphical Model)是用图论方法以表现数个独立随机变量之关联的一种建模法。一个 p {\displaystyle p} 个节点的图中,节点 i {\displaystyle i} 对应一个随机变量,记为 X i {\displaystyle X_{i}} 。概率图模型被广泛地应用于贝叶斯统计与机器学习中。

在一个无向概率图模型(Undirected Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间没有边相连,当且仅当它们对应的随机变量 X i {\displaystyle X_{i}} X j {\displaystyle X_{j}} 给定其它所有节点上的随机变量条件下条件独立。数学表述为:

Θ i j = 0 X i X j | { X , = 1 , , p , i , j } {\displaystyle \Theta _{ij}=0\Leftrightarrow X_{i}\perp X_{j}|\{X_{\ell },\ell =1,\ldots ,p,\ell \neq i,\ell \neq j\}}

当所有的随机变量 X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} 的联合分布是多元正态分布时, Θ {\displaystyle \Theta } 被理解为是多元正态分布的方差矩阵的逆 Θ = Σ 1 {\displaystyle \Theta =\Sigma ^{-1}} ,又称为精度矩阵(Precision Matrix)。现代统计学中,相当大比例的关于无向图模型的理论结果都是在多元正态分布的假设下取得的。

在一个有向概率图模型(Directed Graphical Model)中,两个节点 i {\displaystyle i} j {\displaystyle j} 之间的边际独立性和条件独立性比较复杂,一般需要用贝叶斯球规则(Bayes Ball)来确定。

一类很重要的有向概率图模型叫做有向无环概率图模型(Directed Acyclic Graphs, 简称DAG),可以证明,相互关系能用DAG表示的p个随机变量,其联合分布函数可以被分解为根节点的边际分布函数乘以由边决定的那些条件概率。数学表述为:

π ( X 1 , , X p ) = i I π ( X i ) × j J π ( X j | X Parent ( j ) ) {\displaystyle \pi (X_{1},\ldots ,X_{p})=\prod _{i\in {\cal {I}}}\pi (X_{i})\times \prod _{j\in {\cal {J}}}\pi (X_{j}|X_{{\textrm {Parent}}(j)})}

上式中, I {\displaystyle {\cal {I}}} 表示所有根节点的集合, J {\displaystyle {\cal {J}}} 表示所有其它节点的集合, Parent ( j ) {\displaystyle {\textrm {Parent}}(j)} 表示有向图中节点 j {\displaystyle j} 的所有父节点的集合。

一般概率图模型输入的数据是其节点上的随机变量 ( X 1 , , X p ) {\displaystyle (X_{1},\ldots ,X_{p})} 的独立重复观测值,可记为:

( X 1 ( k ) , , X p ( k ) ) , k = 1 , , n {\displaystyle (X_{1}^{(k)},\ldots ,X_{p}^{(k)}),k=1,\ldots ,n}

其中 n {\displaystyle n} 为样本量(Sample size)。一般来说,估计和统计推断的目标是在哪些节点间存在边,也就是从节点数据中恢复整个网络的样貌。现代统计学和生物统计学中,概率图模型多研究高维统计的情景,即样本量远小于随机变量数目: n p {\displaystyle n\ll p} 。一般的方法是假设图模型是一个高度稀疏的图,也就是只有几条很少的边,然后运用惩罚项或边际过滤等高维统计分析中的常用套路来获得稀疏的估计。这样的估计既可以是同时估计整个图中所有的边,也可以是对每一个节点估计其所连的边。理论研究多集中于各种惩罚项所估计出的图模型,其稀疏性质的正确性(这个概念叫做Sparsistency,注意它并不是相合性(Consistency))。

相关

  • 幼年特发性关节炎幼年特发性关节炎(英语:juvenile idiopathic arthritis,JIA)是儿童和青少年中最常见的关节炎类型。病名中的“幼年”是指 16 岁之前发病,又被译为“儿童”;“特发性”是指没有明确
  • 加勒比海加勒比海(英语:Caribbean Sea;西班牙语:Mar Caribe;法语:Mer des Caraïbes;荷兰语:Caraïbische Zee)是位于西半球热带大西洋海域的一片海域,西部与西南部是墨西哥的尤卡坦半岛和中美
  • 喷泉喷泉,又称喷水池,传统上指的从源头中向上喷出来的水流,天然的喷泉可以出现于山上或旷野上,有时候甚至会把周围的盘地填满。他们的一个共同点,是拥有足够的水压,当水流离开地面时有
  • 斯里尼瓦瑟·瓦拉德汉斯里尼瓦瑟·瓦拉德汉 FRS(英语:Srinivasa Varadhan,1940年1月2日-),印度裔美国人,数学家。他以对概率论的基础性贡献而闻名。1959年他获得 University of Madras 的本科学位,1963年
  • 穆瑞·罗斯巴德默里·牛顿·罗斯巴德(Murray Newton Rothbard,1926年3月2日-1995年1月7日),是美国犹太裔经济学家、历史学家、自然法理论家、政治理论家,是奥地利经济学派的知名学者,他的著作大量
  • 阿尔班·贝尔格阿尔班·马里亚·约翰内斯·贝尔格(德语:Alban Maria Johannes Berg,1885年2月9日-1935年12月24日),奥地利作曲家,出生于奥地利维也纳,也逝于该地,是与勋伯格、韦伯恩齐名的第二维也
  • 原子邦妮原子邦妮(Astro Bunny)是一个台湾电子音乐组合。由两位音乐人樱桃帮主唱查查与Zayin展翼乐团吉他手Nu(羽承)所组成,于2015、2016连续两年蝉联StreetVoice年度人气榜冠军。原子邦
  • 昂加语昂加语(Angika,अंगिका),是一种使用于印度和尼泊尔的印欧语系语言。该语言古代以鸯伽文(英语:Anga Lipi)和凯提文书写,现代则主要以天城文书写。该语言系属印度-雅利安语支下的
  • iBookiBook是苹果电脑公司设计生产的笔记型电脑系列产品。随着 iMac 的成功和苹果电脑公司的市场策略转变,针对消费者和教育市场推出了一个全新的笔记本电脑产品系列“iBook”。虽
  • 糸洲安恒糸洲安恒(琉球语:糸洲 安恒/イチュジ アンコー  ?;日语:糸洲 安恒/いとす あんこう ;1831年-1915年3月11日),冯姓,唐名不详,是活跃于琉球王国第二尚氏王朝末期和日本冲绳县时期的唐手