生成模型

✍ dations ◷ 2025-09-10 05:17:16 #生成模型

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。

香农 (1948) 给出了有一个英语双词频率表生成句子的例子。可以生成如“representing and speedily is an good”这种句子。一开始并不能生成正确的英文句子,但随着词频表由双词扩大为三词甚至多词,生成的句子也就慢慢的成型了。

生成模型的定义与判别模型相对应:生成模型是所有变量的全概率模型,而判别模型是在给定观测变量值前提下目标变量条件概率模型。因此生成模型能够用于模拟(即)模型中任意变量的分布情况,而判别模型只能根据观测变量得到目标变量的采样。判别模型不对观测变量的分布建模,因此它不能够表达观测变量与目标变量之间更复杂的关系。因此,生成模型更适用于无监督的任务,如分类和聚类。

典型的生成模型包括:

如果观测数据是由生成模型中采样的,那么最大化数据似然概率是一个常见的方法。但是,大部分统计模型只是近似于分布,如果任务的目标是在已知一部分变量的值的条件下,对另一部分变量的推断,那么可以认为这种模型近似造成了一些对于当前任务来说不必要的假设。在这种情况下,使用判别模型对条件概率函数建模可能更准确,尽管具体的应用细节会最终决定哪种方法更为适用。

相关

  • 谈迁谈迁(1594年11月23日-1658年1月14日),明末清初史学家,原名以训,字观若;明亡后改名迁,字孺木,明朝诸生,浙江杭州府海宁枣林(浙江海宁西南)人。《国榷》作者。万历二十一年(1594年)甲午十月
  • 三溴苯酚三溴苯酚(2,4,6-Tribromophenol;简称:TBP),属芳香族化合物。白色针状或棱状晶体,具刺激性气味。溶于吡啶、醇、乙醚、丙酮、丁酮、氯仿和甲苯等有机溶剂及氢氧化钠溶液,微溶于水(59-
  • 云量云量是指视野所及的天空被云所遮蔽的比例,为气象观测的常见数据之一。云量的测量有“十分量”及“八分量”两种,一般采十分量测量,航空则多用八分量,但国际间已逐渐以八分量为主
  • 鹿豚亚科鹿豚(学名:Babyrousa)又名鹿猪,为偶蹄目猪科鹿豚亚科下的唯一一个属,分布于印尼苏拉威西岛、托吉安群岛、苏拉群岛及布鲁岛。此属原被认为是单型,但现已分成几个物种。最初鹿豚被
  • 富国岛富国岛位于台湾高雄市鸟松区,为澄清湖的一座人工内陆岛,1955年11月予整建命名为富国岛,以纪念中华民国国军在越南的孤军。
  • 德赖坎特角坐标:76°53′S 162°30′E / 76.883°S 162.500°E / -76.883; 162.500德赖坎特角(英语:Dreikanter Head)是南极洲的海岬,位于维多利亚地的斯科特海岸,处于亨特冰川和马斯顿冰川
  • 柯璜柯璜(1876年-1963年11月26日),字定础,号绿天野人,浙江省黄岩桐屿人,中国书法家。毕业于京师大学堂,任山西大学物理教授。当时阎锡山从日本仕官学校毕业归国,任山西大学体操教员,与柯结
  • 亚历山大·科拉罗夫亚历山大·科拉罗夫(Александар Коларов,1985年11月10日-)是一位塞尔维亚足球运动员。科拉罗夫在场上主要担当左后卫及中后卫的位置,他也曾代表过塞尔维亚U21国
  • 普伊国家自然保护区普伊国家自然保护区(西班牙语:Reserva nacional natural Puinawai)是哥伦比亚的自然保护区,位于该国东部瓜伊尼亚省,成立于1989年9月21日,面积10,925平方公里,每年平均降雨量3,600
  • 梅乌涅尔山坐标:74°58′S 113°19′W / 74.967°S 113.317°W / -74.967; -113.317梅乌涅尔山(英语:Mount Meunier)是南极洲的山峰,位于玛丽伯德地,处于科勒岭东北端附近,海拔高度665米,美国