生成模型

✍ dations ◷ 2025-04-26 13:24:53 #生成模型

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。

香农 (1948) 给出了有一个英语双词频率表生成句子的例子。可以生成如“representing and speedily is an good”这种句子。一开始并不能生成正确的英文句子,但随着词频表由双词扩大为三词甚至多词,生成的句子也就慢慢的成型了。

生成模型的定义与判别模型相对应:生成模型是所有变量的全概率模型,而判别模型是在给定观测变量值前提下目标变量条件概率模型。因此生成模型能够用于模拟(即)模型中任意变量的分布情况,而判别模型只能根据观测变量得到目标变量的采样。判别模型不对观测变量的分布建模,因此它不能够表达观测变量与目标变量之间更复杂的关系。因此,生成模型更适用于无监督的任务,如分类和聚类。

典型的生成模型包括:

如果观测数据是由生成模型中采样的,那么最大化数据似然概率是一个常见的方法。但是,大部分统计模型只是近似于分布,如果任务的目标是在已知一部分变量的值的条件下,对另一部分变量的推断,那么可以认为这种模型近似造成了一些对于当前任务来说不必要的假设。在这种情况下,使用判别模型对条件概率函数建模可能更准确,尽管具体的应用细节会最终决定哪种方法更为适用。

相关

  • 约翰·弥尔顿约翰·弥尔顿(英语:John Milton,1608年12月9日-1674年11月8日),英国诗人,思想家。英格兰共和国时期曾出任公务员。因其史诗《失乐园》和反对书报审查制的《论出版自由》而闻名于后
  • 硫脲硫脲是尿素中的氧被硫替代后形成的化合物,属于硫代酰胺(RC(S)NR2,R为烃基)。由于电负性差异,尽管结构类似,硫脲和尿素的性质很不相同。硫脲在有机合成中有广泛应用。除此之外,硫脲
  • 美国电影艺术与科学学会电影艺术与科学学院(英语:The Academy of Motion Picture Arts and Sciences,缩写:AMPAS),中文简称美国影艺学院,是美国一个由逾6,000名电影界的专业或资深人士组成的非营利组织,同
  • 长益常城际铁路长益常城际铁路是目前在中国湖南省境内规划建设的一条城际铁路线,是长株潭城市群城际铁路网的重要组成部分。改线设计总长168.7公里,为上下行双线客运专线,目标时速200公里上,全
  • 阿尼凯·费奥多罗维奇·斯特罗加诺夫阿尼凯·费奥多罗维奇·斯特罗加诺夫(俄语:Аникей Фёдорович Строганов,1488年-1570年),俄罗斯探险家、商人,后为僧侣。其活跃时间为莫斯科大公国至俄罗斯
  • 锂衰竭界限锂衰竭界限(lithium depletion boundary,LDB)是一种建立在锂丰度测量的基础上,被提出来测量疏散星团中的恒星能发生氢燃烧的质量下限。
  • 尤达条件式尤达条件式(也称为尤达标记法)是一种计算机编程中的编程风格,其中表达式的两个部分与条件语句中的典型顺序相反。尤达条件式将表达式的常量部分放在条件语句的左侧。这个风格的
  • 发现水道发现水道(英语:Discovery Passage)是加拿大的水道,在不列颠哥伦比亚海岸,温哥华岛和发现群岛之间,连接乔治亚海峡和庄士敦海峡。“发现”这个名字出自乔治·温哥华的发现号皇家船
  • 雷吉·埃文斯雷金纳德·贾马尔·埃文斯(英语:Reginald Jamaal Evans,1980年5月18日-),美国NBA联盟前职业篮球运动员 , 擅长抢篮板。
  • 巴拿赫极限在数学分析中,巴拿赫极限(英语:Banach limit)指的是定义在全体有界复序列组成的巴拿赫空间 ℓ ∞ {\displaystyle \ell ^{\infty }} 上,对每个 ℓ ∞