隐含狄利克雷分布

✍ dations ◷ 2024-07-03 09:20:34 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 慢性疾病慢性病是一种持续或长期的健康状况或疾病。美国国家卫生统计中心的定义为持续超过三个月的病症,又或者是因病或先天造成的永久性伤害。常见慢性病包括恶性肿瘤、脑血管疾病、
  • 立陶宛立陶宛国家图书馆,正式称作马尔蒂纳斯·马日维达斯立陶宛国家图书馆(立陶宛语:Lietuvos nacionalinė Martyno Mažvydo biblioteka),位于立陶宛首都维尔纽斯,为一国家级文化机构,
  • 法医口腔学法医口腔学(英文:Forensic dentistry, forensic odontology)为一种合适处理、检测、评估口腔学(牙科)证据,以对司法审讯中提供评价的学科。其证据包括牙齿等确定年龄和身份,其通过
  • 尸皮尸皮(英语:cadaveric skin),是cadaveric skin的直接翻译,医学上也是称为尸皮或捐赠皮,是处理烧烫伤敷皮种类的一种,主要目的在于保护伤口、避免感染及协助伤者皮肤愈合、生成,而非一
  • 牧场牧场(英语:Ranch)是具有饲养家畜设施,能够进行放牧的单位。不同于农场的是,牧场主要用于饲养哺乳型食草家畜,如牛、马、羊。
  • Hsub2/subSsub2/subOsub6/sub连二硫酸(H2S2O6)是一种只能在溶液中存在的化合物。连二硫酸是一种较稳定的强酸。室温下,稀的连二硫酸溶液较稳定。溶液被浓缩或者受热时,缓慢歧化分解为硫酸和二氧化硫:连二硫酸
  • 铁锈铁锈为铁氧化物的统称,通常为红色,由铁和氧气境下进行氧化还原反应而生成。不同情况下会生成不同形式的铁锈。铁锈主要由三氧化二铁水合物Fe2O3·nH2O和氢氧化铁(FeO(OH), Fe(OH)3)
  • 现代希腊语希腊 塞浦路斯现代希腊语(希腊语: .mw-parser-output .Polytonic{font-family:"SBL BibLit","SBL Greek","EB Garamond","EB Garamond 12","Foulis Greek",Cardo,"Gentium P
  • 墙壁之间《墙壁之间》(法语:Entre les murs),2008年法国电影,由洛宏·康铁导演。根据法国作家弗朗索瓦·贝戈多(法语:François Bégaudeau)的2006年同名小说改编,小说是根据作者在巴黎的内城
  • 760110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310