隐含狄利克雷分布

✍ dations ◷ 2025-02-23 14:18:51 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 消瘦症消瘦(英语:emaciation)被定义为由于皮下脂肪和身体肌肉的损失导致过度的体重减轻和不自然的羸瘦。过度的消瘦会影响到人类和动物的健康。消瘦是由严重的营养不良和饥饿引起的。
  • 海军陆战队美国海军陆战队(英语:United States Marine Corps,缩写为 USMC),又称美国陆战队,是美国军队中的海军陆战队及两栖作战部队,其主要职责是运用美国海军的舰队(含航空兵),快速抵达全球各
  • TNFSF113URF· tumor necrosis factor receptor binding· extracellular space · cytoplasm· monocyte chemotaxis · immune response · activation of JUN kinase activit
  • 氰化氢氰化氢,又称氢氰酸,化学式HCN。标准状态下为液体,剧毒且致命,无色而苦,并有淡淡的杏仁气味(杏桃的果核当中含有苦杏仁苷,溶于水会释放出氰化氢),能否嗅出视乎个人基因。氰化氢是一种
  • 托(符号为Torr),与毫米汞柱(符号为mmHg)近乎等价,为压强、压力的单位,但并非国际单位制单位 (SI unit) 的成员之一。原本的 1 mmHg 是指“将幼细直管内的水银顶高一毫米之压力”,而正
  • 红外线光谱学红外光谱学是光谱学中研究电磁光谱红外部分的分支。它包括了许多技术,到目前为止最常用的是吸收光谱学。同所有的分光镜技术一样,它可以被用来鉴别一种化合物和研究样品的成分
  • 克莫拉克莫拉(Camorra)是类似黑手党的秘密社团,起源于意大利坎帕尼亚地区和那不勒斯市,通过毒品交易、敲诈勒索来筹集经费,其活动导致所控制地区的高谋杀率。这是意大利最古老的有组织
  • 夏威夷群岛夏威夷群岛(英语:Hawaiian Islands),旧称三明治群岛(Sandwich Islands),太平洋中北部的岛群,波利尼西亚群岛的一部分,是由19个较大的岛屿和其他小岛组成的群岛,成因多为火山岛或珊瑚岛
  • 中国宪法中国宪法列出在中国制定或施行过的宪法、宪法增修案、修正案或其他宪法性文件。由国家组织起草的重要宪法草案也一并列入。当今媒体所称的“中国宪法”多指仍在施行状态的:
  • 准晶体准晶体,亦称为“准晶”或“拟晶”,是一种介于晶体和非晶体之间的固体。准晶体具有与晶体相似的长程有序的原子排列;但是准晶体不具备晶体的平移对称性。根据晶体局限定理(crysta