隐含狄利克雷分布

✍ dations ◷ 2025-12-10 14:32:45 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 吞噬作用吞噬作用(英语:phagocytosis,来自古希腊语φαγεῖν)亦称吞食、噬菌作用,是吞噬细胞和原生动物通过细胞膜从周围环境摄取固体颗粒,并在其内部形成吞噬体的过程。吞噬作用是细胞
  • 巨噬细胞极化巨噬细胞极化是一个巨噬细胞对应微环境讯号所表现不同程式功能的过程。巨噬细胞极化有多种功能型态,他们可以完全极化成特定的表型,像是M1(典型活化巨噬细胞)或是M2(另类活化巨噬
  • 低钙血症低钙血症或低血钙症(Hypocalcaemia)系指血清中的钙离子浓度过低的状况,正常比例为 2.1 至 2.6 mmol/L(约为 8.8 到 10.7mg/dl,4.3 到 5.2 mEq/L),如果低于 2.1 mmol/L,就会认定为低
  • 语言学语言学(英语:linguistics)是一门关于人类语言的科学研究。语言学包含了几种分支领域。在语言结构(语法)研究与意义(语义与语用)研究之间存在一个重要的主题划分。语法中包含了词法(
  • 小儿医学小儿科(或称儿科)是现代医学的一个分支,专门医疗患病的婴儿、儿童及青少年。最大的年龄通常至青春期。一个受到这方面知识专门训练的医生被称作儿科医生。
  • 行星地质学行星地质学(Planetary Geology),亦称为天体地质学(Astrogeology)、天文地质学(Exogeology),是行星科学的一个重要分支学科,研究的范围是行星、卫星、小行星、彗星以及陨石等天体的地
  • 个别化教育计划个别化教育计划(英语:Individualized Education Program)是美国于1975年规定学校须针对每一位身心障碍学生所设计的计划。为依照学生的家庭背景、兴趣、学业成就、认知风格作综
  • 致死性家族失眠症致死性家族失眠症(Fatal familial insomnia,缩写为FFI),一种罕见的家族性体染色体显性遗传疾病。与传染性海绵状脑病类似,由朊毒体(prion)引起。它绝大多数是由PrPSC蛋白的突变引起
  • 脲酶脲酶(Urease,EC 3.5.1.5)是一种含镍的寡聚酶,它催化的是尿素水解为二氧化碳和氨的反应:脲酶存在于细菌、酵母和一些高等植物中。1926年,詹姆斯·巴彻勒·萨姆纳得到脲酶的结晶,并用
  • 科纳克里科纳克里(法语:Conakry或Konakry,Malinké人称为Kɔnakiri)几内亚的首都和最大港市,位于大西洋沿岸的卡卢姆半岛(Kaloum)顶端和东波岛/东波区(Tombo)上,其间有堤道和铁路(为填海所