隐含狄利克雷分布

✍ dations ◷ 2025-10-09 22:52:24 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 瑞典– 欧洲(绿色及深灰色)– 欧洲联盟(绿色)  —瑞典王国(瑞典语:Konungariket Sverige 发音 帮助·信息)通称“瑞典”,是一个位于斯堪地纳维亚半岛的北欧国家,首都为斯德哥尔摩。西
  • 盘尼西林青霉素(Penicillin,或音译盘尼西林)是指分子中含有青霉烷、能破坏细菌的细胞壁并在细菌细胞的繁殖期起杀菌作用的一类抗生素,是由青霉菌中提炼出的抗生素。青霉素属于β-内酰胺
  • 时间序列时间序列(英语:time series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数
  • 植原体"Ca. Phytoplasma allocasuarinae" "Ca. Phytoplasma americanum" "Ca. Phytoplasma asteris" "Ca. Phytoplasma aurantifolia" "Ca. Phytoplasma australiense" "Ca.
  • 内共生学说共生体学说(英语:Symbiogenesis),又称内共生学说(英语:endosymbiotic theory),是关于真核生物细胞中的一些自主细胞器ㄧ线粒体和叶绿体起源的学说。根据这个学说,它们起源于共生于真
  • RNA → DNA结构 / ECOD(RNA-dependent DNA polymerase,RDDP)逆转录酶是一类存在于部分RNA病毒中具有逆转录活性、能以单链RNA为模板合成DNA的酶。由逆转录酶催化逆转录合成的DNA称为互补D
  • 比率在中文里,比率这个词被用来代表两个数量的比值,这包括了两个相似却在用法上有所区分的概念:一个是比(ratio)的值;另一是变化率(rate of change,或简称rate),是一个数量相对于另一数量
  • 氢氧化钙氢氧化钙,化学式Ca(OH)2,俗称熟石灰或消石灰,是一种微溶于水之白色固体,其水溶液常称为石灰水(量大时,可形成石灰乳或石灰浆),强碱性。在空气中吸收二氧化碳和水等从而变质,通常称其
  • 克里米亚归属公投2014年克里米亚归属公投,是克里米亚自治共和国政府于2014年3月16日发起的一场公投,让克里米亚选民决定是否从乌克兰独立,并且加入俄罗斯联邦。参与者包含来自整个克里米亚半岛,
  • 安妮日记《安妮日记》(荷兰语:Het Achterhuis)由安妮·法兰克所写,此书发行版的内容摘录自安妮在纳粹占领荷兰的时期所写的日记内容,并于战后由她幸存的父亲加以整理出版。其首次发行时的