首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-11-20 09:19:44 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 气管切开术1 – 声带 2 – 甲状软骨 3 – 环状软骨 4 – 气管环 5 – 气囊气管切开术(tracheotomy /ˌtreɪkiˈɒtəmi/、UK also /ˌtræki-/;tracheostomy),简称“气切”,它是将气管软
- 双胍类双胍类(英语:biguanides)是可以只一种分子或者是一系列基于这个分子所发展的药物。此类药物可以做为糖尿病或前期糖尿病的治疗药物;也可以作为抗疟疾药物。过去几个世纪,山羊豆(学
- 不良反应药物不良反应(英语:adverse drug reaction,简称ADR)是患者在使用某种药物的治疗疾病的时候产生的与治疗无关的作用,而这种作用一般都对患者的治疗不利。不良反应是药物所具有的两
- 茶温县茶温县(越南语:Huyện Trà Ôn/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","M
- 甲状腺功能减退甲状腺机能低下症(Hypothyroidism),又称作甲状腺功能减退症,或是简称甲减,是一个因甲状腺无法分泌足够的甲状腺激素的内分泌疾病。此病可以造成很多症状,像是畏寒、疲劳、便秘、抑
- 图卡诺安语系图卡诺安语系(Tucanoan;Tukanoan;Tukánoan)是一种在南美洲东部通行的25种语言的合称,主要在哥伦比亚流传,亦有部分语言人口位于巴西、厄瓜多尔及秘鲁。现存的图卡诺安语系语言大
- 普通科医生人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学家庭医学科医师(英文:General Practitio
- 漏斗漏斗是一个筒型物体,被用作把液体及幼粉状物体注入入口较细小的容器。在漏斗咀部较细小的管状部分可以有不同长度。漏斗通常以不锈钢或塑胶制造,但纸制漏斗亦有时被使用于难以
- 栖位生态位(Ecological niche),又称小生境、生态区位、生态栖位或是生态龛位,生态位是一个物种所处的环境以及其本身生活习性的总称。每个物种都有自己独特的生态位,借以跟其他物种作
- 尢尢部,为汉字索引里为部首之一,康熙字典214个部首中的第四十三个(三划的则为第十四个)。就繁体和简体中文中,尢部归于三划部首。尢部通常是从下、左、右方均可为部字,且无其他部首
