首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-08-29 04:29:19 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 关节僵硬关节僵硬(英语:joint stiffness)可能是关节活动时产生疼痛的症状、或运动时活动范围变小的症状或关节活动范围减小的医学征象(或简称“体征”)。
- 铁蛋白铁蛋白是一种常见的球状蛋白质,由24个蛋白亚基构成,它能在所有类型的细胞中表达,是原核生物与真核生物用于储存铁离子的主要蛋白质。铁蛋白的主要功能是使铁离子的储存维持在溶
- Lu6s2 4f14 5d12, 8, 18, 32, 9, 2蒸气压3, 2, 1 (弱第一:523.5 kJ·mol−1 第二:1340 kJ·mol−1 第三:2022.3 kJ·mol主条目:镥的同位素镥(Lutetium,台湾称镏,旧译作鏴)是一种化
- 米切尔·贝克温妮费德·米切尔·贝克(英语:Winifred Mitchell Baker,1957年-)。现任Mozilla基金会和Mozilla公司运行董事长。贝克曾担任网景公司的律师工作。2005年,被时代杂志评选为全球最具
- 保留性交保留性交(coitus reservatus,也称sexual continence)又名“保留交媾”,一般称性伴侣在性交过程中尽可能延缓精液的泄出、恒久保持在性持续期。此种思维观念的性生活又称作“不完
- 苯乙胺苯乙胺(英语:phenethylamine或PEA),或称β-苯乙胺、2-苯乙胺,是一种生物碱与单胺类神经递质。苯乙胺有一个结构异构体,即α-苯乙胺或称1-苯乙胺,α-苯乙胺有两个立体异构体:(R)-(+)-
- 瓜瓜部,为汉字索引中的部首之一,康熙字典214个部首中的第九十七个(五划的则为第三个)。就繁体及简体中文中,瓜部归于五划部首。瓜部通常是从左、中、右方均可为部字。且无其他部首
- 頁页部,为汉字索引中的部首之一,康熙字典214个部首中的第一百八十一个(九划的则为第六个)。就繁体中文中,页部归于九划部首,而简体中文则归六划,原本的字则作为附形部首。页部只以右
- abbr class=abbr title=R23: 吸入有毒R23/abbr警示性质标准词(英语:Risk Phrases,简写:R-phrases)是于《欧联指导标准67/548/EEC 附录III: 有关危险物品与其储备的特殊风险性质》里定义。该列表被集中并再出版于指导标准2001/
- 单晶材料单晶是指其内部微粒有规律地排列在一个空间格子内的晶体。其晶体结构是连续的,或者可以说,在宏观尺度范围内单晶不包含晶界。与单晶相对的,是众多晶粒组成的多晶。单晶材料是一