首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-07-19 01:16:53 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 尸体现象尸体现象(postmortem phenomena)在法医学上是指人死亡后尸体的各器官、组织、细胞的生命活动停止并受到内外环境各种因素的作用而发生的一系列特殊变化。按照死后的时间,可以把
- 瑞德西韦GS-5734 伦地西韦瑞德西韦(英语:Remdesivir),又译伦地西韦,是由美国吉利德科学公司开发的一种新型实验性广谱抗病毒药物,用来针对埃博拉病毒及被认为可以有效抑制呼吸道上皮细胞
- 广谱抗生素抗细菌药(英语:antibacterial)也称为“抗细菌剂”,是一类用于抑制细菌生长或杀死细菌的药物。在不引起歧义的情况下,抗细菌药也可简称为“抗菌药”,包括抗生素(英语:antibiotic) 由微
- 基督教堂教堂是进行宗教仪式的场所,一般特指基督宗教,包括天主教、东正教、新教等;天主教的教堂又可称为“天主堂”;伊斯兰教进行宗教仪式的场所一般称为清真寺,犹太教从事宗教仪式和其它
- 皇家医学会英国皇家医学会(Royal Society of Medicine)为一个以提供医学培训为主的专业会员制学会。学会始创于1805年,并于1907年获得皇家特许状。学会位于首都伦敦。
- 阿戈斯蒂诺·基吉阿戈斯蒂诺·基吉(Agostino Chigi,1465年-1520年),文艺复兴时期欧洲锡耶纳一个富有家庭成员。 他在罗马开有一家银行,曾帮助若干教皇举办工程筹措资金。他还拥有托尔法的明矾开采
- WikiMapiaWikiMapia是结合Google Maps及Wiki引擎的计划,目标是“描述地球表面”。由Alexandre_Koriakine(英语:User:Alexandre Koriakine)和Evgeniy Saveliev发起。他们自称是受到 Google
- 高似兰高似兰(英文名菲力浦·伯鲁涅列斯基·高似兰,Philip Brunelleschi Cousland,1860年-1930年),苏格兰传教士医生。高似兰编撰的英汉对照《医学辞汇 Lexicon of Medical Terms》是中
- 类人猿下目类人猿下目(学名:Simiiformes)是一类高等灵长类,由旧世界猴及猿组成。它们比原猴亚目的要大。类人猿下目分成三类。阔鼻小目于约4000万年前分支出来,只余下狭鼻小目留在旧世界。
- 顺反子顺反子,也做作用子,它于1955年由美国分子生物学家本兹尔提出的,他称基因内部的功能互补群为顺反子。顺反子通过顺反试验确定,如两个位点可以互补,则两个位点不属于一个顺反子;如两