首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-08-08 11:53:34 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 维生素A维生素A又称维他命A、抗干眼病维生素,是人类的必需营养素之一。维生素A的前体是存在于多种植物中的胡萝卜素。维生素A并非单一的一种化合物,而是有许多不同的型态。动物能将胡
- 知识表示知识表示法(知识重呈/知识表现) 是认知科学和人工智能两个领域共同存在的问题。在认知科学里,它关系到人类如何储存和处理资料。在人工智能里,其主要目标为储存知识,让程式能够处
- 书面语言书面语是一种透过文字系统来表达的语言,以书写及阅读来传达意义。书面语是一种人为发明下的产物,基于某个特定的口语之后发展出来,因此没有任何一种自然语言是只有书面语而没有
- 沃斯托克站东方站(俄语:Станция Восток),是俄罗斯位于南极大陆内陆伊丽莎白公主地的一个南极科学考察站,在南磁极附近。该站于1957年由苏联建立,位于南极高原内部,以记录到地球
- 百老汇百老汇大道(英语:Broadway)为美国纽约市重要的南北向道路,南起炮台公园,由南向北纵贯曼哈顿岛。纽约地铁百老汇线(、、、)及纽约地铁第七大道线(、、)均通过此路底下。由于此路两旁分
- 美国白人英语 阿尔巴尼亚语 · 阿拉伯语 · 美国手语 · 新阿拉姆语(英语:Neo-Aramaic languages) · 亚美尼亚语 · 阿塞拜疆语 · 白俄罗斯语 · 捷克语 · 丹麦语
- 攻占巴士底狱攻占巴士底监狱(法语:Prise de la Bastille)发生于1789年7月14日,巴士底狱被巴黎市民攻下和占领。此监狱是巴黎的一座中世纪城堡和监狱,被认为是法国封建专制统治的象征。攻占巴
- 斑蚜科斑蚜科(Drepanosiphidae)是蚜总科下的一个科, 曾经被称作斑蚜亚科(Drepanosiphinae),分在蚜科下。 2009年被认定为一个新科。
- 相互保证毁灭相互保证毁灭(英语:Mutual Assured Destruction,简称M.A.D.机制,亦称共同毁灭原则)是一种“同归于尽”性质的军事战略思想。是指对立的两方中如果有一方全面使用核武器则两方都会
- 巴黎唐人街巴黎的主要唐人街(Quartier chinois de Paris),称为舒瓦西三角(Triangle de Choisy)或小亚洲(Petite Asie),位于巴黎十三区东南,这一带有许多高层公寓。1970年代,来自前法国殖民地法属