首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-09-19 01:21:28 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 成人史迪尔氏综合征成人史迪尔氏病(英语:adult-onset Still's disease,缩写为 AOSD)是史迪尔氏病(英语:Systemic-onset juvenile idiopathic arthritis)的其中一种类型,是一种罕见的全身发炎(英语:System
- 喹唑啉酮喹唑啉酮(Quinazolinone)是喹唑啉的一类衍生物,通常指4-喹唑啉酮,是多种生物碱和药物的骨架结构。2-喹唑啉酮4-喹唑啉酮喹唑啉酮类催眠/镇静药物有4-喹唑啉酮的核心结构,其应用已
- 基本单位国际单位制基本单位是一系列由物理学家订定的基本标准单位。国际单位制共有7个基本单位。中华人民共和国用的单位名称依据《中华人民共和国法定计量单位》。中华民国用的单
- 星状病毒哺乳动物星状病毒属 禽星状病毒属星状病毒科(Astroviridae) 星状病毒科是一种感染哺乳类及鸟类的病毒,它的基因体是不分节,正股的RNA,它没有套膜且蛋白壳体为正20面体,星状病毒
- 恒星际航行恒星际旅行,是一个用来指在恒星或行星系统之间进行假想性的载人或无人太空旅行的名词。恒星际旅行的难度是远高于行星际航行的;太阳系以内的行星间的距离是不多于三十个天文单
- 电化学梯度电化学梯度(英语:electrochemical gradient)是离子跨膜运动而产生的电化学势能(英语:Electrochemical potential)梯度,通常包括电位梯度和浓度梯度。电化学势能是一种维持细胞生命
- 地层地层在地质学上指有一定层位的一层或一组岩石或土壤,上下层位之间被明显的层面或沉积间断面分开,地层分布范围可广达几十万平方千米,在悬崖峭壁、河岸或修建公路时开挖的地段,地
- 礼运《礼记》,儒学经典之一,所收文章是孔子的学生及战国时期儒学学者的作品。西汉学者戴德将或稍早于他的刘向收集的130篇综合简化,一共得85篇,称为《大戴礼记》,后来其侄戴圣又将“
- 乌得勒支省乌得勒支省(荷兰语:Provincie Utrecht)是荷兰面积最小的省份,位于荷兰的中心,北临埃姆湖(Eemmeer),南与海尔德兰省接壤,其南为莱茵河,其西为南荷兰省,其西北紧邻北荷兰省。该省是国际标
- 马及比县马及比县或马吉比县(英文:Margibi County)是利比里亚15县之一,首府卡卡塔。其下有四个区,全县土地面积约2,616平方千米(1,010平方英里)。 2008年人口普查显示当地有199,689人,是利比