首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-01-23 03:12:18 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 健康信息学人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学医学信息学,或称卫生信息学或医学资讯
- 鞘翅目See subgroups of the order Coleoptera(英语:subgroups of the order Coleoptera)鞘翅目(Coleoptera)是昆虫纲中最大的目,包括各种甲虫。目前全世界的甲虫,约182科,约有35万种,超过
- 华盛顿州华盛顿州(英语:State of Washington),简称华州,是一个位于美国西北太平洋沿岸的州,北接加拿大不列颠哥伦比亚省,南接俄勒冈州,东临爱达荷州,西邻太平洋。为纪念美国首任总统,乔治·华
- 卵裂受精卵高速分裂,但总的体积和物质并不增加:细胞的数目越来越多,个头却越来越小。这壹时期即为卵裂(cleavage)。卵裂按其分裂形式可以分为下列两类:脊椎动物常见卵裂分为两大类:完全
- 交通安全交通安全、运输安全或道路安全,是所有提高道路运输的安全性(包括参加交通的人以及交通工具)的措施的总称。道路安全措施可以大略地分为主动安全措施(防止交通事故发生)和被动措施
- 哈默史密斯坐标:51°29′34″N 0°13′22″W / 51.4928°N 0.2229°W / 51.4928; -0.2229汉默史密斯(英语:Hammersmith)是英国英格兰大伦敦汉默史密斯-富勒姆区的自治市,位于泰晤士河的北岸
- 赫伯特·博耶赫伯特·博耶(英语:Herbert W. Boyer,1936年7月10日-),美国生物学家。1958年于宾夕法尼亚州圣文森特学院获生物学及化学学士学位。1963年于匹茨堡大学获博士学位。1976至1991年任
- 第一民族第一民族(英语:First Nations,法语:Premières nations),是数个加拿大境内民族的通称,法定与印地安人同义,指的是在现今加拿大境内的北美洲原住民及其子孙,但是不包括因纽特人和梅蒂
- 恩达拉坦多恩达拉坦多是安哥拉西北部的城镇,也是北广萨省的首府,海拔高度670米,每年平均降雨量1,213毫米,雨量主要集中在3月和4月。1970年人口7,342,2010年人口增加至46,606。坐标:9°18′S
- 粒子束武器粒子束武器是指使用粒子加速器令粒子高速移动进行撞击目标的一种强力武器。他由发射高度聚集的强原子粒子束流或亚原子粒子束流,以0.6C-0.8C光速的速度撞击目标的武器。粒子