隐含狄利克雷分布

✍ dations ◷ 2025-06-26 09:48:11 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 嗜睡症嗜睡症(hypersomnia)是一种会睡眠过度的疾病,主要有两种类型:原发性嗜睡症和反复性嗜睡症。两者的症状相同,但发生频率不同。患有嗜睡症的人会反复发生过度日间嗜睡(英语:Excessive
  • 阿普伽新生儿评分阿普伽新生儿评分(英语:Apgar Score)是美国女医生维珍尼亚·阿普伽(Virginia Apgar)在1952年发明的一种对刚出生的新生婴儿健康状况快速评核方法。阿普伽当时是在美国纽约执业的
  • 联合国粮食及农业组织联合国粮食及农业组织(法语:L'Organisation des Nations Unies pour l'Alimentation et l'Agriculture,缩写为ONUAA; 英语:Food and Agriculture Organization of the United Na
  • 2#成对的概念<< 0 1 2 3 4 5 6 7 8 9 >>2(二)是1与3之间的自然数,2是唯一的偶数素数 (又称偶素数)。在现代标准汉语中,数词2在不同情况下,常常需要变换用字以适应需要,这一点在其他数词中是不存
  • 首过效应首渡效应或首关效应(英语:First pass effect)是指口服药物在消化道吸收后,首先进入肝门静脉系统;部分药物在通过肠黏膜和肝脏时,可能被代谢失去活性,从而使进入循环的药量减少,药效
  • 托斯坦·威泽尔托斯坦·尼尔斯·威泽尔(瑞典语:Torsten Nils Wiesel,1924年6月3日-),瑞典神经科学家,与大卫·休伯尔(David H. Hubel)由于对视觉系统的讯息处理过程之研究,而和研究左右脑半球的罗杰
  • 詹姆斯·蒙哥马利·弗拉格詹姆斯·蒙哥马利·弗拉格(英语:James Montgomery Flagg;1877年6月18日-1960年5月27日),是一位美国艺术家和插画家。他从纯粹的绘画工作转变为卡通画家,但却以他绘制的政治海报而闻
  • 圣地亚哥圣迭戈(英语:San Diego),是美国加利福尼亚州的一个太平洋沿岸城市。位于美国本土的极端西南角,紧邻墨西哥,是圣迭戈县的首府,以气候温暖和沙滩众多而著名。在2010年的人口普查中,该
  • 脸部移植脸部移植,指通过医学手段置换部分或全部脸部的手术。全球首例部分脸部移植于2005年在法国实施。首例全脸移植则于2010年在西班牙完成。
  • 相位相位(英文:phase),是描述信号波形变化的度量,通常以度(角度)作为单位,也称作相角或相。当信号波形以周期的方式变化,波形循环一周即为360º。常应用在科学领域,如数学、物理学、电学等