隐含狄利克雷分布

✍ dations ◷ 2024-11-06 03:36:11 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 丧恸丧恸(拼音:sāng tòng;英语:Grief),是对丧亡或死别的多重反应,会表现出悲伤、悲哀和伤心。这些反应除了在感情上外,也包括生理、认知、行为、社交及精神的层面。所经验的很多时都与
  • 忌辰祭祀,(英语:祭:sacrifice;祀:ritual;韩语:한국의 제사,罗马化:Jesa)是指以线香、酒水、肉类、蔬果,或布帛和玉(传统儒教祭祀)等供品向神灵、圣徒或者亡魂奉献、祈祷的一种行为。中国古代
  • 松露松露(英语:Truffle)是数种可食用子囊菌门物种的合称,和蘑菇、灵芝一样都是真菌。其中有多种属于西洋松露属(学名:Tuber),大约有10种不同的品种。松露多数在阔叶树的根部着丝生长,散布
  • 服务业第三级产业,又称服务业,是指位处一件产品的生产链中最上层的行业,这些行业在一件产品的生产链中担任物流、分销、中介等工作。第三级产业需要接触产品的终端顾客,是该产品自生产
  • 伯氏疏螺旋体伯氏疏螺旋体(Borrelia burgdorferi),也译作博氏疏螺旋体、布氏疏螺旋体,巴格朵夫疏螺旋菌,莱姆病螺旋体,是一种螺旋体。伯氏疏螺旋体是莱姆病的病原体,由蜱传播给人类。伯氏疏螺旋
  • 激光矯视激光矫视指以激光永久改变眼角膜的弧度,达致矫正视力的目的。激光矫视能矫正近视、远视、散光等视力问题;但不能矫正老花及近视所引起的眼疾风险和眼底问题(如视网膜脱落、白内
  • 生物科技工业园生物科技工业园(Biotechnology industrial park,简称BIP)是一种专注于生物科技的工业园。通常为求合理的运用资源,生物科技工业园内的企业集合起来,可以发挥出生物分馏的效益。
  • 甲胄鱼类甲胄鱼(学名:Ostracoderms),又名介皮类,是已灭绝的一类没有下颚的原始鱼类,其身上有骨质的甲板覆盖。它们的化石在奥陶纪至泥盆纪地层都有发现。它们是栖于水底的动物。甲胄鱼是最
  • 福利中华人民共和国的社会福利在历史上经历过各种变化。中华人民共和国人力资源和社会保障部是负责中华人民共和国社会福利的部门。在80年代中国改革开放之前,中国的社会主义满足
  • SONOSSONOS,是硅-氧化物-氮化物-氧化物-硅(英语:Silicon-Oxide-Nitride-Oxide-Silicon)的英语首字母缩写,是一种和闪存联系较为紧密的非挥发性存储器。它与主流的闪存主要区别在于,它使