隐含狄利克雷分布

✍ dations ◷ 2024-12-22 19:13:12 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的 θ i {displaystyle theta _{i}} 以及 Φ {displaystyle Phi } 进行积分和对 z i {displaystyle z_{i}} 进行求和得到根据 p ( w i | α , β ) {displaystyle p(w_{i}|alpha ,beta )} 的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

相关

  • 链球菌等链球菌(学名:Streptococcus)是一类球形的革兰氏阳性细菌,属于厚壁菌门的一个属。这些细菌细胞分裂时总是沿一个轴,所以通常成对或者链状的。因为这些特征,他们被称作“链球菌”,
  • 链球菌感染后肾小球肾炎急性增生性肾小球肾炎(Acute proliferative glomerulonephritis)是在肾小球(肾小球肾炎)、或肾小管中所产生的病症。它常见于细菌感染的并发症中,通常是由链球菌(脓疱病)所造
  • 城堡城堡是中世纪欧洲和中东地区的一种武装建筑,一般特指作为领主和贵族私人住所的武装建筑,而非作为一个城镇公共防御设施的要塞。由于建筑时期和地点的不同,城堡有很多不同的形式
  • 红外线光谱学红外光谱学是光谱学中研究电磁光谱红外部分的分支。它包括了许多技术,到目前为止最常用的是吸收光谱学。同所有的分光镜技术一样,它可以被用来鉴别一种化合物和研究样品的成分
  • 壳多糖甲壳素(英语:Chitin,IPA:/ˈkaɪtᵻn/ KY-tin),分子结构“(C8H13O5N)n”,又名“几丁质”、“几丁聚糖”、“几丁寡糖”、“甲壳质”或“壳多糖”,是一种含氮的多糖类物质,为虾、蟹、
  • 偏磷酸偏磷酸(HPO3)是一种易潮解固体,有剧毒。偏磷酸与磷酸有相同的酸酐:五氧化二磷,不同的地方在于五氧化二磷与热水反应生成磷酸,而与冷水反应生成偏磷酸(或聚偏磷酸(HPO3)n,如三聚偏磷
  • 元素 (消歧义)元素可以指:
  • 卤化物卤化物指含有呈负价卤素的化合物,通常为二元化合物。卤离子则指相应-1价的卤素离子。根据具体卤素的不同,卤化物可分为:拟卤素生成的-1价化合物称为拟卤化物,主要有叠氮化物N3−
  • 福井谦一福井谦一(日语:福井 謙一/ふくい けんいち Fukui Ken'ichi ?,1918年10月4日-1998年1月9日)日本理论化学家,美国科学院外籍院士,欧洲艺术科学文学院院士。文化勋章、勋一等旭日大绶
  • 610110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310