首页 >
隐含狄利克雷分布
✍ dations ◷ 2025-10-30 06:19:49 #隐含狄利克雷分布
隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:因此整个模型中所有可见变量以及隐藏变量的联合分布是最终一篇文档的单词分布的最大似然估计可以通过将上式的
θ
i
{displaystyle theta _{i}}
以及
Φ
{displaystyle Phi }
进行积分和对
z
i
{displaystyle z_{i}}
进行求和得到根据
p
(
w
i
|
α
,
β
)
{displaystyle p(w_{i}|alpha ,beta )}
的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:
相关
- 中国水危机中国给水排水系统的建设随着中国经济与科技的高速发展日新月异、成果斐然,但距其完善又任重道远。随着中国城市化进程的逐步加快与城乡贫富差距的进一步扩大,以及水资源短缺、
- 太空旅游太空游客指非以执行任务(例如进行实验或工作)为目的,而搭乘航天器参与太空飞行的人。在苏联解体后,由于航天器的操作成本极大,同时要付给哈萨克拜科努尔航天中心地租与使用场地费
- 针灸学针灸是针法和灸法的合体。中医学中采用针刺或火灸人体穴位来治疗疾病,是联合国教科文组织认定的人类非物质文化遗产代表作。根据中医学理论,通过刺激穴位可以改善经络中的气的
- 厄米算符在数学里,作用于一个有限维的酉空間,一个自伴算子(self-adjoint operator)等于自己的伴随算子;等价地说,在一组单位酉正交基下,表达自伴算子的矩阵是埃尔米特矩阵。埃尔米特矩阵等
- 火火部,为汉字索引中的部首之一,康熙字典214个部首中的第八十六个(四划的则为第二十六个)。就繁体和简体中文中,火部归于四划部首。火部通常是从上、下、左方均可为部字。当上方为
- 爻爻部,为汉字索引中的部首之一,康熙字典214个部首中的第八十九个(四划的则为第二十九个)。就繁体和简体中文中,爻部归于四划部首。爻部通常是从左、中方均可为部字。且无其他部首
- 冰河期大冰期(英语:Ice Age),又称“冰川期”或“冰川期”,是指地球大气和地表长期低温导致极地和山地冰盖大幅扩展甚至覆盖整个大陆的时期。大冰期内部又分为几次冰期(glacial period、g
- PAUP*PAUP*是自从2000年左右以来使用最广泛的种系发生演算软件包。由于其独特的命名方式(读作Paup Star),也常常被“误称”为PAUP。PAUP是Phylogenetic Analysis Using Parsimony的
- بھارت..in为印度国家和地区顶级域(ccTLD)的域名。.in由印度国家互联网交换中心所创建的INRegistry负责管理。此外,印度还有如下文字的IDN:A .ac .ad .ae .af .ag .ai .al .am .ao .aq
- 超级电容双电层电容器(EDLC)有时也称为电双层电容器,或超级电容器,是拥有高能量密度的电化学电容器,比传统的电解电容容量高上数百倍至千倍不等。一个标准电池大小的电解电容电容为几十微
