首页 >
主题模型
✍ dations ◷ 2025-10-09 02:06:45 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- 革兰氏阴性革兰氏阴性菌(英语:Gram-negative bacteria)泛指革兰氏染色反应呈红色的细菌。在革兰氏染色实验中,首先添加了结晶紫,再添入另一种复染染料(通常使用番红),从而将所有的革兰氏阴性菌
- 生物农药生物农药,又称天然农药,系指非化学合成,来自天然的化学物质或生命体,而具有农药的作用。生物农药包括虫生病原性线虫、细菌和病毒等微生物,植物衍生物和昆虫费洛蒙等。生物农药在
- 朝鲜在联合国安理会关于朝鲜的决议已经通过了24项。五十年代朝鲜战争期间通过了五项决议。1991年关于朝鲜加入联合国的决议后。作为联合国会员国,安理会至今通过了关于朝鲜的导弹
- 波斯匿王波斯匿王(梵语:Prasenajit,巴利语:Pasenadi),又译作钵逻犀那恃多王,逻犀那恃多王、啰洗曩喻那王。意译胜军王、胜光王、和悦王、月光王、明光王。古印度憍萨罗国国王,子毘琉璃、祗陀
- 7世纪601年1月1日至700年12月31日的这一段期间被称为7世纪。唐朝取代隋朝领导中国,而本世纪末期武周中断了李唐朝廷。经历“贞观之治”、“永徽之治”和“武周之治”后,疆域辽阔、
- 南极洲南极洲(英语:Antarctica)是地球最南端的洲,位于南半球的南极区,是地理南极的所在地。南极洲大部分区域都在南极圈内,四周被南冰洋环绕。南极洲是世界上的第五大洲,其面积约为1400万
- 几何中心n 维空间中一个对象X的几何中心或形心是将X分成矩相等的两部分的所有超平面的交点。非正式地说,它是X中所有点的平均。如果一个物件质量分布平均,形心便是重心。如果一个对象
- 镁营养镁是人体必须的宏量矿物质营养素。镁能镇定中枢神经。现代的食品多经加工再造,容易导致镁离子流失,发生摄取不足的问题,可能增加糖尿病等慢性疾病的风险。镁是人体内重要元素之
- 克里米亚共和国俄罗斯联邦(浅黄色)克里米亚半岛克里米亚共和国(俄语:Республика Крым,罗马化:Respublika Krym;乌克兰语:Республіка Крим;土库曼斯坦语:Respublikasy Kr
- 青铜器时代青铜时代(Bronze Age),又称青铜器时代、青铜文明,在考古学上是以使用青铜器为标志的人类文化发展的一个阶段。青铜是红铜和锡或铅的合金,因为其氧化物颜色青灰,故名青铜。由于青铜