主题模型

✍ dations ◷ 2024-07-05 03:21:51 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 双链DNA反转录病毒双链去氧核糖核酸逆转录病毒(ds-DNA RT)是巴尔的摩病毒分类系统中的第七类病毒(Group VII)。这类病毒一般不被认为是DNA病毒(该分类中的Group I&II),而被认为是逆转录病毒(该分类的G
  • WoRMS世界海洋物种目录(英语:World Register of Marine Species,缩写为WoRMS),是一个生物学数据库,致力于提供一个具有公信力与全面性的海洋物种目录。世界海洋物种目录不仅收录生物的
  • 污水妥善处理率污水妥善处理率是一个城市对污水处理的能力,隐含一个城市的公共卫生、环保能力标准,其包含公共污水下水道用户接管户数、专用污水下水道接管户数及建筑物污水处理设施设置户数
  • 风水传统宗教仪式:神明秘密社会:风水,为五术之一的相术中的相地之术,即临场校察地理的方法,叫地相,古代称勘舆术,目的是用来选择宫殿、村落选址、墓地建设等方法及原则。原意是选择合适
  • 肌球蛋白肌凝蛋白(英语:myosin),又称为肌球蛋白,是真核细胞内的一类ATP依赖型分子马达,对细胞的运动与细胞内物质传输起着重要的作用。例如肌凝蛋白II就在肌肉收缩和细胞分裂的过程中扮演
  • 沉积物沉积物为任何可以由流体流动所移动的微粒,并最终成为在水或其他液体底下的一层固体微粒。沉积作用即为混悬剂的沉降过程。沉积物亦可以由风(风成过程)及冰川搬运。沙漠的沙丘及
  • 共同演化在生物学上,共演化是指“一项生物学的性质因另一项生物学的性质变化而随之变化”。共演化可以发生在许多生理学上的层次,如微观下蛋白质中氨基酸之序列,如巨观下不同生物的性状
  • 贾科莫·莱奥帕尔迪贾科莫·莱奥帕尔迪(意大利语:Giacomo Taldegardo Francesco di Sales Saverio Pietro Leopardi,1798年6月29日-1837年6月14日),意大利诗人,散文家,哲学家,语言学家。他是意大利浪漫
  • 美东时间北美东部时区(North American Eastern Time Zone),或称美国东部时间(The Eastern Time Zone,ET),主要包括北美东海岸和南美西海岸,其标准时间(EST)为UTC-5,夏令时间(EDT)为UTC-4。此外,以
  • 加尔各答大学加尔各答大学 ( Calcutta University 或 CU)是印度西孟加拉加尔各答的一所公立大学。成立于1857年1月24日。在印度它被评为一所五星级重点大学。在各邦大学里面,它的研究生教