主题模型

✍ dations ◷ 2025-04-04 18:44:45 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • Sabin-Feldman 染色试验弓形虫染色试验,又名萨宾-费尔德曼染色试验,是一个用于诊断弓虫症的血清学试验,实验原理是某些抗体会阻止亚甲蓝染液进入弓形虫生物的细胞质。用弓形虫滋养体和补体作为激活剂
  • 睑痉挛眼睑痉挛,俗称眼睛跳,是指眼睑肌肉不自控的痉挛现象。这现象可以同时发生于双眼,亦有左右眼分别跳动的现象。 眼眉跳(粤)应该属于 Eyelid Myokymia.据知眼睑痉挛成因有三:除此之外
  • 会计会计可指:
  • 费尔巴哈路德维希·安德列斯·费尔巴哈(德语:Ludwig Andreas von Feuerbach,1804年7月28日-1872年9月13日),德国哲学家。出生于拜仁州(巴伐利亚)下拜恩区的首府兰茨胡特,逝于同一州的纽伦堡,是
  • 疟疾地图计划疟疾地图计划(The Malaria Atlas Project,简称MAP)为由英国惠康基金会支持的非营利计划。计划由肯尼亚内罗毕地理医学中心的疟疾公卫流行病学组(Malaria Public Health and Epid
  • 欧洲分子生物学实验室欧洲分子生物学实验室(英文:European Molecular Biology Laboratory, EMBL)创建于1974年,是一所非营利性的分子生物学研究机构,由22个欧洲国家(会员国)及四个前景会员国和两个准会
  • CK有机钾化学是研究碳-钾键的化合物的化学分支。有机钾化合物非常活泼,C-K键有高度的离子性。有机钾化合物可以由金属钾和卤代烃直接反应得到,一般选用氯代烃:但这种制法容易发送
  • 石器时代石器时代,指人们以石头作为工具使用的时代,这时因为科技不发达,人们只可以以石头制造简单的工具。而随着时代的推进,人们对石器的研制也在不断改进。而在时代划分上,石器时代大致
  • eIF1eIF1(eukaryotic initiation factor 1,真核起始因子1)是一种参与真核翻译起始的重要的蛋白质。eIF1在起始密码子AUG的识别中发挥重要的作用,它能使起始密码子的识别具有很高的保
  • 芯片集成电路(英语:integrated circuit,缩写作 IC;德语:integrierter Schaltkreis),或称微电路(microcircuit)、微芯片(microchip)、芯片(chip)在电子学中是一种将电路(主要包括半导体设备,也包