主题模型

✍ dations ◷ 2025-08-29 11:56:57 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 肺炎链球菌肺炎链球菌(学名:Streptococcus pneumoniae)是一种球状的革兰氏阳性菌,持有α溶血性,链球菌属下的一种菌。肺炎链球菌于1880年代已被发现能引致肺炎,是一种重要的人类病因,亦是体液
  • μm微米(Micrometer、㎛)是长度单位,符号µm。1微米相当于1米的一百万分之一(10-6,此即为“微”的字义)。此外,在ISO 2955的国际标准中,“u”已经被接纳为一个代替“μ”来代表10-6的国
  • 3d104s24p12, 8, 18, 3蒸气压第一:578.8 kJ·mol−1 第二:1979.3 kJ·mol−1 第三:2963 kJ·mol−1 (主条目:镓的同位素镓(英语:Gallium)是一种化学元素,化学符号“Ga”,原子序31,
  • 乳交乳交(mammary intercourse),或称半身性交,是一种前戏或者非插入式性行为的性动作,由女性乳房与男性阴茎之间的接触而帮助其性兴奋。乳交涉及将男性勃起的阴茎放入乳沟中,而乳房围
  • 阿普列尤斯鲁齐乌斯·阿普列尤斯(Lucius Apuleius,约124年-约189年)是古罗马作家、哲学家。柏柏尔人。出生于北非的古罗马殖民地努密底省马道拉地方(属今阿尔及利亚),为官吏家庭。曾在雅典学
  • 醋酸盐乙酸盐 (英文: Acetate),俗称醋酸盐,是乙酸所成的盐,含有乙酸根离子CH3COO−,即乙酸去掉羧基质子后形成的阴离子。乙酸根离子的化学式是−,它是一种羧酸根离子,并且是乙酸的共轭碱
  • 意大利坎波内意大利坎皮奥内(意大利语:Campione d'Italia)是一个座落于卢加诺湖湖畔的意大利城镇,行政上属伦巴第科莫省的一部分。然而,坎皮奥内与意大利本土并没有直接接壤,其全境皆为瑞士提
  • 蒙特塞克藻Pseudoasterophyllites vidalii Zeiller蒙特塞克藻(学名:Montsechia vidalii)是一种已灭绝的水生沉水植物,属于蒙特塞克藻属(Montsechia),出土于西班牙蒙特塞克山脉及比利牛斯山一
  • 纽约大都会纽约大都会(New York Mets)是一支在纽约州纽约的美国职棒大联盟球队,隶属国家联盟东区。 他们赢过两次世界大赛冠军,第一次是在1969年,第二次则是1986年。1959年7月27日,纽约律师
  • 邦和中央直辖区印度的一级行政区包括有28个邦、8个中央直辖区及德里国家首都辖区。28个邦每一个邦都有各自的民选政府,首都辖区与邦处相同的地位,而中央直辖区则由中央政府直接管辖。今日的