主题模型

✍ dations ◷ 2025-07-18 19:31:01 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 列表电池列表将尽量列出所有类型的电池,并列出别名以方便查考,易混淆的项目附加简要说明。
  • 爱留根纳裘安纳·斯哥德·艾儒吉纳(英语:Johannes Scotus Eriugena, c. 815 – c. 877),又称爱留根纳(Eriugena)是爱尔兰的新柏拉图主义哲学家与诗人。他因为译注亚略巴古的伪丢尼修(Pseudo-
  • x字高在西文字体排印学中,x字高,(英语:x-height或corpus size)是指字母的基本高度,精确地说,就是基线(英语:baseline)和主线之间的距离。特别的,它指称一个字体中小写字母x的高度(这也是这个
  • 演化心理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 进化心理学 实验心理学
  • 最年长者这是已确认世上最长寿者排名的表格,如最长寿者和最长寿男性。表中的长寿者的年龄须经由研究长寿的国际性组织(如吉尼斯世界纪录大全或老年医学研究组织(英语:Gerontology Resear
  • 苏澳冷泉坐标:24°35′48″N 121°51′04″E / 24.596731°N 121.850984°E / 24.596731; 121.850984苏澳冷泉,位于台湾宜兰县南端的苏澳镇,地处中央山脉板岩区,主要的地质为变质岩。苏
  • 欧仁·德拉克罗瓦欧仁·德拉克罗瓦(法语:Eugène Delacroix,1798年4月26日—1863年8月13日)是法国著名浪漫主义画家。1798年4月26日出生于法国瓦勒德马恩省,曾师从法国古典主义画派画家皮埃尔-纳
  • 科西嘉坐标:42°9′N 9°5′E / 42.150°N 9.083°E / 42.150; 9.083科西嘉领土集体(Collectivité Territoriale de Corse)是法国的一个领土集体,其范围包括科西嘉岛及附近小岛。科西
  • 雅克萨之战雅克萨战役,是17世纪中后期清朝和俄国之间因边境冲突而爆发的一场战争,俄方及西方称之为俄清边境冲突(俄文:Русско-цинский пограничный конфли
  • 重结晶重结晶(英语:Recrystallization),再结晶,晶种结晶法,也称之为优先结晶法;是一种物理过程,在化学、冶金学和地质学中有很不同的用途。重结晶是将物质溶于溶剂或熔融后,又重新从溶液或