主题模型

✍ dations ◷ 2025-11-01 15:43:12 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 高兴高兴(high)即快乐的情绪,另可能指:
  • 阿尔弗雷德·布莱洛克阿尔弗雷德·布莱洛克(英语:Alfred Blalock,1899年4月5日-1964年9月15日),美国外科医生,其在休克方面的研究影响深远,同时他还是布莱洛克-陶西格分流术的发明人之一。布莱洛克-陶西格
  • 性悖轨性悖轨(英语:sodomy,所多玛)源自中世纪基督教神学中对非属自然法性行为的指称,一般是指男性与男性之间的肛交行为。也可以指女性与女性之间的性行为,男性与女性之间的口交、肛交行
  • 心理统计学心理统计学是统计学方法在心理学以及教育学测量领域的应用。它的目的是测量人的能力、知识、态度、性格特征等,并且发展相应的工具。在心理统计学早期的理论和应用之中,重点集
  • 硫酸长春碱硫酸长春碱(化学式:C46H60N4O13S)常温下是白色固体,可用作抗肿瘤药,用于治疗何杰金氏病和绒毛膜上皮癌,对淋巴肉瘤、急性白血病、乳腺癌等也有一定疗效。与微管黏合,抑制微管合成作
  • 田纳西田纳西州(英语:State of Tennessee),位于美国南方,首府为纳许维尔,是美国音乐圣地,也是美国乡村音乐的中心。其他著名城市还有孟菲斯。美国2012年人口估算显示,田纳西州共有人口645.
  • 前-mRNA/不均一核RNA前信使RNA(英语:Precursor mRNA,简称为前mRNA、mRNA前体)是一种未成熟的单链信使核糖核酸(mRNA)。前mRNA是从细胞核中的DNA模板通过转录而合成的。前mRNA构成了不均一核RNA(或称为
  • 耶日·内曼耶日·内曼 (英语:Jerzy Spława-Neyman, 1894年4月16日-1981年8月5日)是一位波兰数学家和统计学家。1894年出生在俄罗斯帝国比萨拉比亚省宾杰里,前半生时间在波兰华沙的各个研究
  • 质体蓝蛋白质体蓝蛋白(英语:Plastocyanin)是一种会参与电子传递的重要铜蛋白。它以一个单体的形式存在,在维管束植物中约由99个氨基酸组成,分子量约为10,500Da。在光合作用中,质体蓝蛋白被当
  • 大沼泽地国家公园大沼泽地国家公园(Everglades National Park),是位于美国佛罗里达州南部的一座国家公园。大沼泽地国家公园内有十分丰富动植物资源。有当地独有的橡树、黄瓜、八角莲、巴婆、野