主题模型

✍ dations ◷ 2025-02-23 14:05:16 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 哈拉尔德·楚尔·豪森哈拉尔德·楚尔·豪森(德语:Harald zur Hausen,1936年3月11日-),德国医学科学家与荣誉退休教授,主要研究领域为病毒学,2008年诺贝尔生理学或医学奖得主之一,其于1970年代研判人类乳突
  • 微小噬菌体科微小噬菌体属 Microvirus 螺旋体微小噬菌体属 Spiromicrovirus 蛭弧菌微小噬菌体属 Bdellomicrovirus 衣原体微小噬菌体属 Chlamydiamicrovirus
  • 放射性污染放射性物体或放射源缺少防护措施,会导致放射性污染。核工业中会产生放射性废弃物、废水、废气等污染物。当核电站发生事故时,也会导致严重的环境污染,典型案例如切尔诺贝利事件
  • 广场恐怖症广场恐怖症是一种焦虑症,其特征是人们认为环境不安全并且不容易逃离而产生焦虑症状。 这些情况可能包括开放空间、公共交通、商场,或仅仅是在自家外 ,在这些情况下可能会导致恐
  • 纤毛纤毛(拉丁语:cilium,复数为cilia)是真核生物细胞的细胞器,是一种尾状的突出物,伸向细胞外大约5到10微米。支撑纤毛的亚显微结构是微管,微管连接在基体之上。 动物细胞利用纤毛拨动
  • 课程教程是一个精心设计的教学计划,藉以向学生传授社会认为重要的学识及传统的价值观。课程不限于课堂内,亦可以包含课堂以外的非规范学习。 广义地讲,课程是学习者从无知通过学习
  • 添加剂添加剂可以指:
  • 埃黎耶·埃黎赫·梅契尼可夫埃黎耶·埃黎赫·梅契尼可夫(乌克兰语:Илья Ильич Мечников,1845年5月16日-1916年7月16日),出生于乌克兰,俄国微生物学家与免疫学家,免疫系统研究的先驱者之一。曾
  • 氮化汞氮化汞,又称二氮三化汞,是一种无机化合物,化学式Hg3N2,为折线型分子,结构式Hg=N-Hg-N=Hg,稳定性极差,是一种感度很高的爆炸物。氧化汞与氨气在10°C下反应,再加热到150°C,最后用20%
  • 非同源性末端接合非同源性末端接合 (NHEJ) 是一种修复双股DNA断裂的方法。之所以是非同源性,是因为断裂的两段是被直接接上,而非使用了一个同源的模板。与之对比的同源性重组则需要一个同源序