主题模型

✍ dations ◷ 2025-01-22 23:49:58 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 临床化学临床化学(英语:Clinical chemistry,亦被称为化学病理学、临床生物化学或医学生物化学)是临床病理学的领域之一,主要注重体液的分析。使用简单化学方法检测血液和尿液的学科是在19
  • 另见内文貂属(学名 Martes)是食肉目鼬科动物中的一属。大部分貂属动物都居住在树上,以松鼠为食,它们的食物还包括小鸟和蛋。貂在中国主要产于东北地区,有多个品种。
  • 金黄葡萄球菌金黄色葡萄球菌(学名:Staphylococcus aureus)为一种革兰氏染色阳性球型细菌。工业上利用金黄色葡萄球菌制备蛋白质A——抗激素化学分析中的细胞壁组成成分。金黄色葡萄球菌在显
  • 自然死亡非正常死亡在法医学上指由外部作用导致的死亡,包括火灾、溺水等自然灾难;或工伤、医疗事故、交通事故、自杀、他杀、受伤害等人为事故致死。与之相对的正常死亡,则指由内在的健
  • 婆罗米文婆罗米文(brāhmī),是除了尚未破解的印度河文字以外,印度最古老的字母,是婆罗米系文字如天城文、泰米尔文、孟加拉文、藏文的来源。最早的文献溯源于公元前3世纪。一般认为婆罗
  • 泰奥多尔·施旺泰奥多尔·施旺(德语:Theodor Schwann,1810年12月7日-1882年1月11日),德国动物学家。他在生物领域贡献巨大,包括发展了细胞学说,施旺细胞的发现和对胃蛋白酶的发现与研究。更进一步
  • 傅-克酰基化反应傅里德耳-克夫特化酰化反应(简称傅-克酰基化反应)是一种傅-克反应,在质子酸或路易斯酸(如三氯化铝)催化下,芳香性化合物与酰卤或酸酐发生的亲电子取代反应,为一改良的亲电子取代反应。
  • 奥格列汀奥格列汀,即Omarigliptin (MK-3102) ,是一种强效且长效的口服用抗糖尿病药,是一类DPP-4抑制剂。该药物致力于使得2型糖尿病患者能够将用药频率降低到一周一次。该药物由默克药
  • 软舌螺动物门软舌螺动物(学名:Hyolitha)是生活在古生代的一类神秘动物,具有小圆锥形的螺壳。这些物种目前都已全部灭绝;其化石一般只能保存锥壳、口盖和附肢三个部分,外壳为钙质成分,两侧对称。
  • 平话字平话字(Bàng-uâ-cê),也称作“福州话罗马字”(Hók-ciŭ-uâ Lò̤-mā-cê),是19世纪早期来福州的英美传教士根据福州话韵书《戚林八音》设计出的一种罗马化文字,英文也称作“Fo