主题模型

✍ dations ◷ 2025-04-25 04:57:46 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 盲鳗见内文盲鳗亚纲(学名:Myxini)是一类海洋脊椎动物,在食物链上属于食腐动物。过去是无颌总纲之下的一目,现在则是无颌总纲下的圆口纲下的一亚纲。盲鳗广泛分布于全球三大洋的温带、
  • 塔格糖塔格糖(英语:Tagatose)在分类上属于己糖与酮糖,为D-果糖四号位碳所对应的差向异构体,存在于一些树胶的水解产物中。甜度与蔗糖相似,而产生的热量只为蔗糖的三分之一,因此可作为低热
  • 肝肾综合症肝肾综合征(英语:Hepatorenal syndrome,缩写HRS)是发生于肝硬化或急性肝衰竭患者的致命症状,患者的肾功能会快速恶化。虽然一些治疗方法(如透析)能延缓肝肾综合征的病程,但肝肾综合
  • α肾上腺素受体肾上腺素能受体(英语:Adrenergic receptors,或称为肾上腺素受体)是一类接受儿茶酚胺类物质刺激的代谢型G蛋白偶联受体,所接受的儿茶酚胺类主要是去甲肾上腺素以及肾上腺素。尽管
  • 热成像热影像仪又称热像仪或红外线热成像仪等。是一种对物体散发出的红外线进行感光成像的设备,这种设备被广泛运用在军事、消防、医疗、工业生产、海关检查等领域。热成像仪是从对
  • 罗伯特·泰弗士罗伯特·泰弗士(英语:Robert L. Trivers,/ˈtrɪvərz/,1943年2月19日-),美国进化论学家和社会生物学家,罗格斯大学人类学与生物科学教授。他提出了互利主义(英语:reciprocal altruism
  • 地区希腊地区 (希腊语:γεωγραφικά διαμερίσματα)是希腊传统的分区,在1987年以前也是正式的分区。下分54省。
  • 法国本土法国法国本土(法语:France métropolitaine),或者国际法上称法国欧洲领土(Territoire européen de la France),是指法兰西共和国位于欧洲的部分。其包括了欧洲大陆部分以及如科西
  • 三皇五帝三皇五帝是中国传说中的君主。从三皇时代到五帝时代,被称为传说时代,在夏朝之前。其历年无确数,最少数千年。近代考古在中原地区发现的裴李岗文化及贾湖文化等,从7000年前至1000
  • OPEC石油输出国组织(英语:Organization of the Petroleum Exporting Countries,OPEC,发音为/ˈoʊpɛk/ OH-pek;简称欧佩克、油盟或油组)是由伊朗、伊拉克、科威特、沙特阿拉伯和委内