首页 >
主题模型
✍ dations ◷ 2025-08-08 20:12:49 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- 血氧饱和仪血氧饱和仪(英语:Pulse Oximeter,简称:血氧仪),是一种主要为测量病人的血液中的脉搏氧饱和度的仪器。最初的一台血氧饱和仪由G.A. Millikan于20世纪40年代研发成功。自1980年代,美
- 缺血性缺血(Ischemia)是描述组织供血量不足,进而导致缺氧及养分的情形。缺血一般由血管问题所导致,也可能因血管收缩、血栓形成,或栓塞,导致局部贫血所导致。缺血除了导致缺氧以外及缺乏
- PET正电子发射计算机断层扫描(英语:Positron emission tomography,简称PET)是一种核医学临床检查的成像技术。PET技术是当前唯一的用解剖形态方式进行功能、代谢和受体显像的技术,具
- 卢·蒙特利卢·蒙特利(英语:Louis J. Montulli II)是一位以开发网页浏览器而闻名的程序员。在1991年和1992年,他与堪萨斯大学的迈克尔·格罗贝兹和查尔斯·雷扎克合作开发了一个名为Lynx的
- 尼尼微坐标:36°21′34″N 43°09′10″E / 36.35944°N 43.15278°E / 36.35944; 43.15278幼发拉底河 · 底格里斯河乌鲁克 · 乌尔 · 埃利都 启什 · 拉格什 · 尼普尔 阿卡
- 植物学名命名法学名(scientific name),按字面即为科学名,也就是在科学,特别是生物学上使用的名称。此为一正式、广为人所接受的植物(生物)名称,此名称受到国际植物命名法规(ICBN)之规范。生物物种依
- 意大利行政区划意大利政区根据1948年宪法规定获得了一定程度的地区自治权,这条宪法条文是:为承认、保护并促进地方自治,保证在国家水平的服务尽可能分散管理,以适应自治和分权法律和法规的建立
- span class=chemf style=white-space:nowrap;Csub21/sub二十一烷(英语:heneicosane)是含有21个碳原子的直链烷烃,化学式为C21H44或CH3(CH2)19CH3,外观为无色蜡状固体,化学性质相当安定。其衍生物二十一烷酸(CH3(CH2)19COOH)可做为制备脂
- 肌纤维肌细胞也称为肌纤维,可以在肌肉组织中见到,这些细胞型态上属于长型且管状,肌肉细胞是从肌肉母细胞发育而来。经过肌肉生成(英语:Myogenesis)后肌细胞会特化成数种型态,包括骨骼肌、
- 拜尔约翰·弗雷德里克·威廉·阿道夫·冯·拜尔(德语:Johann Friedrich Wilhelm Adolf von Baeyer,发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Lib