主题模型

✍ dations ◷ 2024-12-22 18:07:42 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • GABAsubA/subRGABAA受体(又称作γ-氨基丁酸A型受体)是一种离子型受体,而且是一类配体门控型离子通道。此通道的内源性配体是一种被称为GABA的神经递质。GABA是中枢神经系统里的一种主要的递
  • 黏液素黏液素(英语:Mucins,或简称黏素)是一类高分子量蛋白家族,且高度糖基化(属于糖缀合物(英语:glycoconjugate)),在大部分后生动物的上皮组织中都有表达。黏液素的特色是它可以构成胶状物;因
  • 叶黄素叶黄素(Lutein)是目前已经发现的六百多种天然类胡萝卜素中的一种,属于光合色素,分子式为C40H56O2。一般在绿叶的蔬菜中可以找得到。叶黄素本身是一种抗氧化物,并可以过滤蓝光等有
  • 火山弧火山弧为链状的火山群,形成于隐没板块之上。成群的火山在海上形成火山弧。通常,较重的板块隐没到另一个板块之下时喷出岩浆形成与隐没带平行的火山群岛或山脉。隐没的板块饱含
  • 微米 (软件)微米(英语:WeMeet)是一款由杭州酷跃科技有限公司研发的类似于WeChat的社交IM应用,主打组群聊天与“阅后即焚”功能。
  • 衰变能量放射性或辐射性是指某元素的放射性同位素从不稳定的原子核自发地放出射线(如α射线、β射线、γ射线等)而衰变形成另一种同位素(衰变产物),这种现象称为放射性。衰变时放出的能量
  • 酯类.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings:
  • 复数N ⊆ Z ⊆ Q ⊆ R ⊆
  • dAMP去氧腺苷单磷酸(Deoxyadenosine monophosphate,dAMP)是源自一种常见的核酸腺苷三磷酸(ATP),但失去了五碳糖2号碳上的-OH基。
  • 冶金冶金学(英语:metallurgy)属于材料科学,是研究从矿石中提取金属,并用各种加工方法制成具有一定性能的金属材料的学科。冶金学也研究金属、金属互化物或其混合物(称为合金)的物理及化