首页 >
主题模型
✍ dations ◷ 2025-06-27 19:57:49 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- m·ssup−1/sup米每秒是速度(矢量)和速率(标量)的单位,属于国际单位制导出单位,可写作㎧(U+33A7 (13223)),m/s、m·s−1或mps。天文学上常以单位更大的千米每秒为单位,1 km/s = 1,000 m/s,缩写为kps。
- 欧亚非大陆亚非欧大陆、亚欧非大陆或欧亚非大陆指的是亚洲、欧洲、非洲三个大陆的合称。在地理上,直到苏伊士运河开通以前,三个大陆是相连的。在文化上,欧洲、亚洲和北非的关系比较接近,特
- 公共工程管理局公共工程管理局(英文:Public Works Administration, PWA),为美国罗斯福新政时期(1933年-1939年)一个联邦机构,其由全国产业复兴法案(National Industrial Recovery Act)授权实施,旨在
- 本体语言在计算机科学和人工智能领域,本体语言(ontology language、又称为本体论语言)是指用于构建本体的形式语言。此类语言允许对有关特定领域的知识加以编码,且常常还包括为处理这些
- 遗传系谱学遗传系谱学或称遗传家谱学(英语:genetic genealogy)是应用遗传学来研究传统的家谱学。利用DNA的分析,建立出个体之间的系谱关系。可用于追溯母系或父系祖先、民族起源、生物地理
- 杰夫戴维斯县杰夫·戴维斯县(Jeff Davis County, Georgia)是美国乔治亚州东南部的一个县。面积869平方公里。根据美国2000年人口普查,共有人口12,684人。县治哈兹勒赫斯特 (Hazlehurst)。杰
- 华华(英语:Corona1)为一种自然光源透过薄云中的微细水滴所产生的特殊光象2。在太阳周遭形成一圈彩虹光环即为日华(Solar Corona);而在月亮旁绕成一圈的彩虹光环即为月华(Lunar Corona
- 彼得·谢弗彼得·谢弗爵士(Sir Peter Levin Shaffer,1926年5月15日-2016年6月6日),二战后当代英国著名的剧作家。先后在书店、出版社工作,担任过文学评论和音乐评论。其主要作品有《上帝的宠
- 国防高等研究计划署国防先进研究计划署(英语:Defense Advanced Research Projects Agency,缩写:DARPA),前称先进研究计划署(英语:Advanced Research Projects Agency,缩写:ARPA),是美国国防部负责研发军用
- 锌锰电池碳锌电池,又称碳锌干电池、碳性电池、碳性电芯、干电池、酸性锌碳电池。碳锌电池有一层由锌构成的外壳,作为电池的负极。碳锌电池是从液体Leclanché电池发展而来。传统或一般