首页 >
主题模型
✍ dations ◷ 2025-06-07 12:09:06 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- 砂眼砂眼可以指:
- 谷氨酰胺合成酶结构 / ECOD结构 / ECOD谷氨酰胺合成酶(英语:glutamine synthetase,GS)是一种控制氮代谢的酶。谷氨酰胺这种氨基酸,不仅被细胞用来合成蛋白质,也是用来运输氮的。自由的铵离子对生
- 蜜蜂花蜜蜂花(学名:Melissa officinalis),又名柠檬香脂草(Lemon balm)、柠檬香草、柠檬香蜂草,是唇形科蜜蜂花属的一个种,多年生草本,株高约40-45cm,原产温带的中东地区,随后遍及亚洲及地中海
- 大豆油大豆油(英语:Soybean oil)又称豆油、常见者多为大豆色拉油 ,是从大豆中提取的植物油脂,日常食用油。常用的提取的方法有两种:压榨法和浸提法,有时二者兼用。大豆提取豆油之后的下脚
- 苯乙烯苯乙烯也被称为乙烯基苯,是用苯取代乙烯的一个氢原子形成的有机化合物。室温下,苯乙烯是一种具有甜味的粘稠易挥发液体,但苯乙烯浓度过高时,气味就会变得令人不愉快。苯乙烯中,乙
- 化工化学工业是生产化学产品的工业。是一个多行业、多品种,为国民经济各部门和人民生活各方面服务的工业,是重工业的支柱。一般可分为无机化学工业、基本有机化学工业、高分子化学
- 美洲鲎美洲鲎(学名:Limulus polyphemus)又名大西洋鲎,是鲎科美洲鲎属的一种,也是美洲鲎属的唯一的现存物种。美洲鲎主要分布在墨西哥湾和北美洲东岸。主要的活动区域是特拉华湾。漂流的
- Nexus 9Nexus 9是一款由Google和HTC联合开发的平板电脑,也是Google Nexus系列的第4款Android平板电脑。这款平板采用8.9英寸4:3屏幕(分辨率2048x1536),而不是前3款Nexus平板所采用的16:
- 荷兰基督教民主联盟基督教民主呼吁(荷兰语:Christen-Democratisch Appèl,缩写为CDA)是荷兰的一个基督教民主主义政党。1880年起,许多天主教和新教政党一同活动,被称作“联盟”。1888年,他们筹组第一
- 女性诺贝尔奖由瑞典皇家科学院、瑞典学院、卡罗琳学院和挪威诺贝尔委员会每年颁发一次,分别授予在化学、物理学、文学、和平、生理学或医学和经济学领域作出杰出贡献的人士。除经