首页 >
主题模型
✍ dations ◷ 2025-11-22 09:58:03 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- 恶梦恶梦(nightmare),亦称噩梦或梦魇,指人在睡眠时做的令人感到恐惧的梦,有时伴有胸闷气短等难受的感觉。恶梦主要有梦魇、被追杀和人悬空、人下落三大类型,这三大类型的恶梦分别是因
- 暴食障碍过胖暴食症,简称暴食症,是一种精神疾病。过胖暴食症病人的症状如下:非体重过重的人应避免节食以免加重暴食症。这里的节食指的是少吃几餐、每天吃不到一天的饮食量或挑食不吃
- 欧亚大陆欧亚大陆或亚欧大陆是亚细亚洲大陆和欧罗巴洲大陆的合称。面积5473.8万平方公里。亚、欧二大陆单从地理学方面来归类应属同一个、地球表面面积最大的洲。亚洲与欧洲的分别主
- 肩难产肩难产(英语:Shoulder dystocia),系指产妇分娩时,婴儿头部已伸出来,但肩前却卡在产妇的耻骨弓之情形,婴儿的头部缩回阴道,就像乌龟一样,称之为“乌龟征”(turtle sign)。肩难产的并发症
- 肠腺利贝昆氏腺是位于十二指肠壁和空肠壁的一种外分泌腺,在不同的位置,其功能不尽相同。
- 狭义相对论狭义相对论(英语:Special relativity)是由爱因斯坦、洛仑兹和庞加莱等人创立的,应用在惯性参考系下的时空理论,是对牛顿时空观的拓展和修正。爱因斯坦在1905年完成的《论动体的电
- 第四军医大学中国人民解放军空军军医大学,简称空军军医大学,对外又称中国人民解放军第四军医大学,本部位于陕西省西安市,隶属中国人民解放军空军,是为军队培养高、中层次医学专业人才的全国重
- 归正宗归正宗(英语:Reformed church)也称加尔文宗、更正宗、改革宗,是基督新教的宗派之一。狭义的归正宗(Continental Reformed church)即欧洲的加尔文主义教会,广义的归正宗(Reformed chu
- 皇家爱乐乐队皇家爱乐乐团(英语:Royal Philharmonic Orchestra,简称英语:RPO)是以伦敦为据点的管弦乐团,英格兰最顶级的管弦乐团之一。皇家爱乐乐团由汤玛士·毕勤成立于1946年,并在这一年举办
- 官方文字官方文字是宪法或其他适用的法律所指定的法定文字。类似官方语言,但官方文字较为罕见,主要是当官方语言有多过一套文字时,才需要官方文字。由于对这些语言来说,人们使用那一套文
