首页 >
主题模型
✍ dations ◷ 2025-09-18 23:09:20 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
相关
- 系统生物学系统生物学(Systems biology),是一个试图整合不同层次信息以理解生物系统如何行使功能的学术领域。通过研究某生物系统各不同部分之间的相互关系和相互作用(例如,与细胞信号传送
- 留职停薪根据雇主的命令,停权或停职是离开工作场所的有薪或无薪时间,以便进行工作场所调查。对于学校,为暂时性禁止某位学生上课。当需要将员工从工作地点撤职以避免妨碍调查时,也可以使
- 长臂猿长臂猿科(学名:Hylobatidae),哺乳纲灵长目的一科,即小型猿类。传统分类法只包括长臂猿属一属,现今根据其遗传演化之间的时间,可分为四属,分别为:长臂猿属(44对)、白眉长臂猿属(38对)、黑
- 食肉动物肉食性动物是指主要吃肉类的动物,跟草食性动物相较下肉食性动物有较好的立体视觉,其双眼多集中向前。肉食动物也可以吃腐肉或吸血。哺乳纲食肉目的动物大都是肉食性动物,但也有
- 亨利·陶布亨利·陶布(德语:Henry Taube,1915年11月30日-2005年11月16日),化学家。他的研究兴趣是氧化还原反应,其中对金属配位化合物电子转移机理的研究更使得他获1983年诺贝尔化学奖。父母
- 厄尔-卢瓦省厄尔-卢瓦省(法语:Eure-et-Loir)是法国中央-卢瓦尔河谷大区所辖的省份。该省编号为28,省会为沙特尔。厄尔-卢瓦省的名称来源于其境内的厄尔河和卢瓦河。由于卢瓦河的法语名称(Loi
- 泰奥菲尔·戈蒂耶皮埃尔·儒尔·特奥菲尔·戈蒂埃(Pierre Jules Théophile Gautier,1811年8月30日-1872年10月23日),法国十九世纪重要的诗人、小说家、戏剧家和文艺批评家。他出生在法国南部小城
- 皮埃尔·赖伐尔皮埃尔·赖伐尔(法语:Pierre Laval,1883年6月28日-1945年10月15日),法国政治家,曾任总理。1883年6月28日生于沙泰勒东。1935年6月-1936年1月两次组阁。第二次世界大战期间,支持菲利普
- 对映体过量百分数对映体过剩率,常用ee表示,即enantiomeric excess的缩写。定义为在对映体混合物中一个异构体a比另一个异构体b多出来的量占总量的百分数。算式如下:对映体过剩率用来表示一种手
- 微卫星微卫星(英语:Microsatellite,亦称为简单重复序列(英语:Simple Sequence Repeats,SSRs)或短串联重复序列(英语:short tandem repeats,STRs))是多型性的一种类型。指两个或多个核苷酸重复