主题模型

✍ dations ◷ 2025-05-16 05:26:39 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 玻意耳-马略特定律波意耳-马略特定律(英语:Boyle's law,也称作Boyle–Mariotte law或Mariotte's law),在定量定温下,理想气体的体积与压强成反比。是由爱尔兰化学家罗伯特·波义耳,在1662年根据实验
  • Creative Commons Attribution 3.0 Unported知识共享许可协议(英语:Creative Commons license,或创用CC许可)是一种公共著作权许可协议(英语:Public copyright license),其允许分发受著作权保护的作品。一个创作共享许可用于一
  • 系统药理学系统药理学(Systems pharmacology)系将系统生物学知识应用到药理学中而产生的一门学科。该学科旨在阐明药物如何作用于肌体的各系统。和用一种特殊的蛋白质-药物反应来评价一
  • 著骨点病变著骨点病变(过去也称为:接骨点病变、附着部病变;英语:enthesopathy)是指著骨点(英语:entheses)(肌腱肌腱或韧带连接到骨骼的部位)产生病变。若这样的病变的病因是发炎,更精确的名字应是
  • 传播艾滋病罪传播艾滋病罪在许多国家都会被认为是一种犯罪,不论是故意或者由于疏忽大意传播艾滋病。有这种行为的人会被以传播艾滋病、谋杀、一般杀人、谋杀未遂、袭击等罪名控告。有的国
  • 喷出岩喷出岩是一种火成岩,也被称为火山岩,是由火山喷出的岩浆在地表迅速冷却凝固后形成的岩石,由于冷却速度很快,一般喷出岩的结构会形成细粒、隐晶,或形成玻璃质,经常包含有碎屑和斑晶
  • 菱铁矿菱铁矿是一种分布比较广泛的矿物,属铁的碳酸盐矿物,成分为碳酸亚铁(FeCO3)。因为它含有48%的铁和不含有硫或磷,它是一个有价值的铁矿物。锌,镁和锰通常替代铁造成菱铁矿-菱锌矿,菱铁
  • 行政机关行政机关,又称行政机构、行政部门,其工作是对组织进行日常的管理并施行法律政策等相关活动,是三权分立中的其中一部分。广义上,行政定义为负责国家政策的执行的政府机构。狭义上
  • Buruli, or Bairnsdale, ulcer布如里氏溃疡(Buruli ulcer),又称为班兹达溃疡(Bairnsdale ulcer)、塞尔氏溃疡(Searl's ulcer(英语:Searl's ulcer))、丹特里溃疡(Daintree ulcer),为一种由溃疡分枝杆菌(英语:Mycobacteriu
  • MoOsub2/sub二氧化钼是+4价钼的氧化物,化学式为MoO2。它是紫色的金属导体。它在自然界以罕见的秋格瑞诺夫矿(英语:tugarinovite)的形式存在。二氧化钼可以由下述方法制备:单晶可通过碘参与的