主题模型

✍ dations ◷ 2024-11-05 17:33:31 #主题模型
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

相关

  • 司美匹韦司美匹韦(英语:Simeprevir),是一种抗病毒药物,常与其他药物并用治疗丙型肝炎。本品主要用于治疗丙型肝炎第一及四型基因型,常见的市售药名为奥利西奥(英语:Olysio)。可并用的药物有索
  • 色诺芬色诺芬(Ξενοφών,前427年-前355年)雅典人。军事家,文史学家。他以记录当时的希腊历史、苏格拉底语录而著称。色诺芬的出生日期不详。考古学者认为,公元前431年他出生于雅典
  • 有序对在数学中,有序对是两个对象的搜集,使得可以区分出其中一个是“第一个元素”而另一个是“第二个元素”(第一个元素和第二个元素也叫做左投影和右投影)。带有第一个元素a和第二个
  • 垂体腺瘤垂体瘤(英语:pituitary tumours)是发生于脑下垂体的肿瘤,70%为厌色细胞瘤,其次为嗜酸细胞瘤和混合瘤(含有嗜酸和厌色两种细胞),嗜碱细胞瘤较罕见。从生物化学角度讲,催乳腺瘤(prolacti
  • 雪儿雪儿(英语:Cher,1946年5月20日-),是一位美国女歌手和演员。她在音乐、电视剧和电影界成就包括了一座奥斯卡金像奖、一座葛莱梅奖、一座艾美奖和三座金球奖等。她早期与她搭档及丈
  • 多巴胺β羟化酶n/an/an/an/an/an/an/an/an/an/a多巴胺β羟化酶 (英语:Dopamine β-hydroxylase,简称DBH)是一种多巴胺转化为去甲肾上腺素的酶。多巴胺β羟化酶是一个由四个相同亚基组成的290千
  • 联合国安理会常任理事国联合国安全理事会常任理事国是联合国安全理事会中的常任成员(俗称五常),五个创始成员国是二战期间同盟国中的五大国。其中,中国和俄罗斯的代表政权曾有所改变。中国原由中华民国
  • 维尔塔宁阿尔图里·伊尔马里·维尔塔宁(芬兰语:Artturi Ilmari Virtanen,1895年1月15日-1973年11月11日),芬兰化学家,1945年获诺贝尔化学奖。1895年1月15日生于芬兰赫尔辛基。1924—1948年,
  • 利兹大学坐标:53°48′26″N 1°33′6″W / 53.80722°N 1.55167°W / 53.80722; -1.55167 利兹大学(英文:University of Leeds)位于英国利兹,为英格兰西约克郡的公立研究型大学。它建立
  • 无恒变形虫无恒变形虫(学名:Polychaos dubium),又称无恒多卓变虫,是一种生活在淡水中的变形虫,其基因组由多达6700亿碱基对组成,是已知生物中基因组最庞大者,惟此测量结果目前有所争议。无恒变