词袋

✍ dations ◷ 2024-11-05 21:55:53 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 花斑癣花斑癣(tinea versicolor;俗称汗斑),是常见的皮肤感染,主要由球型马拉色菌(Malassezia globosa)及秕糠马拉癣菌(Malassezia furfur)这两种真菌所引致。医学导航 · 真菌病真菌 ·
  • 粉笔河实验室粉笔河实验室,或称乔克河核子实验室(英语:Chalk River Laboratories)是位于加拿大安大略省的国家级实验室。始于1945年,主要从事核能相关的研究,像是研发加拿大重水铀反应堆。此外
  • .mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings:
  • 忽米忽米 ( 英式英文:centimillimetre、美式英文:centimillimeter ) 符号:cmm ,是一个长度单位 。 1忽米等于1米的十万分之一。现今这个长度单位已较少使用。日常可使用忽米的长度距
  • 生物高分子生物聚合物(英语:Biopolymer,又称为生物聚合体、生物多聚体或生物高分子)是由活的生物体产生的聚合物。因为他们是聚合物,生物聚合物包含有单体单元,相互之间以共价键相连以形成更
  • 元大都元大都,或称大都(突厥语称为汗八里,蒙古语:Ханбалиг,意即“可汗之城”),自元世祖忽必烈至元四年正月三十日(1267年2月25日)至元惠宗至正二十八年八月初二(1368年9月14日),为元朝
  • 弗莱福兰省弗莱福兰(荷兰语:Flevoland)是荷兰中部的一省。面积2,343平方公里。1986年1月1日建省,是荷兰第12省、最新的省份,分成6市。东北是弗里斯兰省、西南是北荷兰省、南是乌得勒支省、
  • 查尔菲马丁·查尔菲(Martin Chalfie,1947年1月5日-),美国科学家,因为发现和研究绿色荧光蛋白而获得了2008年的诺贝尔化学奖。查尔菲在芝加哥长大,是吉他手伊莱·查尔菲(1910—1996)和服装店
  • 法雷部落法雷人(英语:Fore),是生活在巴布亚新几内亚东高地省奥卡普区的巴布亚人,人口约20000人。1950年代的神经系统疾病库鲁病(哈哈病)在南方法雷人之中发现,在1957年至1960年,约1000人因此
  • 撒玛利亚救援会撒马利亚救援会(Samaritan's Purse),或译普善施,是一个总部位于美国北卡罗来纳州布恩的基督教福音派国际慈善机构。现任会长是葛福临。该组织的名称来自《新约》中好撒马利亚人