词袋

✍ dations ◷ 2024-12-22 20:59:46 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 抗生素滥用抗生素滥用(或称抗生素误用、过度使用抗生素),是指对公共健康造成严重影响的抗生素滥用或过度使用。对抗生素产生抗药性的细菌正在成为日益严重的威胁,并且变得越来越普遍。这种
  • 结晶紫结晶紫(英语:crystal violet)或称龙胆紫(gentian violet),也称“甲基紫10B”,是一种三苯甲烷系染料。使用于组织学染色,也用在革兰氏染色试验中以区别不同类的细菌。具有抗菌、抗真
  • 卢旺达问题国际刑事法庭卢旺达问题国际刑事法庭(英语:International Criminal Tribunal for Rwanda, ICTR),简称卢旺达刑庭,是一个于1994年11月由联合国安全理事会以第955号决议所成立的国际法庭。该法
  • 塞杰斯塔塞杰斯塔(古希腊语:Ἕγεστα,转写:Egesta;西西里语:Siggésta)是古希腊城市之一,由伊利米人创建,位于意大利西西里岛西北部。塞杰斯塔在历史上长期和塞利农特对立。在公元前580年
  • 联邦通信委员会联邦通信委员会(英语:Federal Communications Commission,FCC)是一个独立的美国联邦政府机构,由美国国会法令所授权创立,并由国会领导。联邦通信委员会是由1934年通信法案所创立,取
  • 吸口虫纲吸口虫纲(学名:Myzostomida)是环节动物门下的一个纲,生活于海洋。物种数量较少,其身体扁平,呈圆形状,腹部有数对刚毛,因此有学者将之列为多毛纲下的一个目。从外表看不出吸口虫有分
  • 楚科奇自治区楚科奇自治区(俄语:Чуко́тский автоно́мный о́круг,罗马化:Chukotsky avtonomny okrug;楚科奇语:Чукоткакэн автономныкэн о
  • 鹿特丹大学鹿特丹伊拉斯姆斯大学(荷兰语:Erasmus Universiteit Rotterdam),也译作鹿特丹伊拉斯谟大学,位于荷兰南部城市鹿特丹,是享誉世界的著名公立大学。该校以荷兰中世纪著名的人文主义思
  • 狂牛病牛海绵状脑病(英语:bovine spongiform encephalopathy,缩写:BSE),俗称疯牛症(mad cow disease),是由传染因子引起,属于牛的一种进行性神经系统的传染性疾病,此疾病是一种传染性海绵状脑
  • TNF通路细胞凋亡(英语:apoptosis,源自希腊语:απόπτωσις,有“堕落、死亡”之意),为一种细胞程序性死亡。相对于细胞坏死(necrosis),细胞凋亡是细胞主动实施的。细胞凋亡一般由生理或