词袋

✍ dations ◷ 2025-04-03 16:35:52 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 俄勒冈俄勒冈州(英语:State of Oregon)是美国的一个州,位于美国西北的太平洋沿岸,西临太平洋、北接华盛顿州、东面是爱德荷州、南面是加利福尼亚州和内华达州。2012年人口3,899,353。州
  • 欧洲环境署本文是 欧洲联盟的政治与政府 系列条目之一欧洲环境署是欧洲联盟建立的一个监测和分析欧洲环境的机构,总部设在丹麦首都哥本哈根。它由欧共体条例 1210/1990 所建立而成,并经
  • 全身性发炎反应症候群全身炎症反应综合症(Systemic inflammatory response syndrome ,SIRS)是一个影响到整个身体的炎症反应。它是身体的应激性反应,是机体应对一种感染性或非感染性因素的方式。虽
  • 君士坦丁赠礼君士坦丁献土(拉丁语:Donatio Constantini),是一份伪造的罗马皇帝法令,内容是公元315年3月30日,罗马皇帝君士坦丁大帝签署谕令,将罗马一带的土地赠送给教宗。一般认为这份文件于8世
  • 健康素养健康素养(Health literacy)也称为健康识读,是有能力获得医疗卫生资讯,并且阅读、理解,进而应用此资讯来进行健康相关的决定,也可以依照指示接受治疗。有许多有关健康素养的定义。
  • 苯甲酸苯甲酸又称安息香酸、苄酸(英语:Benzoic acid),结构简式为C6H5COOH,是苯环上的一个氢被羧基(-COOH)取代形成的化合物。苯甲酸一般常作为药物或防腐剂使用,有抑制真菌、细菌、霉菌生
  • 岩石岩石是由一种或几种矿物和天然玻璃组成的,具有稳定外形的固态集合体。由一种矿物组成的岩石称作单矿岩,如大理岩由方解石组成,石英岩由石英组成等;有数种矿物组成的岩石称作复矿
  • 电流源电流源,即理想电流源,是从实际电源抽象出来的一种模型,其端钮总能向外提供一定的电流而不论其两端的电压为多少,电流源具有两个基本的性质:第一,它提供的电流是定值I或是一定的时
  • 生铁生铁是碳的质量分数超过2%,并且其他元素的含量不超过表1中所规定的极限值的铁-碳合金。a 含量比该极限值高的材料是铁合金。b 凡规定有最低含量或者含量超过表2注b中段落4)所
  • ΟOmicron(大写Ο,小写ο,中文音译:奥密克戎),是第十五个希腊字母。Omicron 字面上的意思是“小的 O”(o mikron),以便与ω“o mega,大 O”区别。它在希腊数字中代表70。大写Ο用于:小写