首页 >
词袋
✍ dations ◷ 2025-06-07 06:28:38 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 伊利湖伊利湖(英语:Lake Erie)是北美洲五大湖之一,也是世界第十三大湖。伊利湖的名字来源于原在南岸定居的印地安伊利部落。伊利湖的面积有24,000平方公里,平均深度19米,蓄水量483立方公
- 芋螺芋螺属(学名:Conus)是一种肉食性的腹足纲软体动物的属。其外形类似圆锥,许多品种的芋螺外壳上都有鲜艳的花纹,主要分布在热带。所有的芋螺都会分泌毒素,因此在处理活的芋螺时需非
- 构象异构构象异构(英语:Conformational isomerism,又译结构异构或构形异构,指由于原子环绕于化学键四周,而导致结构式相同,却具有化学构象或构象异构体之差异的分子现象。有三种效应,会使某
- 二苯基乙二酮二苯基乙二酮,也称联苯甲酰、苯偶酰、联苯酰、二苯酰,化学式为(C6H5CO)2,常缩写为(PhCO)2。属于二酮,用作有机合成的中间体。紫外光照射下,二苯基乙二酮裂解为自由基,引发聚合物链
- 氨酰tRNA合成酶胺酰-tRNA合成酶(aminoacyl tRNA synthetase,通常简写为aaRS)是一类催化特定氨基酸或其前体与对应tRNA发生酯化反应而形成胺酰tRNA的酶。由于每一种的氨基酸与tRNA的连接都需要
- 阿特金森县阿特金森县(英语:Atkinson County)是美国乔治亚州南部的一个县,由划出土地于1917年成立。面积891平方公里。根据美国2000年人口普查,共有人口7,609人,2005年增至8,030人。县治皮尔
- 石油巨头石油巨头(英语:big oil)一般指世界上资本或企业规模巨大的石油集团公司,而最大的五至六家石油集团公司,亦被称为“石油超级巨头”(英语:supermajor或super major),包括英国石油公司、
- 政教分离法案1905年法国政教分离法(法语:loi du 9 décembre 1905 concernant la séparation des Églises et de l'État)由法兰西第三共和国众议院于1905年12月9日通过的一项法律。该法
- 纽约书评(2011)《纽约书评》(The New York Review of Books,缩写为NYRB)是一本在美国纽约市发行的半月刊(确切地说是每年二十期,学期段每月两期,寒暑假每月一期,显然是为了配合高校师生的生
- 表面涂覆技术表面处理技术(Surface treatment)指的是通过对材料的表面进行改性或者涂覆一层其他材料实现对基底材料的保护。材料的损坏和失效大多是从表面破损开始的,因此针对材料的表面处