首页 >
词袋
✍ dations ◷ 2025-04-25 02:00:59 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 四氢大麻酚四氢大麻酚(Tetrahydrocannabinol,简称THC),又称Δ9-四氢大麻酚(Δ9-THC)、Δ1-THC(根据旧命名法),为大麻素之一,是大麻中的主要精神活性物质。四氢大麻酚最早由以色列雷霍沃特魏茨曼
- 排尿疼痛排尿疼痛、尿痛(英语:dysuria)是指在排尿过程中出现的疼痛现象,是与膀胱有关的症状(有时也作“下泌尿道症状”)。患者通常会形容排尿疼痛为“刺痛、灼烧、瘙痒”的感觉。该症状通
- 类人猿类人猿下目(学名:Simiiformes)是一类高等灵长类,由旧世界猴及猿组成。它们比原猴亚目的要大。类人猿下目分成三类。阔鼻小目于约4000万年前分支出来,只余下狭鼻小目留在旧世界。
- 制糖制糖是制造食糖的产业,原料来源为甘蔗或甜菜,因其产品的体积远小于原料,是一种原料区位的产业,目前生产糖最多的国家是古巴。全世界糖业的大规模发展与地理大发现有关,欧洲人在西
- 宇宙微波背景宇宙微波背景(英语:Cosmic Microwave Background,简称CMB,又称3K背景辐射)是宇宙学中“大爆炸”遗留下来的热辐射。在早期的文献中,“宇宙微波背景”称为“宇宙微波背景辐射”(CMBR
- SpaceX星舰SpaceX星舰(英语:SpaceX Starship)是由私人股权投资公司SpaceX推出的下一代发射载具,这一概念由伊隆·马斯克于2017年9月正式公布。SpaceX火星殖民系统(即星舰前身)的开发工作始于
- 共和游行2015年共和游行(法语:marches républicaines),是指在法国当地时间2015年1月10日至11日间,于各城市所举办的游行,其中以巴黎共和广场的规模最大。游行的目的是为了声援沙尔利周刊
- 法属印度洋诸岛法属印度洋诸岛(法语:Îles Éparses或Îles éparses de l'océan indien)包含印度洋中5组岛屿,分别为印度礁、欧罗巴岛、光荣群岛、新胡安岛、特罗姆兰岛。总面积38.6平方公里
- 限制性核酸内切酶限制酶(英语:restriction enzyme)又称限制内切酶或限制性内切酶,全称限制性核酸内切酶,是一种能将双股DNA切开的酶。切割方法是将糖类分子与磷酸之间的键结切断,进而于两条DNA链上
- 核苷酸基转移酶核苷酸转移酶(nucleotidyl transferase)是将核苷酸从一物质转移至另一物质的酶。包括末端核苷酸转移酶,DNA聚合酶,RNA聚合酶。这是一种在反应混合物中有任何碱基存在时能使DNA链