首页 >
词袋
✍ dations ◷ 2025-01-23 03:27:22 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 勒克瑙बाप तहसील घंटियाली capital勒克瑙(印地语:लखनऊ;乌尔都语:لكهنو)为印度北方邦首府,同时也是勒克瑙县(英语:Lucknow District)的行政中心,直至2001年人
- 格里高利圣咏额我略圣咏(拉丁语:Cantus Gregorianus)是西方基督教单声圣歌的主要传统,是一种单声部、无伴奏的天主教会宗教音乐。额我略圣咏主要是在第8世纪和第9世纪,法兰克人到达西欧和中欧
- 自然哲学自然哲学是现代自然科学的奠基,主要是思考人对于的自然界的哲学问题--包括自然界和人的相互关系、人造自然和原生自然的关系、自然界的最基本规律等。这当中不少理论,都奠下了
- 西伊比利亚语支西伊比利亚语支(West Iberian)是伊比利亚罗曼语支下属的一个人分支,包括阿拉贡语、西班牙语、拉迪诺语、阿斯图里亚斯-莱昂语、加利西亚-葡萄牙语等语言。西伊比利亚语支在12世
- 核质核质(英语:Nucleoplasm)是真核细胞中细胞核内除核仁外,所含的其他部分物质。核质是原生质的一种类型,它被核膜包裹。 核质包括染色体和核仁。 许多物质例如核苷酸(对于DNA复制等目
- 调味饭意大利调味饭(意大利语:risotto),又称“意大利炖饭”或“意大利烩饭”,是一道用高汤把米粒煮成奶油般浓郁质地的意大利经典料理。高汤通常以肉、鱼、或蔬菜为基底。许多炖饭会加
- Gasub2/subSsub3/sub硫化镓是镓的多种硫化物之一,化学式为Ga2S3。硫化镓可由金属镓和硫化氢在高温下反应制得。硫化镓可以缓慢在水中分解,在热水中迅速分解,并放出硫化氢。它和稀盐酸反应,也会生成
- 双中子双中子(Dineutron)是一种仅含有中子的核素,会从某些放射性元素中被从核中抛出,类似于中子发射,但其非常不稳定,半衰期约为10−22秒。若双中子与其他原子发生碰撞会造成其原子序不
- 玛丽·安宁玛丽·安宁(英语:Mary Anning,1799年5月21日-1847年3月9日)是一位英国早期的化石收集者与古生物学家。玛丽·安宁出生在英国南部多塞特郡的莱姆里杰斯。她15个月大时,曾与其他3个
- 罗兰弗兰克·舍伍德·罗兰(英语:Frank Sherwood Rowland,1927年6月28日-2012年3月10日),美国化学家,因“他们对大气化学的研究工作,特别是臭氧的形成与分解”,与马里奥·莫利纳、保罗·克