首页 >
词袋
✍ dations ◷ 2025-09-27 19:50:22 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 潜伏期疾病潜伏期是接触病原体(可以是微生物或者是化学制剂、辐射等)后,症状和体征有明显的表现前所经过的时间。疾病潜伏期可能短至只有几分钟,或者长达几十年(克雅氏病大概为30年)。潜
- 油粒体油粒体(英语:elaioplast, elioplast),又称油质体、造油体,是植物细胞中的一种质粒体,属于白色体,其主要功能为储存和合成脂质。油粒体的英文名称elaioplast来自古希腊文的ἔλαι
- 联合国教育、科学及文化组织联合国教育、科学与文化组织(法语:Organisation des Nations unies pour l'éducation, la science et la culture,缩写作 ONUÉSC ; 英语:United Nations Educational, Scient
- 语法学语法(英语:Grammar),也称文法,在语言学中指任意自然语言中句子、短语以及词等语法单位的语法结构与语法意义的规律,本质上即音义结合体之间的结合规律。对于语法的研究称为语法学
- 尼夫赫语尼夫赫语(自族称呼:Нивхгу диф)或称吉利亚克语(此名称源自满语gilyak),是一种孤立语言,有时归类于古西伯利亚语,通行于外满州的亨滚河(黑龙江支流)、库页岛北部与黑龙江下游
- object relations客体关系理论是一种精神分析理论,于1940至1950年代由英国心理学家罗纳德·费尔贝恩和梅兰妮·克莱因等人所开拓。不同于弗洛伊德理论,客体关系理论认为人并非寻求“驱力”的满
- 镇定剂镇静剂,也称作镇定剂(英语:Sedatives),是一个化学上的作用物,用作减少身体某一部分的机能或是活动,镇静剂有助于缓解人们的抑郁及焦虑;它们通常被用作治疗精神紧张的病者,镇静剂有利
- 辅酶A辅酶A(英语:coenzyme A,简称CoA、CoASH或HSCoA)是一种辅酶,值得注意的是其在合成和氧化脂肪酸的角色,和在三羧酸循环中氧化丙酮酸。所有基因组测序日期编码的酶,即利用辅酶A作为底
- 子子部,为汉字索引里为部首之一,康熙字典214个部首中的第三十九个(三划的则为第十个)。就繁体和简体中文中,子部归于三划部首。子部通常是从上、下、左、右方均可为部字,且无其他部
- 最大的资讯科技公司下表依营业额列出全球最大的信息技术公司。表中列出的公司主营业务均与信息技术相关,包括电脑硬件、软件、电子产品、半导体、互联网、通信设备、电子商务以及计算机服务等方