词袋

✍ dations ◷ 2025-11-09 00:02:39 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 红孩症夸休可尔症(英语:Kwashiorkor),即恶性营养不良,又称蛋白質缺乏症,台湾亦称作红孩儿症,是一种营养不良症,其致病原因尚有争议,目前普遍认为是由于蛋白质摄入不足而导致。此病症通常发
  • 阿普伽新生儿评分阿普伽新生儿评分(英语:Apgar Score)是美国女医生维珍尼亚·阿普伽(Virginia Apgar)在1952年发明的一种对刚出生的新生婴儿健康状况快速评核方法。阿普伽当时是在美国纽约执业的
  • 生殖医学人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学生殖医学(Reproductive medicine)是医学
  • 升糖负荷升糖负荷(GL)是指食物摄入后将如何升高人的血糖水平。 1个单位的升糖负荷约相当于吃1克葡萄糖的效果。升糖负荷是用升糖指数加权的食物中的可吸收的碳水化合物的量。升糖负荷
  • 放线菌素放线菌素D(英语:Actinomycin D或Dactinomycin,简称放线菌素,又名更生霉素)是从土壤中链霉菌属的细菌分离出来的放线菌素类多肽类抗生素中最重要的一种。 作为早期的化疗药物之一,
  • 光刻胶光刻胶(英语:photoresist),亦称为光阻或光阻剂,是指通过紫外光、深紫外光、电子束、离子束、X射线等光照或辐射,其溶解度发生变化的耐蚀刻薄膜材料,是光刻工艺中的关键材料,主要应用
  • 酒糟酒糟是一个多意词1、在中国某些地区也叫做酒酿、醪糟,是一种是由糯米或者大米经过酵母发酵而制成的一种甜酒。可以用和鸡蛋,汤圆等一起烧。也可以直接食用。2、米、麦、高粱等
  • 麦可·弗里德曼迈克尔·弗里德曼(英语:Michael Freedman,1951年4月21日-),美国数学家,主攻庞加莱猜想。他是1986年的菲尔兹奖得主,目前任职于加利福尼亚大学圣塔芭芭拉分校微软研究院和数学系。他
  • 威廉·史密斯威廉·史密斯(William Smith,1769年3月23日-1839年8月28日)是一位英国地质学家,他对地层学的发展有重要贡献,他在1815年编绘了最早的英格兰和威尔士现代地质图,很多由他命名的地层
  • 洪灾洪水是一种自然灾害,指河流、湖泊、海洋所含的水体上涨,超过常规水位的水流现象。洪水常威胁沿河、湖滨、近海地区的安全,甚至造成淹没灾害。洪灾是因自然降水过量或排水不及时