词袋

✍ dations ◷ 2025-06-27 22:49:44 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 汤玛斯·卡弗利尔-史密斯汤玛斯·卡弗利尔-史密斯(Thomas Cavalier-Smith,1942年10月21日-)是一位英国演化生物学家及牛津大学动物学系教授。发表过许多原生生物的分类研究,主要贡献在于提出六大界来区分
  • 面瘫颜面神经麻痹为常见的神经麻痹现象,与颜面神经有关的结构在出现问题后,都可能涉入。颜面神经的路径相当长且相对的迂回,所以有相当多的原因会造成颜面神经麻痹。最常见的为贝尔
  • 红酒葡萄酒是古希腊人日常生活中最常饮用的饮料之一。古希腊时代已经出现了啤酒,但当时人认为这是下等人才喝的。最早关于葡萄酒的记载出现于《荷马史诗》中,当攻陷特洛伊的英雄奥
  • 火山肺硅病超微粒硅酸盐尘埃沉着症(英语:Pneumonoultramicroscopicsilicovolcanoconiosis),简称火山矽肺病,是肺尘病的一种。矽肺病越来越多地成为许多行业的关键健康话题,因为其职业原因已
  • 博多语博多语(बर' )是印度阿萨姆邦的官方语言之一(该邦的主要官方语言是阿萨姆语),属于汉藏语系的萨尔语群,接近中国的景颇语。这个语言有两个声调,音节结构简单,没有复辅音。
  • 塞易斯坐标:30°57′53″N 30°46′6″E / 30.96472°N 30.76833°E / 30.96472; 30.76833塞易斯是尼罗河三角洲上的一个古埃及城市,其地理位置为北纬30°58',东经30°46'。早在古王
  • 水源性荨麻疹水源性荨麻疹(Aquagenic urticaria)也称为水过敏(water allergy)或是水荨麻疹(water urticaria),是罕见的物理荨麻疹(英语:physical urticaria)症状。有时会将水源性荨麻疹视为过敏,不
  • 十米十米亦称公丈(dekameter),是长度计量单位,是国际单位制之一,符号为dam。该长度单位在实际上的使用很少,少数的使用如在水文学中,测量重力位高度的工具。米(m) · 尧米(Ym) · 泽米(Zm) ·
  • 生物高分子生物聚合物(英语:Biopolymer,又称为生物聚合体、生物多聚体或生物高分子)是由活的生物体产生的聚合物。因为他们是聚合物,生物聚合物包含有单体单元,相互之间以共价键相连以形成更
  • 花旗参花旗参(学名:Panax quinquefolius)是人参的一种。原产于美国北部到加拿大南部一带,以威斯康辛州为主。美国旧称为花旗国,花旗参由此得名。此外,它又称为洋参、西洋参、野山泡参 、