词袋

✍ dations ◷ 2025-08-08 11:28:03 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 连接蛋白结构 / ECOD连接蛋白(Connexin,Cx)。在脊椎动物,由connexin组成的间隙连接通道(Gap Junction channel)介导相邻细胞之间离子、小分子营养物质交换及信号分子传播。哺乳动物发育早
  • 超抗原超级抗原(SAgs)是一类导致非特异性免疫的蛋白质。超级抗原非特异性地激活T细胞,导致T细胞克隆激活和大量细胞激素的释放。超级抗原被微生物抗原(包括支原体,细菌,病毒等等)作为可以
  • 虱子见内文虱毛目(学名:Phthiraptera)是原虱目和食毛目的合称,通称虱或虱子(英语:louse)。全世界约有3,000种。虱寄生于人体、其他哺乳动物(除了单孔目和蝙蝠外)和鸟类的身上。以人类为宿
  • GPnotebook家庭医生笔记(英语:GPnotebook)是英国为家庭医生(GP)所建的医学数据库。它是一本线上医学百科全书,提供全球临床医师立即的参考资源。家庭医生笔记数据库内建有超过三万篇资料页面
  • 非传统性爱传统性爱(conventional sex)或香草性爱(vanilla sex)在西方文化是指部分族群或次文化中认为最泛用的人类性行为,一般是指不包含BDSM或恋物癖等的性行为,有时也会有此一词语描述平
  • 发情周期发情周期,又名动情周期,是雌性有胎盘哺乳类动物拥有的一种经常性生理变化,由身体的性激素所诱导产生。自前一次排卵期至下一次排卵期之间的时间长度称为一个周期。动物体内的各
  • 负反馈机制负反馈(英语:negative feedback),是反馈的一种。是指系统的输出会影响系统的输入,在输出变动时,所造成的影响恰和原来变动的趋势相反;反之,就称为正反馈。另一种说法是系统在一个条
  • 白云石白云石是一种矿物,其化学成分为钙、镁的碳酸盐(化学式为CaMg(CO3)2),晶体属三方晶系的碳酸盐矿物。白云石的晶体结构与方解石类似,晶形为菱面体,晶面常弯曲成马鞍状,聚片双晶常见,多
  • 电磁炉电磁炉是一种使用电力的烹调工具,属于暗火煮食炉具。使用时炉身不会大量发热,是利用电磁感应加热(induction heating)使煮食器皿发热,炉身相对较低温和安全(炉身灼伤人的机会较低)
  • 配糖键糖苷键(英语:Glycosidic bond,旧称配糖键)是指特定类型的化学键,连接糖苷分子中的非糖部分(即苷元)与糖基,或者糖基与糖基。含有配糖键的物质称为糖苷(或配糖体)。根据与糖基异头碳原