词袋

✍ dations ◷ 2024-07-05 11:33:09 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 豆类豆类指双子叶植物中离瓣植物豆科的泛称,因而概称为豆科植物,亦或称豆子,指其使用的种子。本文特指供作食用或作为动物饲料的种类。豆类植物种类极多,全世界有近二万种,大部分用作
  • 蓝光疗法光照治疗或光线治疗(英语:Light Therapy 或 Phototherapy)指的是日光或是以特定波长的光(例如:激光光)为光源来做治疗,本篇主要介绍以紫外线(UV)为光源的治疗方式。所谓UV是指光波长
  • 母公司控股公司(英语:Holding company),或称握股公司、控制公司(Controlling company)、母公司(Parent company),为以拥有其他公司多数控制股权的方式,掌握其管理及营运的公司。一般而言,控股
  • 语音在语言学中,语音(英语:phone)可以被认为是用来表示语言的声音符号(即语言的物质外壳),也可以被定义为是人的发音器官所发出来的具有一定意义的声音。在语音学与音韵学好中,语音一词
  • 自然发生自然发生或者异种生成是一套关于物种起源的思想,认为现今的生物体是在无机物中自然产生的,此理论目前普遍不被科学界所接受。在这个逻辑下,生物如跳蚤可能来自无生命物质如灰尘
  • 山珊瑚山珊瑚(学名:Galeola faberi)为兰科山珊瑚属下的一个种。
  • 假定性生物化学假定型生物化学(英语:Hypothetical types of biochemistry)不同于现有的生物化学形式的推测,在科学上是可行的,但现在不能证明实际存在。地球上已确认的生物物种通常使用含碳有机
  • 硝化纤维素硝化纤维(Nitrocellulose),学名纤维素硝酸酯,也称硝化棉、硝基纤维素,通常由棉绒纤维和木浆等纤维材料浸入浓硝酸浓硫酸混合液中制得,多数用于制作发射药。与硝化甘油相比,比较稳定
  • 君士坦丁堡牧首普世牧首(希腊语:Οικουμενικός Πατριάρχης;俗称君士坦丁堡牧首)是君士坦丁堡(今伊斯坦布尔)的宗主教,亦被承认为正教会名义上地位最高(英语:Primus inter pare
  • 低地苏格兰语苏格兰语(Scots,在古诗中又称Lallans,意为低地),日耳曼语族中的语言变体之一,通行于苏格兰低地以及阿尔斯特省的部分地区(在阿尔斯特省中,又称为阿尔斯特苏格兰语)。为了与苏格兰盖尔