词袋

✍ dations ◷ 2025-08-29 12:13:43 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

  • 克雷伯氏菌属克雷伯氏菌属(学名:Klebsiella)是肠杆菌目肠杆菌科的一属,为革兰氏阴性菌,杆状,其中包括了人类感染症常见的克雷伯氏肺炎菌(Klebsiella pneumoniae)。克雷伯氏菌属的命名,是纪念德
  • 骑士骑士或称武士,原为欧洲中世纪受过正规军事训练的骑兵,后来成为一种贵族阶层。骑士的头衔来自另一位骑士或是领主的册封,骑士除了能获得自己的封地之外,也必须为所效忠的领主作战
  • 毛癣菌毛癣菌属(学名:Trichophyton)是子囊菌门下的一种真菌。其菌丝可以产生光滑直筒状的大分生孢子(macroconidia)与许多小分生孢子(microconidia)。其中大分生孢子直接在菌丝侧向生长,呈
  • 苏达辞书《苏达辞书》或称《苏达辞典》(中世纪希腊语:Σοῦδα,Souda或Suda;亦作Σουΐδας,Suidas)是10世纪末由拜占庭学者编纂的一本百科全书性质的辞书,以希腊语写成,收辞约三万条
  • 伊丽莎白·安斯康姆伊丽莎白·安斯康姆(Gertrude Elizabeth Margaret Anscombe 1919年3月18日-2001年1月5日),英国著名分析哲学家,师从路德维希·维特根斯坦。功利主义 · 归结主义 · 义务论 
  • Da原子质量单位(Atomic mass unit,amu),现称统一原子质量单位(Unified atomic mass unit,u)或道尔顿(dalton,Da),是用来衡量原子质量的单位,定义为静止未键结且处于基态碳12原子质量的1/12
  • 曼托瓦曼托瓦(意大利语:Màntova),是意大利伦巴第大区曼托瓦省省会。公元前70年,古罗马诗人维吉尔出生于曼托瓦附近。1341年,曼托瓦城邦向巴伐利亚公国宫廷派遣大使,被认为是现代意义上的
  • 赤道板有丝分裂(英语:mitosis)是真核细胞将其细胞核中染色体分配到两个子核之中的过程。细胞核分裂后通常伴随着细胞质分裂(英语:cytokinesis),将细胞质、细胞器与细胞膜等细胞结构均等分
  • 异步通信异步通信(英语:Asynchronous conferencing)是科学领域中正式使用的术语,特指以计算机为介质,沟通,协作和学习,在互动贡献者中有一定延迟的技术。与之相对的是同步通信,同步会议指各
  • 威斯敏斯特宫威斯敏斯特宫(英语:Palace of Westminster),又称国会大厦(Houses of Parliament),位于英国伦敦威斯敏斯特市,是英国国会(包括上议院和下议院)的所在地。威斯敏斯特宫坐落在泰晤士河西