词袋模型

✍ dations ◷ 2025-12-03 09:10:34 #自然语言处理,机器学习

词袋模型（英语：Bag-of-words model）是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。

词袋模型被广泛应用在文件分类，词出现的频率可以用来当作训练分类器的特征。

关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在的文章

下列文件可用词袋表示:

以下是两个简单的文件:

(1) John likes to watch movies. Mary likes movies too.

(2) John also likes to watch football games.

基于以上两个文件，可以建构出下列清单:

此处有10个不同的词，使用清单的索引表示长度为10的向量:

(1)  (2)

每个向量的索引内容对应到清单中词出现的次数。

举例来说，第一个向量(文件一)前两个内容索引是1和2，第一个索引内容是"John"对应到清单第一个词并且该值设定为1，因为"John"出现一次。

此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用，像是邮件过滤。

在上述的范例，文件向量包含term频率。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。

分类一个邮件讯息，分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里，之后使用贝氏几率去决定哪个袋子是较有可能的。

相关

抗疟药抗疟药（antimalarial drug）是指用来预防或者治疗疟疾的药物。代表药物有奎宁、氯喹、青蒿素等。抗疟药如进一步按功用细分，尚可分为控制疟疾症状的抗疟药、防止疟疾复发的抗疟
食物添加剂食品添加剂是为了保持味道或增强口感、改善外观添加到食物中的物质。一些添加剂已经使用了几个世纪；例如，（用醋）腌制、盐腌来保存食物（如腌肉），糖果的保存以及用二氧化硫来保存葡
博士学位博士是教育机构授予的最高一级学位，如某科系哲学博士、理学博士、文学博士、教育博士、工商管理博士、法学博士。日常生活中博士学位会与姓氏相结合而被称为某博士，而博士的英
博恩霍姆岛博恩霍尔姆岛（丹麦语：Bornholm）是波罗的海西南部的一个岛屿，北望瑞典，南望波兰，历史上曾由丹麦和瑞典交替统治，现属丹麦管辖，并且是丹麦领土地理上的极东点。面积588平方公里，人口约
恩智浦恩智浦半导体（英语：NXP Semiconductors），前身为飞利浦半导体，由荷兰企业飞利浦在1953年创立。2006年8月31日，该公司首席执行官万豪敦在柏林向客户和员工宣布公司的新名称。恩智浦
罗摩衍那《罗摩衍那》（梵语：रामायण，Rāmāyaṇa，意思为“罗摩的历险经历”）是印度两大史诗之一、另一部是《摩诃婆罗多》。作者是诗人蚁垤，或译跋弥（Valmiki），共分为七章，24,000对对句。
鲜卑语鲜卑语在中国史书中称为夷言、国语、北语、胡语或者胡言，为中国与蒙古历史上鲜卑族使用的一种语言，较为保守的使用时期为2、3世纪交替至7世纪中叶，在东晋十六国至北朝时期被广
美人无泪《山河恋·美人无泪》（英文：In Love with Power），前名《清宫美人无泪》，是一部2012年首播的中国大陆古装宫廷剧，该剧以孝庄文皇后的一生为线索，讲述了从皇太极征战天下的清初历史。
武术家武术家，又叫武者，泛指锻炼武术，且在武术上具有成就的人士。练武的人遍布世界各地，也出现一些知名的流派，如中国功夫、拳击、柔道、剑道、空手道、跆拳道、合气道、泰拳、桑搏、日
德令哈市德令哈市（蒙文：.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","Oyun Gurban Ulus Ti