首页 >
词袋
✍ dations ◷ 2025-07-19 03:33:37 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 轴突轴突(Axon)由神经元组成,即神经细胞之细胞体长出突起,功能为传递细胞本体之动作电位至突触。于神经系统中,轴突为主要神经信号传递渠道。大量轴突牵连一起,以其外型类似而称为神经
- LIF1EMR, 1PVH, 2Q7N· receptor binding · cytokine activity · leukemia inhibitory factor receptor binding· immune response · multicellular organismal develop
- 遂川县遂川县是中国江西省所辖的一个县,隶属于地级吉安市,位于江西省西南边境,罗霄山脉南段东麓。总面积3102平方千米,2007年末全县总人口54.2万。遂川的东边是万安县,南边是赣州南康市
- 安德斯·努德斯特伦安德斯·诺德斯特伦(瑞典语:Anders Nordström,1960年3月9日- ),瑞典医生,于2006年5月22日至2006年11月8日间担任世界卫生组织(WHO)代理总干事。安德斯·诺德斯特伦毕业于卡罗林斯卡
- 按摩按摩(法语:Massage),亦称推拿,指通过身体接触,对皮肤下的肌肉进行积压或拉伸的行为,以疏通经络,滑利关节,促使气血运行,调整脏腑功能,增强人体抗病能力,从而达到治愈病痛的目的。在中国,
- 葡糖胺氨基葡萄糖(C6H13NO5)又称葡萄糖胺、葡糖胺或氨基葡糖,是葡萄糖的一个羟基被氨基取代后的化合物。氨基葡萄糖是蛋白质或脂类糖基化反应中的重要前体。氨基葡萄糖衍生物N-乙酰氨
- 美国核能管理委员会美国核能管理委员会(英语:Nuclear Regulatory Commission,缩写:NRC),或译美国原子能规制委员会,是美国政府设置负责原子能(即核能)相关管理工作的独立机构。该机关于1974年因美国的能
- 格威内特县格威内特县(Gwinnett County, Georgia)是美国乔治亚州北部的一个县。面积1,131方公里。根据美国2000年人口普查,共有人口588,448人,2006年人口为757,104人,是全州第二多。县治位
- 大满贯赛事网球大满贯在网球运动中是指一位网球选手能在所有大满贯赛事中均夺冠,包含以下4项:上述四项赛事通常又称为“大满贯系列赛”。无论是从赛事的规模、历史、奖金、积分、签数和
- 理查德·舍勒理查德·舍勒(英语:Richard Scheller,1953年10月30日-),美国神经科学家1982年至2001年在斯坦福大学任教授,后加入基因泰克公司担任研究和早期发展执行副总裁。他于1989年获艾伦·T