首页 >
词袋
✍ dations ◷ 2025-02-23 02:37:34 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 坏死性小肠结肠炎坏死性小肠结肠炎(NEC)是一种多发于早产婴儿的疾病,可能会导致小肠坏死,严重时会危及生命。多发于早产儿,其发病率和出生时的胎龄成反比。出生越早的婴儿,越容易得NEC。初期症状
- 安莫西林阿莫西林(amoxicillin),又译安莫西林或安默西林,本名羟氨苄青霉素,是一种常用的口服性广谱β-内酰胺类抗生素,具溶菌作用,主治易感微生物所引起的细菌性感染。本品为治疗中耳炎的第
- 平均细胞血红蛋白浓度平均细胞血红蛋白浓度(mean corpuscular hemoglobin concentration、MCHC)是测量定量血红细胞中的血红蛋白浓度。它是血常规检测中的一项。 该指标的成年人正常范围大约在320-
- 鹅膏蕈氨酸鹅膏蕈氨酸(Ibotenic acid), 是一种含有异
- 都柏林都柏林(英语:Dublin;爱尔兰语:Baile Átha Cliath)是爱尔兰共和国的首都以及最大的城市,靠近爱尔兰岛东岸的中心点,位处都柏林郡的利菲河(River Liffey)河口、都柏林地区的中心。都柏
- 假定性生物化学假定型生物化学(英语:Hypothetical types of biochemistry)不同于现有的生物化学形式的推测,在科学上是可行的,但现在不能证明实际存在。地球上已确认的生物物种通常使用含碳有机
- 古尔斯特兰德阿尔瓦·古尔斯特兰德(Allvar Gullstrand,1862年6月5日-1930年7月28日),出生于兰斯克鲁纳,逝世于斯德哥尔摩。是一位瑞典眼科医师。1894年到1927年间,古尔斯特兰德在乌普萨拉大学担
- 安达曼-尼科巴群岛安达曼-尼科巴群岛(英语:Andaman and Nicobar Islands;孟加拉语:আন্দামান ও নিকোবর দ্বীপপুঞ্জ;泰米尔语:அந்தமான் நிக்கோபார் தீ
- 鄂毕河鄂毕河(俄语:Обь)位于西伯利亚西部,是世界上的一条长河。鄂毕河位于西伯利亚三大河最西侧,注入北冰洋鄂毕湾,鄂毕湾也是世界最长的河口。鄂毕河在当地不同民族中有不同的名字,奥
- 大蕉大蕉是香蕉(学名:Musa × paradisiaca,云南亦称粉芭蕉)的人工选育品系之一。由野蕉和小果野蕉杂交而成,原产于印度,公元六世纪时传至非洲。十八世纪始传入南美洲。现在热带地区多