首页 >
词袋
✍ dations ◷ 2025-05-15 13:26:18 #词袋
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。下列文件可用词袋表示:以下是两个简单的文件:基于以上两个文件,可以建构出下列清单:此处有10个不同的词,使用清单的索引表示长度为10的向量:每个向量的索引内容对应到清单中词出现的次数。举例来说,第一个向量(文件一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤。在上述的范例,文件向量包含term频率 。在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。分类一个邮件讯息,分类一个贝氏垃圾邮件分类假设讯息是一堆字并且随机倒在两堆袋子其中一个袋子里,之后使用贝氏几率去决定哪个袋子是较有可能的。
相关
- 产金菌门产金菌门(Chrysiogenetes)是一支独特的细菌,目前只发现了一个种,即砷酸产金菌(Chrysiogenes arsenatis)。它具有独特的生活方式和生化过程。它经营化能无机自养,利用对绝大多数生物
- 重组DNA重组DNA是一种人工合成的脱氧核糖核酸。它是把一般不同时出现的DNA序列组合到一起而产生的。从遗传工程的观点来看重组DNA是把相关的DNA添加到已有生物的基因组中,比如细菌的
- 量化在语言和逻辑中,量化是指定一个谓词的有效性的广度的构造,就是说指定谓词在一定范围的事物上成立的程度。产生量化的语言元素叫做量词。结果的句子是量化的句子,我们称我们已经
- 分化细胞分化(英语:cellular differentiation),是发育生物学的研究课题之一,指的是在多细胞生物中,一个干细胞在分裂的时候,其子细胞的基因表达受到调控,例如DNA甲基化,变成不同细胞类型
- 发表偏差发表偏差(英语:publication bias)或称为抽屉问题(英语:file drawer problem),是在学术出版过程发生的一种现象。当某项研究是否发表的决定受着该研究的结论影响时,发表偏差便会发生
- 亚属亚属(拉丁语:subgenera;英语:subgenus)是生物分类法中的一级,位于属和种之间。在分类学中,“亚属”可单独使用或与种名同时使用。但亚属的使用并非必要。
- 肉茎肉茎(Pedicle),亦作腕足、肉足或腹茎,是动物学的一个名词,指无脊椎动物里的舌形贝型亚门及小嘴贝型亚门腕足动物以及部分双壳纲软体动物用来固着于海床的软泥或砂砾中(亦作“受质
- 1900年1900年美国人口普查(英语:1900 United States Census)是美国历史上第12次全国人口普查,确定了美国的常住人口为75,994,575人,相比1890年美国人口普查,同比增长为21.0%。1900年的人
- 宋仁宗宋仁宗赵祯(1010年5月30日-1063年4月30日),北宋第四代皇帝(1022年3月23日-1063年4月30日在位)。初名受益,宋真宗的第六子,生母李宸妃。天禧二年(1018年),进封昇王,同年九月立为皇太子,赐
- 胡克定律胡克定律/虎克定律(Hooke's law),是力学弹性理论中的一条基本定律,内容:固体材料受力后,应力与应变(单位变形量)成线性关系,满足此定律的材料:线弹性/胡克型(Hookean)从物理的角度