多元分类

✍ dations ◷ 2025-12-07 15:47:21 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 树突状细胞树突状细胞(英语:dendritic cell)是一种存在于哺乳动物的一种白细胞。它存在于血液和暴露于环境中的组织中,如皮肤和鼻子、肺、胃和小肠的上皮组织。它们的作用是调节对当前环境
  • IIAbr /2固体、 液体、 气体碱土金属是指在元素周期表中同属第2族(旧称ⅡA族)的六个金属元素:铍(Be)、镁(Mg)、钙(Ca)、锶(Sr)、钡(Ba)、镭(Ra),其中镭具有放射性。碱土金属都是银白色的、比较软的金
  • 硝酸甘油硝酸甘油(Nitroglycerin)(C3H5N3O9),又称硝酸甘油酯、三硝酸甘油酯、三硝酸丙三酯,是甘油的三硝酸酯,是一种爆炸能力极强的炸药。1847年由都灵大学的化学家索布雷洛发明。常有人
  • 心室心律失常心脏节律不整(拉丁语:Cardiac Arrhythmia/Cardiac Dysrhythmia; 法语:Rythme cardiaque irrégulier;英语:Irregular Heartbeat,通称:心律不正、心律失常、心律失常、心律不齐),是指心
  • 司法部美国司法部(英语:United States Department of Justice),是美国政府的一个部,其部门长官享有阁员地位。负责的任务是保障法律的施行,维护美国政府的法律利益和保障法律对美国所有
  • span style=color:white;北洋时期/span以下列出南京临时政府及北洋政府时期,中华民国政府的历届内阁国务总理(或国务卿)及阁员名单。本列表阁员仅列出各部总长,不列各部次长。各部不包括“参谋部”或“参谋本部”。特
  • 干支干支是天干与地支的合称,由两者经一定的组合方式搭配成六十对,为一个周期,循环往复,称为六十甲子或六十花甲。古代中国用以记录年、月、日、时。日本、朝鲜、越南、琉球等汉字文
  • 氯丙醇氯丙醇(Chloropropanols)是一类在化学制作豉油的过程中所产生的致癌物质。日常比较常见的氯丙醇包括以下三种:传统豉油酿造法是以微生物来分解黄豆蛋白,酿造过程约需半年。(参看
  • 氨基苯甲酸氨基苯甲酸有以下三种异构体:邻氨基苯甲酸间氨基苯甲酸对氨基苯甲酸
  • 阿拉伯河阿拉伯河(阿拉伯语:شط العرب‎,波斯语:اروندرود‎),为底格里斯河、幼发拉底河和卡伦河汇流而成,全长约190公里。下游为伊朗和伊拉克界河,两国对于此河归属尚有争议。