多元分类

✍ dations ◷ 2025-06-08 18:14:24 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 大脑皮层大脑皮质(英语:cerebral cortex),又称为大脑灰质,或简称为皮质或皮层,是大脑的一个解剖结构。大脑皮层是端脑的一部分,属于脑和整个神经系统演化史上最为晚出现、功能上最为高阶的
  • 阿伏伽德罗定律阿伏伽德罗定律(英语:Avogadro's law)是意大利化学家阿伏伽德罗于1811年提出的一条假说,时称“阿伏伽德罗假说”,后经大量实验证实为定律。内容是:同温、同压时,同体积的任何气体含
  • 夫差夫差(前6世纪?-前473年),姬姓,春秋时期吴国第25任君主,在位时期为前495年—前473年。夫差生年不详。夫差为了洗雪其父阖闾败给越王勾践的耻辱,励精图治,吴国也迅速增强。夫差二年(前49
  • 西苏门答腊西苏门答腊省(印尼语:Sumatera Barat)是印度尼西亚的一个省,位于苏门答腊西部,也包括明打威群岛,两者以明打威海峡相隔。面积42,297.30平方公里。首府巴东。下又分另外六市和十二
  • 法国总统法兰西共和国总统(法语:Président de la République française),简称法国总统,是法国的国家元首。总统是国家元首和武装部队最高司令。现时的法国是第五共和,根据1958年的《法
  • 中国科学院海洋研究所中国科学院海洋研究所,简称中科院海洋所。是位于中国青岛市的一所科研机构,始建于1950年,主要从事海洋科学相关研究工作。与国内外多所科研院所保持合作关系,经常进行海洋考察作
  • 勒妮·埃尔姆斯勒妮·洁希欣·埃尔姆斯(英语:Renee Jacisin Ellmers,1964年2月9日-)为美国的政治人物,自2011年起担任北卡罗来纳州第2选区的众议院议员。她是一名共和党党员。2010年,埃尔姆斯击败
  • 乐德镇乐德镇是四川省荣县城西部的一个镇,距县城23公里,邻接东佳镇,南与留佳镇相望,西与望佳镇毗邻,北靠双古镇。2004年9月,合并后的乐德镇面积26.46平方公里,总人口为23038人,下辖8个行政
  • 杜泽洲杜泽洲(1915年2月-2017年11月12日),四川达县人,中华人民共和国政治人物。1933年9月参加革命,1936年9月加入中国共产党。历任宣传员、班长(曾是张思德当年的老班长)、排长、指导员、
  • 安迪·贝托尔斯海姆安德烈亚斯·冯·贝托尔斯海姆(德语:Andreas von Bechtolsheim,1955年9月30日-),小名安迪·贝托尔斯海姆(Andy Bechtolsheim),生于德国巴伐利亚,电机工程师,为昇阳电脑共同创办人与首席