多元分类

✍ dations ◷ 2025-07-15 06:17:19 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 电脑断层摄影计算机断层成像(Computed Tomography,简称CT),是一种影像诊断学的检查。这一技术曾被称为计算机轴向断层成像(Computed Axial Tomography)。X射线计算机断层成像(X-Ray Computed To
  • 云母云母是云母族矿物的统称,是钾、铝、镁、铁、锂等金属的铝硅酸盐,都是层状结构,单斜晶系。晶体呈假六方片状或板状,偶见柱状。层状解理非常完全,有玻璃光泽,薄片具有弹性。英语中“
  • 恩泽雷科雷省恩泽雷科雷省是西非国家畿内亚的33个省之一,位于该国东南部,由恩泽雷科雷大区负责管辖,首府设于恩泽雷科雷,北临贝拉省,东接洛拉省,南毗利比里亚和约穆省,西邻马桑塔省,面积4,625平
  • 加丹加省加丹加省(法语:Province du Katanga)是刚果民主共和国南部的一个省,首府卢本巴希。根据新宪法,该省已于2009年2月被4个较小的省份坦噶尼喀省、上洛马米省、卢阿拉巴省、上加丹加
  • 前南菜园日式宿舍前南菜园日式宿舍,位于前台湾总督儿玉源太郎别院“南菜园”附近,为前南菜园日人宿舍区的一部分,住宅多以南北向规划,前后配置有庭院,以植栽营造优美的环境,保有日治时期公务员宿舍
  • 稳定同位素稳定同位素(Stable isotope),是指化学元素中,不发生放射性衰变或不易发生放射性衰变的同位素,稳定同位素即使会发生衰变,因半衰期太长而无法测量出。所有同位素中,只有前66个元素中
  • 无文土器时代无文土器时代(韩语:무문토기 시대)或无文陶器时代是朝鲜以及中国东北边疆史前时代的一个考古时期,相当于朝鲜新石器时代晚期至朝鲜青铜器时代早期,约前15世纪至前3世纪。是中国东
  • 李荣 (语言学家)李荣(1920年2月4日-2002年12月31日),曾用名李昌厚,笔名董少文、宋元嘉等,浙江温岭人,语言学家。曾先后担任中国社会科学院语言研究所方言研究组(室)负责人、语言研究所副所长、所长、
  • 力流最短路径准则力流最短路径准则是一个在机械设计、结构工程等领域广泛使用的结构设计准则,是力流法的原则之一。力流是在一些工程学科常用的概念。在《机械结构设计准则及实例》一书中有这
  • 平石洋介选手时期教练时期平石洋介(日语:平石 洋介/ひらいし ようすけ ,1980年4月23日-),日本棒球选手,出生于大分县杵筑市,曾经效力于日本职棒东北乐天金鹫,于2011年退休。2018年10月初接任