多元分类

✍ dations ◷ 2025-11-29 01:38:29 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 天仙子胺天仙子胺(Hyoscyamine)是一种托烷类生物碱,作为次级代谢产物存在于天仙子,曼德拉草,曼陀罗花,番茄和颠茄等茄科植物。药物阿托品就是天仙子胺经提取处理后得到的消旋产物,因此天仙
  • 美国广播公司美国广播公司(英语:American Broadcasting Company,简称ABC)是美国传统三大广播电视公司之一。创立于1943年,前身为全国广播公司两张广播网之一的蓝色广播网。目前的最大股东是华
  • 昂热城堡昂热城堡(Château d'Angers)是法国昂热的一座大型法式城堡。昂热城堡耸立在曼恩河畔的岩石上,由于它的战略防御位置,曾是罗马人居住的地点之一。在9世纪,堡垒属于强大的安茹伯爵
  • 波德平原北德平原(德语:Norddeutsches Tiefland),又称中欧平原,位于波兰和德国北部。北临波罗的海和北海,南接中欧山地,西起莱茵河口,东至波兰东部;东西长约1000公里,南北宽约200-500公里,总面积
  • 反应物反应物(在生物中称作底物或受质)指的是化学反应中消耗的物质。虽然化学反应中一般也涉及溶剂和催化剂,然而它们通常不被算作反应物。试剂更强调该种化学物质的某种特定用途。
  • 水黾水黾(学名:Gerridae)俗称“水马”、“水蜘蛛”、“水较剪”,是异翅亚目中的一个科,为椿象界的“两栖椿象”,是生活在水面上的一种昆虫。它们能在水面上行走,既不会划破水面,也不会浸
  • 夏 (消歧义)夏可以指:
  • 电影放映机电影放映机是一台光学及力学的电影放映设备,负责把映像投影至放映幕(projection screen)上。电影放映机由灯箱、光学系统、传动输片装置和供、收片盒等构成;影片在放映机上运行,
  • 保罗·德曼保罗·德曼(Paul de Man,1919年12月6日-1983年12月21日)是比利时解构主义文学批评家及文学理论家。他于1950年代后期获得博士学位,然后曾于康乃尔大学、哈佛大学、约翰·霍普金斯
  • 埃拉特港埃拉特港(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Taamey