多元分类

✍ dations ◷ 2025-12-10 00:08:20 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 月球地质年代月球地质年代在科学界划分为五个纪(英语:period):前酒海纪、酒海纪、雨海纪(又细分为早雨海世、晚雨海世)、爱拉托逊纪和哥白尼纪。地质年代的时间分界根据月面上的重大陨石撞击事
  • 默兹省默兹省(法语:Meuse)是法国大东部大区所辖的省份,北邻比利时。该省编号为55。5个海外省及大区
  • 大专院校高等教育(法语:Études Supérieures;德语:Höhere Bildung;英语:Higher Education;西班牙语:Educación Superior),又称专上教育(英语:Post-secondary Education)是一个教育层级的概念,广
  • Greenwood Press格林伍德出版集团(ABC-CLIO/Greenwood,Greenwood Publishing Group,简称GPG)是ABC-CLIO(英语:ABC-CLIO)旗下的学术与教育(中学至大学)出版商。前身是1967年的成立Greenwood Press(格林
  • 国立美术馆澳洲国立美术馆(National Gallery of Australia),1967年由澳洲联邦政府成立的公共美术馆,位于澳洲首都特区堪培拉。1970年选定伯利·格里芬湖畔现址后,美术馆于1982年完工并正式
  • 牟羽可汗牟羽可汗(?-780年),名移地健,又称作登里可汗、登里啰汩没蜜施颉咄登蜜施合俱录毗伽可汗,是回纥的可汗,在位期间相当于唐帝国唐代宗(李俶)在位时期。他是英武可汗(磨延啜可汗,葛勒可汗)之
  • 迦陵学舍迦陵学舍,位于天津市南开大学八里台校区内,是南开大学为叶嘉莹修建的居所,毗邻数学家陈省身先生的故居宁园和思源堂。2015年10月17日,迦陵学舍在南开大学96年校庆日当天正式启用
  • 合成钻石合成钻石或称人造钻石,即透过技术加工制成的钻石,对比于地质作用自然形成的天然钻石。合成钻石也广泛被称作HPHT钻石和CVD钻石,分别表示它的加工方式:高温高压(High-Pressure Hig
  • 萧萧萧萧(1947年-),本名萧水顺,台湾作家,出生于彰化县社头乡,十六岁开始接触现代诗即投稿发表,步上诗坛。先后参加过水晶诗社、龙族诗社、后浪诗社(诗人季刊)。曾获第一届青年文学奖、创世
  • 小安妮小安妮可以指: