多元分类

✍ dations ◷ 2025-11-09 06:36:26 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 弱力弱相互作用(又称弱力或弱核力)是自然的四种基本力中的一种,其余三种为强核力、电磁力及万有引力。亚原子粒子的放射性衰变就是由它引起的,恒星中一种叫氢聚变的过程也是由它启动
  • 主音自然音阶的第一个音,为主音(Tonic)。主音即为调性中心,即为最稳定的音。例如在C大调音阶中,C、E、G三个音起着中心的稳定作用,而B、D、F、A四个音,则起着不稳定的作用。不稳定的音
  • 成层状高积云成层状层积云(学名:Altocumulus stratiformis,缩写: Ac str ),是高积云的一种,也是最常见的高积云云种。成层状高积云通常由成片延展云块组成,这些云块既可是相互分离的,也可是相互
  • 1155年重要事件及趋势重要人物
  • 三锯拟蝗蛙三锯拟蝗蛙(学名:Pseudacris triseriata)是加拿大及美国的一种树蟾。它们分布在魁北克南部至南达科他州,南至堪萨斯州及奥克拉荷马州。三锯拟蝗蛙体型很小,只有40毫米长。它们呈
  • 座右铭座右铭(英语:Motto)指个人、组织等引以为自我警诫的短句或格言,代表着精神、意志、信念等,一般以排比形式出现。家族、学校、公司等都可能有座右铭,当中学校的训词称为校训,家族的
  • 胡塔班江火山胡塔班江火山(印尼语:Hutapanjang)是印度尼西亚占碑省的火山,该火山类型为复式火山。目前对该火山的资料未甚少,并且未有该火山最后一次确切喷发纪录。
  • aTV亚洲音乐亚洲音乐(aTV Music),是亚洲电视的一间全资附属公司,于2008年成立,以“延续真好音乐”为口号。业务除制作、出版、发行音乐作品外,亦包括亚视音乐节目的制作,而首个音乐节目为《乐
  • 康斯坦丁·彼得洛维奇·纳恰耶夫康斯坦丁·彼得罗维奇·聂恰耶夫(俄语:Константин Петрович Нечаев;1883年5月31日-1946年2月5日)是波兰裔的俄罗斯帝国陆军军官,在俄国内战中率领白军,流
  • 永龄教育慈善基金会财团法人永龄教育慈善基金会(英语译名:Yonglin Foundation)为台湾企业家郭台铭及其第一任夫人林淑如在2000年创办的基金会,“永龄”一名即是从其父母的名字中各取“永”字与“龄