多元分类

✍ dations ◷ 2025-04-26 13:27:13 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 生物科学生物学(希腊语:βιολογία;拉丁语:biologia;德语:Biologie;法语:biologie;英语:biology)或称生物科学(biological sciences)、生命科学(英语:life sciences),是自然科学的一大门类,由经
  • 男同志男同性恋文学(Gay literature)广义而言可指表达、描述,又或者展现男子与男子间发生亲密友谊、恋爱、情欲、性爱等情感关系的书写,乃至于参与到社会脉络中,这些主题为社会所接受的
  • 海豹部队美国海军三栖特种部队(英语:United States Navy SEa, Air and Land Teams,SEAL),一般称作海豹突击队,是直属美国海军的一支特种部队,亦是世界知名的特种三栖部队,主要任务包括:非常规
  • 大元田盛大可汗也先太师(蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","Oyun Gurban Ulus
  • 3月3月是公历年中的第三个月,是大月,共有31天。在北半球,3月是春季的第一个月,本月节气有:惊蛰、春分;在南半球,3月是秋季的第一个月。英文中的3月(March)来源于古罗马战神玛尔斯。
  • 杰克逊县 (俄勒冈州)杰克逊县(Jackson County, Oregon)是美国俄勒冈州南部的一个县,南邻加利福尼亚州,成立于1852年1月12日。面积7,257平方公里。根据美国2000年人口普查,共有人口19,009人。县治麦德
  • 阿尔孔塔尔阿尔孔塔尔(西班牙语:Alcóntar),是西班牙安达卢西亚自治区阿尔梅里亚省的一个市镇。 总面积94km2, 总人口611人(2001年),人口密度7人/km2。
  • 光秒光秒是一个借用了光速恒定不变的概念,再加上秒的定义而成的大尺度距离单位,被定义为光在真空中一秒所行走的距离,是国际通用度量衡单位之一,常见于天文学和电讯上。根据现时国际
  • 傅锺文傅锺文(1903年-1994年9月25日),河北永年人,中国武术家,杨氏太极拳第四代传人,杨澄甫之徒。从9岁就开始随杨澄甫习武,长期追随在杨澄甫身边。1944年10月1日,在上海筹资创设“永年太极
  • 西条藩西条藩(日语:西条藩/さいじょうはん  */?)为日本江户时代的藩,位于伊予国新居郡西条(现爱媛县西条市)周边。起初为外样大名统有,之后成为德川御三家中纪州德川家(纪州藩)的支藩。163