多元分类

✍ dations ◷ 2025-05-19 08:59:30 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 副木夹板、副木(英语:Splint),亦称夹,为一种硬性或有弹性的装置,可将移位的或可动的身体部位保持在适当位置,也能对受伤部位提供保护。副木可用于严重程度不至于需要固定整个受伤部位的
  • 国民院政治主题国民议会(德语:Nationalrat)是奥地利议会的下议院,根据宪法,国民议会和联邦议会(上议院)是平等的,但国民议会拥有更大权力,包括可以选举奥地利总理和组成联合政府,联合政府需
  • 圣塔莫尼卡山脉圣莫尼卡山(Santa Monica Mountains)是位于美国加利福尼亚州南部海岸的一个山脉。由于靠近人口密集的地区,圣莫尼卡山是圣莫尼卡山国家保护区游人最多的一个地区。在圣莫尼卡山
  • 贴身舞贴身舞是舞伴舞的一种,即两个或多个舞伴以互相摩擦对方身体的方式跳舞。做为一种新近出现的现代舞,贴身舞最早在夜总会风靡,后来更流行于美国和加拿大的年轻学生之间。由于不赞
  • 张国立 (作家)张国立(1955年3月26日-),生于台北,辅仁大学日本语文学系毕业,精通多国语言,以及历史、军事、体育,对各式新型武器之研究尤其透彻。曾任《时报周刊》社长兼总编辑,并著有多部作品。200
  • 马库斯·罗登 马库斯·罗登(瑞典语:Marcus Rohdén;1991年5月11日-)是一位瑞典足球运动员。在场上的位置是中场。他现效力于意大利甲级联赛球队克罗托内足球俱乐部。他曾效力于瑞典足球超
  • 两岸两会第十一次高层会谈两岸两会第十一次高层会谈,是2015年(民国104年)8月25日由台湾的财团法人海峡交流基金会(简称“海基会”)与中国大陆的海峡两岸关系协会(简称“海协会”)所进行的第十一次高层会谈。
  • 阿道夫·华格纳阿道夫·华格纳(德语:Adolph Wagner 1835年3月25日-1917年11月8日),德国经济学家和政治家,是社会主义经济学和公共财政学先驱,主张平均地权论,解释政府支出成长的华格纳法则以他的名
  • 帕特·亨格尔马丁·帕特森“帕特”亨格尔(英语:Pat Hingle,1924年7月19日-2009年1月3日)是一名美国演员。
  • 乳草马利筋属下的植物通称乳草,又称乳仔草、红乳草、细本乳仔草、千根草、乳汁草-岭南、痢疾草-广东、细叶飞扬草-广州、萹蓄草-台湾,是多年生草本植物的一属,属于夹竹桃科植物,涵括