多元分类

✍ dations ◷ 2025-12-08 23:18:09 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 崇祯崇祯(1628年—1644年)是明朝末代皇帝明思宗朱由检的年号,也是明朝的最后一个年号。朱由检于天启二年(1622年)被其兄长明熹宗册封为信王。天启七年(1627年)明熹宗驾崩,信王朱由检即位
  • 中华民国国家航天中心name = 'Aero', description = '航空太空科技(航空航天科技)', content = {{ type = 'text', text = [=[本页面没有类似于NoteTA的数量限制。 请自行修改分类名。在NoteTA样板
  • 社会民主党社会民主党有两种定义。狭义的、现代国际政治学上比较广为接受的,是指社会民主主义政党。广义的、中华人民共和国所使用的,是泛指社会民主主义和民主社会主义以及相类似的左派
  • 东甲坐标:2°16′N 102°33′E / 2.267°N 102.550°E / 2.267; 102.550东甲是一个位于马来西亚柔佛州东甲县的市镇,也是该县的县府。人口约五万两千人。东甲以其布庄生意而闻名,并
  • 马拉巴尔马拉巴尔(马拉雅拉姆语:മലബാര്)是南印度的一个地区,居于西高止山脉与阿拉伯海之间。通常认为“马拉巴尔”的名称起源自马拉雅拉姆语单词“Mala”(山)与波斯语单词“Bar”(王
  • 期刊引证报告期刊引证报告(Journal Citation Reports,JCR)是由科睿唯安(Clarivate Analytics)所发表的年度出版物(原汤森路透知识产权与科技事业部)。它透过该公司旗下Web of Science(英语:Web of
  • 截角十二面体在几何学中,截角十二面体是一种由正十边形和正三角形组成的三十二面体,是一种阿基米德立体。其每个顶点都是1个三角形和2个十边形的公共顶点,具有每个顶角相等的性质,因此截角十
  • 公石石(拼音:dàn,注音:ㄉㄢˋ,音同“淡”)是中国和日本古代容积单位,一石=十斗,通常用来量米。中国古代官员是以米、麦等粮食当作薪俸的,故有郡守两千石之说。《汉书·律历志》记载,汉时
  • 松德曼陨石坑松德曼陨石坑(Sundman)是位于月球背面赤道区附近的一座大撞击坑,其名称取自法国数学家"卡尔·弗里肖夫·松德曼"(Karl Fritiof Sundman,1873年-1949年),1970年被国际天文学联合会
  • 杜绍祁杜绍祁(?-1829年),字少京,江苏无锡县人,清朝官员。杜绍祁为嘉庆二十五年(1820年)庚辰科进士。道光初年署任凤山县知县。道光四年(1824年)升台防同知。道光七年(1827年)任淡水抚民同知。道