多元分类

✍ dations ◷ 2025-10-07 18:45:31 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 体液体液(Body fluid),包括血液、脑脊髓液、胃液、消化液、精液、唾液、泪液、汗液、尿液、阴道分泌液等。在有疾病的状态下,也会产生一些平常量少不易侦测到的体液,如肋膜积液(又称胸
  • 行政机关行政机关,又称行政机构、行政部门,其工作是对组织进行日常的管理并施行法律政策等相关活动,是三权分立中的其中一部分。广义上,行政定义为负责国家政策的执行的政府机构。狭义上
  • 罗德贝尔马丁·罗德贝尔(英语:Martin Rodbell,1925年12月1日-1998年12月7日),美国生物化学和分子内分泌学家,以发现G蛋白而闻名。因发现G蛋白和这些蛋白在细胞信号传导中的作用与艾尔佛列·
  • 徐贤修徐贤修(英语:Shien-Siu Shu,1912年9月12日-2001年11月17日),中华民国数学家、教育家。中央研究院院士、前国立清华大学(新竹市)校长、前行政院国家科学委员会主任委员。其子徐遐生是
  • HS代码协调制度(Harmonized System,简称HS),即商品名称及编码的协调制度,是世界海关组织编制的关于国际贸易商品分类的标准目录,用以统一各国海关对商品分类的界定标准。通过按照协调制
  • 铒的同位素铒(原子量:167.259(3))的同位素,其中有6个同位素是在观测上稳定的。备注:画上#号的数据代表没有经过实验的证明,只是理论推测而已,而用括号括起来的代表数据不确定性。
  • 六角四片四角孔扭歪无限面体在几何学中,六角四片四角孔扭歪无限面体 (英语:muoctahedron、日语:六角四片四角孔ねじれ正多面体)是一种正扭歪无限面体,是一个由六边形组成且发散的多面体,其多面体所形成的结构
  • 布鲁诺·瓦尔特布努诺·瓦尔特 (Bruno Walter,1876年9月15日-1962年2月17日) , 初名布努诺·施莱辛格(Bruno Schlesinger)是一位美籍德国犹太裔指挥家,钢琴家和作曲家。他被视为20世纪最重要的指挥
  • 义慈王义慈王 (599年-660年,641年-660年在位),是百济第三十一代王,为三十代武王之长子,姓扶余,讳义慈。义慈王年幼时即孝声远播,时人誉为“海东曾子”。641年即位后,开始对贵族中心的政治体制
  • 乌尔比安乌尔比安(拉丁语:Gnaeus Domitius Ulpianus),罗马法学家和帝国官员。乌尔比安本人以其对前人学说的归纳与整理而闻名,其代表著作包括《告示注解》(Ad edictum)83卷、《市民法注解》