多元分类

✍ dations ◷ 2025-08-05 23:52:34 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • LUC芝加哥洛约拉大学(Loyola University Chicago),或者译为芝加哥罗耀拉大学,是位于美国伊利诺伊州芝加哥的一所私立大学,由耶稣会成立于1870年。该大学在芝加哥都会区有多个校区,主
  • 绝对零度绝对零度(英语:absolute zero)是热力学的最低温度,是粒子动能低到量子力学最低点时物质的温度。绝对零度是仅存于理论的下限值,其热力学温标写成K,等于摄氏温标零下273.15度(即−27
  • 詹姆斯·格利姆詹姆斯·吉尔伯特·格利姆(英语:James Gilbert Glimm,1934年3月24日-),美国数学家,美国数学学会前主席,石溪大学杰出教授。
  • 化学元素丰度化学元素丰度(英语:Abundance of the chemical elements)是在测量上与所有元素相比较所得到含量多寡的比值。丰度可以是质量的比值或是莫耳数(气体的原子数量比值或是分子数量
  • acetaldehyde乙酰胺是由乙酸衍生出的酰胺,分子式为CH3CONH2。纯品在室温下为白色晶状固体,可由乙酸铵失水获得。它被用作增塑剂,也是有机合成的重要原料。乙酰胺并不十分易燃,但燃烧时会放出
  • 防卫防卫战就军事而言,即指以防守武力阻挡抵抗他方入侵的战争,如:抗战。近现代军事防卫战的发起,并不一定是被动,除了防卫固守外,也包含吓阻用途的预防战争武力建置。防卫战有战略战术
  • 雨部雨部,为汉字索引中的部首之一,康熙字典214个部首中的第一百七十三个(八划的则为第七个)。就繁体和简体中文中,雨部归于八划部首。雨部只以上方为部字。且无其他部首可用者将部首
  • 瓦茨拉夫·博伊尔瓦茨拉夫·博伊尔(Wenceslas Bojer,1795年9月23日-1856年6月4日)为捷克植物学家及博物学家。
  • 塔哈·侯赛因塔哈·侯赛因(阿拉伯语:طه حسين‎,1889年11月14日-1973年10月28日),埃及最具影响力的作家及知识分子,为埃及近代化运动的先驱之一。
  • 自偶电离自偶电离(Molecular autoionization)是指液态的极性共价分子化合物电负性强的部分与电负性弱的部分相互作用,自发电离的过程,电离后的产物是分别是由分子形成的阴离子及阳离子。