多元分类

✍ dations ◷ 2025-09-17 11:43:37 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 己烯雌酚己烯雌酚(英语:Diethylstilbestrol),非甾体雌激素类药物,于1938年首次合成。1971年,人们发现孕妇服用己烯雌酚后会导致畸胎。己烯雌酚为无色结晶性粉末,几乎不溶于水,溶于有机溶剂。
  • 先导化合物先导化合物(lead compound)是一种具有药理学或生物学活性的化合物,可被用于开发新药,其化学结构可被进一步优化,以提高药力、选择性,改善药物动力学性质。通过高通量筛选(high-thro
  • 2010年2010年被中华人民共和国处决的死刑犯列表,旨在列出2010年被中华人民共和国处决的死刑犯。
  • 愚人船愚人船(德语:Das Narrenschiff;拉丁语:Stultifera Navis)是亚尔萨斯作家塞巴斯蒂安·布兰特(Sebastian Brant)1494年在巴塞尔出版的讽刺书籍,以德文写成。1497年,该作品译成拉丁文。
  • 精子器精子器(antheridium)是一个单倍体组织或器官,产生并容纳雄性的配子(精子),出现于苔藓植物和蕨类植物等低等植物的配子体阶段。许多的藻类和部分真菌(如子囊菌门)在其繁殖阶段也会
  • A Song for ××《A Song for xx》(给xx之歌)是日本歌手滨崎步的第一张专辑,1999年1月1日于日本发售。滨崎步在这张专辑发行前,单曲销售的成绩并没有特别的亮眼。但这张专辑却出乎意料的首周占
  • 肾上腺素刺激剂肾上腺素刺激剂(英语:Adrenergic agonist)指的是激发肾上腺素受体功能的药物。肾上腺素受体的主要分类有五种:α1、α2、β1、β2、和 β3。肾上腺素的作用体(英语:agent)指的是拥
  • 4 in Love4 in Love可以指:
  • 白粉藤属约350白粉藤属(学名:),或称粉藤属,是葡萄科下的一个属,为落叶或常绿、攀援灌木植物。该属共有350种,分布于热带和亚热带地区。
  • 卡尔 (符腾堡)卡尔·玛利亚·彼得·斐迪南·菲利普·阿尔布雷希特·约瑟夫·米夏埃尔·庇护·康拉德·罗伯特·乌尔里希(,1936年8月1日-),生于德国腓特烈港,已被废黜的符腾堡公爵,符腾堡王位继承