多元分类

✍ dations ◷ 2025-09-08 22:49:12 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 第二军医大学中国人民解放军海军军医大学,简称海军军医大学,对外又称中国人民解放军第二军医大学,位于上海市杨浦区翔殷路800号,隶属中国人民解放军海军。1997年,第二军医大学成为国家“211工
  • 政治自由政治自由,是一种政治思想、西方历史的核心概念,也是民主社会间最重要的(真实或理想)特征之一。构成政治自由理想的条件,根据政治光谱上各派别的团体和个人的立场不同,其所持看法也
  • 剧情片剧情片(drama film)指以故事剧情为主题的电影,是其中一种片种。剧情片一般长度在30分钟或以上,以电影院作为发放对像。相对于其他片种如动作片或爱情片以动作或爱情带动故事的推
  • 库仑障壁库仑势垒,以物理学家查尔斯·奥古斯丁·库仑(1736年-1806年)命名,是两个原子核要接近至可以进行核聚变所需要克服的静电能量壁垒。由静电产生的势能势垒是:此处U的正值归咎于这是
  • 明德大学蒙特雷国际研究学院明德大学蒙特雷国际研究学院(Middlebury Institute of International Studies at Monterey),2015年1月之前原称蒙特雷国际研究学院(Monterey Institute of International Studie
  • 郝跃郝跃(1958年-),安徽阜阳人,汉族,中华人民共和国科学家、第十一届全国人民代表大会陕西地区代表。毕业于西安交通大学计算数学专业。担任西安电子科技大学副校长。2008年起担任全国
  • 大卫·拉法塔大卫·拉法塔(David Lafata)是捷克的一位足球运动员。在场上司职前锋。他也代表捷克国家足球队参赛。
  • 嵌入 (网络)将一个网络A嵌入到另一个网络B中是指将A中的各节点映射到B的节点。膨胀系数(Dilation)膨胀系数是指被嵌网络在主嵌网络中对应的边数(即链路数)。如果系数为1,则称为完美嵌入。例
  • 桑额 (尚书)桑额(满语:ᠰᠠᠩᡤᡝ,穆麟德:;?-1712年),祖籍不详,清朝政治人物、官至吏部尚书。康熙年前,其担任江宁管理织造。康熙三十一年,升任湖广巡抚,后调任山东巡抚。康熙三十四年至四十九年,担任
  • 贝尔女巫事件贝尔女巫事件是美国南方的一个民间传说,主要发生于19世纪时田纳西州西北罗伯森县的贝尔家族。农民老约翰·贝尔(英语:John Bell (farmer))和家人一起红河(英语:Red River (Cumberl