多元分类

✍ dations ◷ 2025-12-04 08:31:28 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 卢·蒙特利卢·蒙特利(英语:Louis J. Montulli II)是一位以开发网页浏览器而闻名的程序员。在1991年和1992年,他与堪萨斯大学的迈克尔·格罗贝兹和查尔斯·雷扎克合作开发了一个名为Lynx的
  • 闭经闭经是指生育年龄女性无月经或月经停止。青春期前、妊娠期、哺乳期及绝经期的月经不来潮不属于闭经。根据既往有无月经,分为:原发性闭经、继发性闭经。中医学上称经闭、不月。
  • 自噬体自噬体是在自噬过程中产生的一种特殊的囊泡,它由细胞内的粗糙内质网或高尔基体膜包裹细胞内源性物质(如由于生理或病理原因损伤的细胞器及其他细胞结构或过量储存的营养物质等
  • 角龙科角龙科(Ceratopsidae)属于头饰龙类,是一群多样性的演化支,例如:三角龙、戟龙、牛角龙。所有已知物种都为四足草食性恐龙,都拥有喙状嘴、颌部后方有多排切割用牙齿、以及延长的头盾
  • 霍乱疫情也门霍乱疫情始于2016年10月。至2017年3月中旬,大多数地区疫情已缓和,于首都萨那的污水系统停摆后,2017年4月时疫情再度升温。至2017年6月疫情仍持续。联合国儿童基金会及世界
  • 绒毛膜取样术绒毛取样术(Chorionic Villus Sampling, CVS),又称绒毛膜取样术,绒毛活检,抽绒毛,是一种检测染色体异常和遗传性疾病的产前检查的方法。绒毛取样术通过抽取胎盘中的一些细胞样本,并
  • 瓦尔加县瓦尔加县 (Valga maakond,或称Valgamaa)是爱沙尼亚15个县之一,位于接壤拉脱维亚的边境,首府瓦尔加。该县位于爱沙尼亚南部,其东面为珀尔瓦县和沃鲁县,北面为维尔扬迪县和塔尔图县,西
  • 赤湾天后宫赤湾天后宫,位于中国广东省深圳市南山区赤湾港海湾,为深圳市的一个市、县级文物保护单位,类型为古建筑,历史年代为清代,公布时间为1988年7月27日。赤湾天后宫也称天后博物馆(于199
  • 越南社会主义共和国主席政治主题越南于第一届国会至第六届国会设立越南社会主义共和国主席(越南语:Chủ tịch nước Cộng hòa Xã hội chủ nghĩa Việt Nam/ 主席渃共和社會主義越南?),在越南简
  • 阿蒂尔·德艾纳阿蒂尔·德艾纳(法语:Arthur Dehaine,1932年6月20日-2020年5月24日),法国政治人物,前法国国民议会议员。1932年生于桑利斯。从事会计工作。1976年补选为瓦兹选区国民议会议员。1974