多元分类

✍ dations ◷ 2025-02-24 02:06:10 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 异常异常行为(或功能障碍行为)是一种行为特征,归因于那些被认为是罕见或功能障碍的病症。由社会不接受的行为组成,行为在非典型或不寻常的情况下被认为是不正常的,并且导致个体活动受
  • 天主教堂教堂是进行宗教仪式的场所,一般特指基督宗教,包括天主教、东正教、新教等;天主教的教堂又可称为“天主堂”;伊斯兰教进行宗教仪式的场所一般称为清真寺,犹太教从事宗教仪式和其它
  • 麦茶大麦茶,又称为麦茶,日本称麦茶,是流行于东亚的一种茶饮料。大麦茶在欧美也作为咖啡的替代饮品。大麦茶是将大麦焙煎,再磨成粉末而制成的饮料。日本昭和前期称这种饮料为麦汤,意指
  • 鼠李鼠李(学名:Rhamnus davurica)为鼠李科鼠李属下的一个种。
  • 芭比的盛宴《巴贝特之宴》(丹麦语:Babettes gæstebud),是一部1987年上映的丹麦剧情电影,首映是在当年的戛纳电影节上。该电影由盖布里尔·亚斯里执导,基于凯伦·白烈森原著故事改编。巴贝特
  • 卢森尼亚语卢森尼亚语(руси́ньскый язы́к),属于斯拉夫语族的东斯拉夫语支,在语言分类上最接近乌克兰语。卢森尼亚语使用者分布在乌克兰、斯洛伐克、波兰、匈牙利、罗马尼
  • 破坏者螯虾破坏者螯虾(Cherax destructor),又可称为天空蓝魔虾,原产于澳大利亚,被国际自然保护联盟列为易危物种的螯虾。然而正确性是有些疑问,野生的破坏者螯虾族群依然还是很壮大,而且还扩
  • 水资源水资源包括经人类控制并直接可供灌溉、发电、给水、航运、养殖等用途的地表水和地下水,以及江河、湖泊、井、泉、潮汐、港湾和养殖水域等。水资源是发展国民经济不可缺少的重
  • 南北货南北货,涉及柴、米、油、盐、酱、醋、茶等料理所需,或称“南北杂货”、“杂货”,偶兼售五金或日用品。说法不一,是指满清时代的商人,多透过同业公会方式于南、北“郊”等进行买卖
  • 龚廷祥龚廷祥(?-1645年),字伯兴,号佩潜。直隶无锡县(今属江苏无锡市)人。明末政治人物。龚廷祥为马世奇门生。崇祯十二年(1639年)举人,崇祯十六年(1643年)进士。弘光时官中书舍人。弘光元年(清顺