多元分类

✍ dations ◷ 2025-12-06 20:02:39 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 喂乳母乳哺育(Breastfeeding),亦称哺乳、授乳或母乳喂养,指的是女性以乳房喂食婴儿母乳的行为。婴儿有吮吸反射,因此可以吮吸乳房并吞咽母乳,专家建议在出生后一小时即可哺喂母乳,之后
  • 铀-235铀235(符号:235U),是铀的三种同位素之一,当中只有铀235能够发生核分裂,引发连锁核裂变反应,可用作核电及核弹。1935年由加拿大科学家邓史达(英语:Arthur Jeffrey Dempster)发现。根据
  • 酒药麹,又称麹糵,酿酒中称酒母,是米、糯米、小麦、大麦、黑麦、燕麦、豆类等粮食作物,及其外皮碾磨而成的白色粉末米糠或麦麸受到麹霉菌等微生物感染,经发酵使微生物有效繁殖而得到的
  • 数字照片数字摄影,是指使用数字成像组件(CCD,CMOS)替代传统菲林来记录影像的技术。配备数字成像组件的相机统称为数字相机。对于数码摄影来说,光学影像的捕获依然运用小孔成像原理,但其将
  • 意导泛种论泛种论,或称胚种论、宇宙撒种说(英语:Panspermia,希腊语:πανσπερμία ),是一种假说,猜想各种形态的微生物存在于全宇宙,并借着流星、小行星与彗星散播、繁衍。在泛种论相关
  • 3月3月是公历年中的第三个月,是大月,共有31天。在北半球,3月是春季的第一个月,本月节气有:惊蛰、春分;在南半球,3月是秋季的第一个月。英文中的3月(March)来源于古罗马战神玛尔斯。
  • 圣贝尼托县圣贝尼托县(San Benito County, California)是美国加利福尼亚州的一个县,位于太平洋海岸山脉。面积3,605平方公里,根据美国2000年人口普查数字,共有人口53,234人。县治霍利斯特(Ho
  • 本因坊秀哉本因坊秀哉(1874年6月24日-1940年1月18日),日本围棋棋手,本名田村保寿,生于东京芝樱田町,父亲田村保永。法名日温。保寿十岁进入方圆社,受村濑秀甫五子,之后开始做方圆社的塾生。十三
  • 天外魔蛛天外魔蛛(英语: Arachnid ,又译作 “杀出虫围”)2001年6月29日上映于西班牙的魔幻电影。该片讲述了巨人蜘蛛杀手威胁飞机失事幸存者的故事。这部影片是限量发行版。它是低预算,高
  • 皮帕克格拉德斯通皮帕克格拉德斯通(英语:Peapack-Gladstone,也被写作Peapack and Gladstone)是美国新泽西州萨默塞特郡的一个自治市镇。 截至2010年人口普查,自治市人口为2582人,与2000年人口普查