多元分类

✍ dations ◷ 2025-12-03 08:16:33 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 非部,为汉字索引中的部首之一,康熙字典214个部首中的第一百七十五个(八划的则为第九个)。就繁体和简体中文中,非部归于八划部首。非部只以上方、下方为部字。且无其他部首可用者
  • 拉美西斯六世拉美西斯六世(英语:Ramesses VI)古埃及新王国时期第二十王朝的第五任法老。(约公元前1145年—约公元前1137年在位),他即位后王室动荡,他霸占了拉美西斯五世的陵墓。由于高级官员和
  • 荒野参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):荒野,是地球上尚未受到大规模人类活动改造的自然地带。它
  • 杰斐逊杰斐逊城(Jefferson City, Missouri)是美国密苏里州州府、科尔县县治。位于该州中部、密苏里河南岸。根据美国2000年人口普查,人口为39,636 人。联邦:各州:海外领地:
  • 大陆议会大陆会议(英语:Continental Congress),或作大陆议会,是指北美十三州在1774年至1789年间组成的联合议会,是为美国国会的前身。大陆会议与美国革命息息相关。18世纪中叶,英国与其北美
  • 怀化南站怀化南站,是沪昆客运专线及怀衡铁路的一个火车站,位于中国湖南省怀化市鹤城区市区湖天大道,已于2014年12月16日投入运营。怀化南站每天停靠列车次数共48次,其中始发车19次。截至
  • 坊子区坊子区是山东省潍坊市下辖的一个市辖区。据传,古驿道一般自州县向外三十里作坊。唐代,在潍县南往安丘、诸城驿道三十里处,凿井一眼,井旁筑一方土堆,以示标志。清末,前宁家沟刘起有
  • 2008年被中华人民共和国处决的死刑犯列表被中华人民共和国处决的死刑犯列表旨在列出被中华人民共和国处决的死刑犯。
  • 奥地利人民党奥地利人民党(德语:Österreichische Volkspartei,缩写为ÖVP),奥地利中间偏右保守主义政党。前身是1887年建立的奥地利基督社会党,其政治理念以及选民阶层大致与德国基督教民主联
  • 吉尔·亨内斯吉尔·亨内斯(英语:Jill Hennessy,1968年11月25日-)出生于加拿大阿尔伯塔省埃德蒙顿,为加拿大女演员和音乐人。1968年,亨内斯出生于加拿大阿尔伯塔省埃德蒙顿,她的父亲是约翰·亨内