多元分类

✍ dations ◷ 2025-11-19 08:46:02 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 中世纪温暖时期中世纪温暖时期是指北大西洋地区内由公元10世纪到14世纪所出现一个不正常温暖的时期。大约是在公元950年至1150年,相当于中国的北宋时期。中世纪温暖时期常常成为全球变暖的
  • 乡村乡村社会学是社会学的分支之一,以非都市地区内的社会生活为研究范畴。更仔细来说,它是一个关于远离人口密集地区或经济活动地区的社会组织和行为的科学研究。正如其他社会学分
  • 雅高雅高酒店集团(Accor)是一家大型的法国跨国企业 ,在将近100个国家中经营,股票列入巴黎CAC40指数。 雅高旗下的雅高酒店是欧洲旅馆业的霸主,在全球拥有超过4000家旅馆,涵盖最豪华的
  • 通讯通信是发送者通过某种媒体以某种格式来传递信息到收信者以达致某个目的。广义上,任何信息的交通都是通信,狭义上的通信专指以电为载体进行的信息交流,所以很多时候,“通信”与“
  • 盖洛普调查机构盖洛普,是一间以调查为基础的全球绩效管理咨询公司,于1935年由乔治·盖洛普所创立。该公司以其于世界各国所做的民意调查而闻名。盖洛普与世界各地的组织合作。在1988年,也就是
  • 海驴岛海驴岛(日语:海驢島/とどじま Todojima */?),又称海马岛,是位于日本北海道礼文郡礼文町、礼文岛的最北方,须古顿岬外海的无人岛。岛上住有斑海豹,并设有灯塔,在晴天时或可远望至库
  • 秘鲁总统政治主题根据1993年制定的秘鲁宪法,秘鲁总统官方称为“共和国总统”(Presidente de la República,President of the Republic),是秘鲁的国家元首和武装部队最高司令官。总统的任
  • A16高速公路 (意大利)A16高速公路(意大利语:Autostrada A16),又称两海高速公路(Autostrada dei due mari),是意大利一条高速公路,自第勒尼安海的那不勒斯,横贯亚平宁半岛南部,通往东岸的卡诺沙-迪普利亚并
  • 伊戈尔·阿金费耶夫伊戈尔·阿金费耶夫(俄语:Игорь Владимирович Акинфеев,拉丁字母:Igor Vladimirovich Akinfeev,1986年4月8日-)是一位俄罗斯足球运动员,在场上担当守门员
  • Linux历史历史上,Linux操作系统内核以其不断的发展为特点。它的源代码已经从1991年初次发布的几个C语言文件扩展到2007年的290MB源文件;发布许可也从禁止商业化发布,变为在通用公共许可