多元分类

✍ dations ◷ 2024-12-22 18:02:45 #分类算法,统计分类

在机器学习中,多元分类是将实例分配到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为二分类)。

显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。

需要注意的是,多分类不应和多标签分类相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。

这部分讨论将多分类问题转化为多个二分类问题的策略。

:182, 338 (或,OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。:182

通过OvR方法使用二分类算法L建立多分类学习器,其伪代码表示如下:

当进行多分类时,需要将所有的二分类分类器应用于一个未知样本x,x的最终分类类别即为产生最大置信度的分类器所对应的标签k:

尽管这一策略很流行,但它是一个受到些许问题困扰的启发式算法。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。:338

(OvO) 的转化中,对于一个K类多分类问题,训练 ( − 1) / 2 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 ( − 1) / 2 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。:183

相关

  • 登革热病毒登革热(法語:La fièvre de la dengue ; 英語:dengue fever),也称为骨痛热症、断骨热、天狗热,是一种由登革热病毒引起的由蚊媒热带病(英语:tropical disease)。患者大约会在感染后3
  • 甜品甜品(英语:Dessert)是西餐正餐的最后一道甜味菜品,也可以说是西方人在餐后食用的甜味食物。可以是水果拼盘、小蛋糕、馅饼、布丁或者冰激凌等。如今,中文中甜品一词还可指称所有(
  • Hypatia希帕提娅(古希腊语:Ὑπατία,生于约350年-370年之间,死于415年3月),又译作海芭夏、海帕西娅,著名的希腊化古埃及新柏拉图主义学者,是当时名重一时、广受欢迎的女性哲学家、数学家
  • 伯努利丹尼尔·伯努利(Daniel Bernoulli,1700年2月8日-1782年3月17日),生于荷兰格罗宁根,著名数学家,约翰·伯努利之子,为伯努利家族代表人物之一。其伯努利定律适用于沿着一条流线的稳定
  • 布芒语布芒语是一种使用于中国云南省金平苗族瑶族傣族自治县的语言,系属于南亚语系,是傣族支系曼仗傣的母语。该语言在21世纪初才被中国语言学者刀洁发现。这种语言与使用于越南的抗
  • 衔接体信号转导接头蛋白或信号转导衔接蛋白(英语:Signal transducing adaptor proteins)是信号转导通路中的重要蛋白质。接头蛋白上有着各种能与其它蛋白结合的结构域,能形成各种信号
  • 巴韦安岛巴韦安岛是印度尼西亚的岛屿,位于泗水以北150千米的爪哇海,行政方面由东爪哇省管辖,面积196.27平方千米,最高点海拔655米,2009年人口约75,000,女性占77%。坐标:5°46′S 112°40′E
  • 世界女子冰球锦标赛世界女子冰球锦标赛(英语:IIHF Women's World Hockey Championship)于1990年创办,由国际冰球总会主办,一年一届,1995年和1996年本赛事被欧洲锦标赛和环太平洋锦标赛代替。直到2010
  • 保罗·托马斯·安德森保罗·托马斯·安德森(Paul Thomas Anderson,1970年6月26日-)是一位美国电影导演,出生于加利福尼亚州。1999年,他以《心灵角落》获得柏林电影节金熊奖;另外他以《恋爱鸡尾酒》(2002
  • 休·珀西·威尔金斯休·珀西·威尔金斯(英语:Hugh Percy Wilkins,1896年12月4日-1960年1月23日)是一位于出生于威尔士的工程师及业余天文学家。1896年12月4日,他出生在卡马森,父亲名叫休·珀西瓦尔·