C4.5算法

✍ dations ◷ 2025-11-19 18:42:22 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 疏水性在化学里,疏水性指的是一个分子与水互相排斥的物理性质。这种分子称为疏水物。疏水性分子偏向于非极性,并因此较会溶解在中性和非极性溶液(如有机溶剂)。疏水性分子在水里通常会
  • 工业生态学工业生态学(Industrial ecology,简称IE)又称产业生态学,是对开放系统的运作规律通过人工过程进行干预和改变,在一般的开放系统中资源和资金经过一系列的运作最终结果是变成废物垃
  • 浓硝酸硝酸(分子式:HNO3)是一种强酸,是三酸两碱其一,其水溶液俗称硝镪水。纯硝酸为无色液体,沸点83℃,味苦,在-42℃时凝结为无色晶体,与水混溶,有强氧化性和腐蚀性。其不同浓度水溶液性质有
  • 铁砧铁砧是一种常用工具,其最简单的形式是有一个用以放置锻打物体坚硬平面的金属块。铁砧的惯性能够使锻打工具的能量转移到工件上。在大多数情况下,砧用于金属锻造方面。在现代焊
  • 抗雄性激素抗雄激素(anti-androgens),或称为雄性激素拮抗剂(androgen antagonists)。于1960年代时被发现,借由阻断特定的受体而抑制雄性激素的作用。可以竞争细胞表面的接受器或是影响雄性激
  • UDP协议用户数据报协议(英语:User Datagram Protocol,缩写:UDP;又称用户数据包协议)是一个简单的面向数据报的通信协议,位于OSI模型的传输层。该协议由David P. Reed(英语:David P. Reed)在19
  • 开基武庙原正殿坐标:22°59′47″N 120°12′03″E / 22.996442°N 120.200831°E / 22.996442; 120.200831开基武庙,俗称小关帝庙,位于台南市中西区,是一间供奉关圣帝君的庙宇,也是台南市定古
  • 蜥虱属蜥虱(学名)是一属已灭绝的跳蚤。蜥虱长2.5厘米,生存于白垩纪。它们可能像今天蝙蝠上的跳蚤一般吸食翼龙目的血液。在《与恐龙共舞》中也有出现蜥虱,它们正寄生在鸟掌翼龙身上。P
  • 鲍克宽鲍克宽(1440年-?),字栗之,直隶凤阳府寿州人,明朝政治人物。进士出身。山东乡试第二十六名。成化二年(1466年),参加丙戌科会试,得贡士第二百七十名。殿试登进士第二甲第二十二名。曾官扬
  • 神保相茂神保相茂(1582年—1615年6月3日)是安土桃山时代至江户时代初期的武将。父亲是神保春茂。通称长三郎。在天正10年(1582年)出生。与越中神保氏(日语:神保氏)同族,父亲春茂的血统是神保