C4.5算法

✍ dations ◷ 2025-12-10 22:50:06 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 猞猁猞猁属(学名:Lynx),短尾胸腹白毛耳尖黑毛,也称为山猫、大山猫、林㹭,是哺乳纲食肉目猫科的一属,主要分为四种:
  • 科学可视化科学可视化(英语:scientific visualization 或 scientific visualisation)是科学之中的一个跨学科研究与应用领域,主要关注的是三维现象的可视化,如建筑学、气象学、医学或生物学
  • 孟德尔遗传孟德尔定律是一系列描述了生物特性的遗传规律并催生了遗传学诞生的著名定律,包括两项基本定律和一项原则即:显性原则、分离定律(孟德尔第一定律),以及自由组合定律(孟德尔第二定律
  • 阿摩司·奥兹阿摩司·奥兹(希伯来语: עמוס עוז,拉丁化:Amos Oz‬‎,1939年5月4日-2018年12月28日),原名阿摩司·克劳斯纳(Amos Klausner),当代以色列文坛最杰出的作家,也是最富有国际影响的希
  • 他汀类药物羟甲基戊二酸单酰辅酶A还原酶抑制剂(英语:HMG-CoA reductase inhibitors 或 Statins,简称“HMG-CoA还原酶抑制剂”或“他汀类药物”)是一类抗高血脂药。因他汀类有降低低密度脂
  • 沃尔夫冈·许塞尔沃尔夫冈·许塞尔(Wolfgang Schüssel,1945年6月7日-)生于维也纳,奥地利人民党政治家。2000年-2007年出任奥地利总理。许塞尔是维也纳大学法律系毕业,博士学位。1995年任奥地利人民
  • 舞蹈家舞者,是指专职舞蹈演出,以身体动作表达意念及美感的专业人士。在职业规范化的中国大陆属演员分类下的“舞蹈演员”。舞者按不同的舞蹈种类要求,需接受不同的训练,但相同之处是必
  • SSE公司SSE公司(SSE plc),旧称苏格兰和南方能源公司(Scottish and Southern Energy plc),是英国的一家能源公司,总部位于苏格兰珀斯。SSE公司在伦敦证券交易所上市,是FTSE100指数的成份股之
  • 澳门贸易投资促进局澳门贸易投资促进局(葡文:Instituto de Promoção do Comércio e do Investimento de Macau,简称贸促局)是澳门特别行政区政府经济财政司辖下的部门;其前身为1994年成立的贸易
  • 第二十第二十航空队(英语:Twentieth Air Force)是美国空军全球打击司令部下属的一个编号航空队,指挥部位于佛罗里达州的弗朗西斯.E.沃伦空军基地(英语:Francis E. Warren Air Force Base