C4.5算法

✍ dations ◷ 2025-07-19 07:04:28 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 嵌入嵌入(英语:Intercalation,或译插层)在化学上是指在两个分子或基团之间加入一个分子,过程可逆。例如DNA嵌入与石墨嵌入化合物(graphite intercalation compound)。有许多分子可与生
  • 遗传污染基因污染(英语:Genetic pollution)指对原生物种基因库非预期或不受控制的基因流动。长期以来,保护生物学以及自然保护提倡者用基因污染这一术语来形容从家养的、野生的、非本土
  • 花翠素翠雀花素(英文:delphinidin) ,也叫飞燕草素、花翠素,是最常见的花青素之一,既是一种植物色素也是一种抗氧化剂。 翠雀花素在翠雀属和堇菜属植物中的存在导致显现蓝色。它还给了赤
  • 甘油磷脂甘油磷脂(Phosphoglyceride或Glycerophospholipid)是由甘油构成的磷脂,其分子结构中甘油的1号和2号位羟基均被脂酰基取代,3号位羟基则为含磷基团所取代。是一种两性分子。它们是
  • 杨炽昌杨炽昌(1908年-1994年)是台湾日治时期著名诗人,笔名:水荫萍、南润。台南市人。杨炽昌9岁进入台南第二公学校(现在的“立人国小”),读了5年公学校后,考入台南二中与日本人共学,毕业后于
  • 传播载体在流行病学中,载体又称为病媒,是指疾病携带者和传播者,但其本身不受影响。如疟蚊是疟疾的载体,它在吸血的过程中可以将导致疟疾的疟原虫传入人体内,但疟原虫对于疟蚊本身却不带来
  • 日本脑炎疫苗日本脑炎疫苗(Japanese encephalitis vaccine)是一种预防日本脑炎的疫苗。疫苗的预防功效达90%,效果持续时间目前仍不清楚,但效力似乎会随时间逐渐减弱。接种方式包含肌肉注射及
  • 比克曼的世界《比克曼的世界》(英语:)又名《怪头博士》,是一部美国针对少儿的科普电视短剧。该剧用一种趣味幽默的方式解释科学问题,所以深受孩子们的喜爱。该节目以由约克·丘奇(Jok Church)
  • 里诺·莱斯德利里诺·莱斯德利(意大利语:Lino Lacedelli,1925年12月4日-2009年11月20日)是一位意大利登山家,于1954年7月31日,同队友阿奇里·科帕哥罗尼一起成功首登海拔8611米的世界第二高峰-乔戈
  • 308nm准分子激光308nm准分子激光是以氯化氙(化学式:XeCl)为激光受激气体而产生的波长为 308nm 的紫外激光。由于发现308nm准分子激光对皮肤病的治疗作用,2000年美国FDA开始用于皮肤病治疗领域,20